Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

dplyr er en populær R-pakke til datamanipulation, hvilket gør det nemmere for brugere at arbejde med datarammer. En almindelig opgave, når man arbejder med data, er at omdøbe kolonner, som dplyr håndterer effektivt ved hjælp af rename()-funktionen.

Rename()-funktionen i dplyr er især nyttig, når man har at gøre med datasæt, der har kolonner med uklare eller tvetydige navne. Ved at give en enkel og intuitiv syntaks til at omdøbe kolonner, gør dplyr det nemmere for brugerne at forstå og vedligeholde deres kode.

Derudover kan denne funktion nemt kombineres med andre dplyr-operationer, såsom filtrering og opsummering, for at skabe et problemfrit datamanipulations-workflow i R.

Disse funktioner er også tilgængelige i , så de er ikke unikke for R-programmet. R er dog bedre til at håndtere dem.

I den følgende artikel vil vi udforske detaljerne i dplyrs rename()-funktion og dens forskellige applikationer, hvilket eksemplificerer, hvor effektiv den kan være til at administrere datarammer.

Vi vil også lære, hvordan du tilføjer og fjerner kolonner i R ved hjælp af dyplr.

Ved at lære disse teknikker kan brugerne forbedre det praktiske i deres datamanipulationsindsats, producere mere robuste og fejlfrie analyser og have det sjovt undervejs!

Lad os komme ind på noget datavidenskab, det er tid til at tude, eller skal vi sige, bringe på base R!

Indholdsfortegnelse

Forstå Dplyr Rename

dplyr-pakken i R er en populær tidyverse- pakke til datamanipulation, der tilbyder et sæt nyttige funktioner til at transformere og organisere datasæt. Blandt disse funktioner er rename()-funktionen særlig praktisk, når det kommer til at ændre kolonnenavne i en dataramme.

For at bruge funktionen rename() skal du blot angive det nye kolonnenavn efterfulgt af det gamle, sådan her: new_name = old_name. Lad os for eksempel overveje en eksempeldataramme, hvor vi vil ændre kolonnenavnet "gammel1" til "ny1". Syntaksen ville se sådan ud:

library(dplyr)
df %>% rename(new1 = old1)

Derudover giver funktionen rename_with() dig mulighed for at omdøbe kolonner ved hjælp af en specificeret transformationsfunktion. For eksempel kan du bruge den øverste funktion til at konvertere alle kolonnenavne til store bogstaver:

df %>% rename_with(toupper)

Hvis du har brug for at omdøbe flere kolonner på én gang, giver dplyr to metoder. Den første involverer brug af rename()-funktionen, der giver flere nye og gamle kolonnenavne som argumenter:

df %>% rename(new1 = old1, new2 = old2)

Den anden metode involverer brug af rename_with()-funktionen, hvor du definerer arrays af gamle og nye kolonnenavne:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Begge metoder, som vist i eksemplerne ovenfor, vil give det samme resultat.

Installation og indlæsning af Dplyr

For at begynde at bruge dplyr-pakken til at omdøbe kolonner, skal du først installere og indlæse pakken i dit R-miljø. Installation af dplyr er en simpel proces, der kan udføres ved hjælp af følgende kommando:

install.packages("dplyr")

Når installationen er fuldført, kan du indlæse dplyr-pakken i dit R-script ved hjælp af biblioteksfunktionen:

library("dplyr")

Med dplyr-pakken installeret og indlæst, kan du nu bruge dens kraftfulde datamanipulationsfunktioner, inklusive rename()-funktionen til at omdøbe kolonner i din dataramme.

Her er et eksempel på brug af rename()-funktionen med det velkendte iris-datasæt. Antag, at du vil omdøbe kolonnen "Sepal.Length" til "sepal_length". Du kan opnå dette ved at bruge følgende kode:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

I dette kodestykke bruges %>%-operatoren til at overføre irisdatasættet til rename()-funktionen. Det nye kolonnenavn "sepal_length" er tildelt det gamle kolonnenavn "Sepal.Length". Den resulterende dataramme med den omdøbte kolonne tildeles derefter variabelnavnene, iris_omdøbt.

Funktionen rename() kan også håndtere omdøbning af flere kolonner på én gang. For eksempel, hvis du vil omdøbe både "Sepal.Length" og "Sepal.Width" kolonner til henholdsvis "sepal_length" og "sepal_width", kan du bruge følgende kode:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Dette kodestykke viser, hvor nemt det er at omdøbe flere kolonner i en dataramme ved hjælp af dplyrs rename()-funktion.

Brug af Dplyr Rename-funktionen

dplyr-pakken i R er et kraftfuldt værktøj til datamanipulation, når du arbejder med datarammer. En af de mange nyttige funktioner, den giver, er omdøbningsfunktionen, som giver dig mulighed for nemt at omdøbe kolonner i din dataramme.

Grundlæggende syntaks

Den grundlæggende syntaks for at bruge omdøbningsfunktionen i dplyr er som følger:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Denne kommando vil omdøbe den angivne gamle kolonne til det ønskede nye kolonnenavn uden at ændre andre kolonner i datarammen.

Omdøbning af flere kolonner

Du kan også omdøbe flere kolonner på én gang ved at bruge den samme omdøbningsfunktion. For at gøre dette skal du bare adskille hver kolonne ved at omdøbe parret med et komma:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Ved at bruge denne tilgang kan du omdøbe så mange kolonner som nødvendigt i en enkelt sætning.

Alternativt kan du bruge rename_with()funktionen til at anvende en transformation til kolonnenavne. Denne funktion tager en dataramme og en funktion, der vil blive anvendt på kolonnenavnene for at generere de nye navne. For eksempel:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Dette vil konvertere de angivne kolonnenavne til store bogstaver.

Kædning med andre Dplyr-funktioner

En af styrkerne ved dplyr er dens evne til at kæde flere handlinger sammen ved hjælp af %>%operatøren. Dette giver dig mulighed for at udføre en række datamanipulationer på en kortfattet og letlæselig måde. Når du bruger omdøbningsfunktionen, kan du kæde den sammen med andre dplyr-funktioner såsom filter(), mutate(), og summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

Dette eksempel viser en række datamanipulationer, hvor datafiltrering først udføres, efterfulgt af omdøbning af en kolonne, oprettelse af en ny kolonne ved hjælp af mutate og til sidst opsummering af dataene med en aggregeringsfunktion.

Ved at udnytte kraften i dplyrs omdøbningsfunktion og kædefunktioner kan R-brugere udføre effektive og læsbare datamanipulationer på deres datarammer.

Almindelige Dplyr Rename Use Cases

Dplyr er en kraftfuld pakke i R, der giver et sæt funktioner til at udføre datamanipulationsopgaver. En almindelig opgave er at omdøbe kolonner i en dataramme. I dette afsnit vil vi diskutere nogle almindelige brugstilfælde for omdøbningsfunktionen i dplyr.

1. Enkel kolonneomdøbning:

At omdøbe en enkelt kolonne er ligetil ved hjælp af rename()funktionen. Syntaksen er rename(dataframe, new_name = old_name). Her er et eksempel:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Omdøbning af flere kolonner:

Du kan også omdøbe flere kolonner i et funktionskald ved at give yderligere kolonnetilknytning inde i rename()funktionen. Her er et eksempel:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Omdøbning af kolonner ved hjælp af strengfunktioner:

Du kan omdøbe kolonner ved hjælp af strengfunktioner, såsom tolower()eller toupper(), ved at bruge rename_with()funktionen. Ifølge Stack Overflow erstatter denne funktion de nu afløste rename_if, rename_atog rename_all-funktioner. Her er et eksempel:

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Omdøbning af kolonner baseret på en betingelse:

Med rename_with()kan du anvende brugerdefinerede omdøbningsfunktioner og endda brugsbetingelser. Følgende eksempel viser omdøbning af kolonner baseret på, om de indeholder en bestemt streng:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Håndtering af fejl og kantsager

Mens du bruger funktionen dplyr omdøb til at ændre kolonnenavne i en dataramme, kan du støde på nogle fejl eller kanttilfælde på grund af dublerede kolonnenavne, mellemrum i kolonnenavne eller forkert syntaks. Dette afsnit giver vejledning i, hvordan man løser disse problemer.

Når det drejer sig om duplikerede kolonnenavne, kan dplyr ikke omdøbe kolonnerne med det samme outputnavn. Men en løsning til at unduplikere kolonnenavne er at bruge funktionen rename_allfra dplyr-pakken sammen med paste0:

d %>% rename_all(~paste0(., 1:2))

Denne kode vil tilføje et tal fra 1 til 2 til hvert kolonnenavn, hvilket sikrer, at der ikke er dubletter. Flere detaljer kan findes i denne Stack Overflow-diskussion .

Hvis der er mellemrum i kolonnenavne, kan du bruge backticks til at omslutte kolonnenavnene som dette:

df %>% rename(foo = `test col`)

Endelig, hvis du står over for problemer relateret til, at dplyr ikke accepterer funktionen paste0()som old_name i rename(), er en mulig løsning at konstruere de nye kolonnenavne uden for funktionen rename()og derefter bruge dem som input. En relevant diskussion om et lignende spørgsmål kan findes i dette Stack Overflow- spørgsmål .

Ved at adressere disse fejl og edge-tilfælde vil du være bedre rustet til at håndtere komplekse omdøbningsscenarier i dplyr.

I dette sidste afsnit af vores artikel om dplyr-omdøbning har vi diskuteret dets betydning i datamanipulationsopgaver. Funktionen rename() giver brugerne mulighed for at ændre kolonnenavne effektivt, hvilket fører til klarere og mere præcise datarammer. Dette bliver især nyttigt, når man har at gøre med store datasæt eller under dataforbehandlingstrin.

Ved at bruge dplyr-pakken er det ligetil at omdøbe kolonner i R, det er ikke svært datavidenskab, tjek nedenstående:

  rename(new_column_name = old_column_name)

Denne enkle syntaks lader dig erstatte gamle kolonnenavne med nye, hvilket forbedrer læsbarheden og sikrer ensartethed i dine data. Derudover kan funktionen rename_with() bruges til at ændre kolonnenavne ved hjælp af en specifik funktion. Dette giver større kontrol og tilpasning af dine datamanipulationer.

Ved at udnytte kraften i dplyr og omdøbningsfunktionen kan du trygt manipulere dine data og forbedre de overordnede databehandlingsmuligheder. Husk altid at bruge pålidelige kilder, når du lærer nye R-programmeringsteknikker, som f.eks

Med dplyr omdøb i dit værktøjssæt er du godt rustet til at tackle en række forskellige datamanipulationsudfordringer og fortsætte med at fremme din R-programmeringsekspertise.

Yderligere eksempler fra den virkelige verden - Tilføjelse, fjernelse og omdøbning af kolonner

Kolonneoperationer giver dig mulighed for at beregne, tilføje, fjerne og omdøbe kolonner i R ved hjælp af dplyr . Åbn et nyt R-script i RStudio. Hvis du ikke ved hvordan, så klik på linkene for at finde ud af hvordan og .

Til denne demonstration bruges Lahman-datasættet . Dette indeholder baseball-optegnelser, der går over hundrede år tilbage. Det er et godt datasæt at bruge til praksis. Du kan downloade den ved at lave en hurtig google-søgning.

Desuden har Lahman-pakken et datasæt mærket Teams , med stort T. En bedste praksis til at navngive konventioner i R er at bruge små bogstaver. Så dette skal først konverteres til hold , som det ses på billedet nedenfor.

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Grundlæggende funktioner til kolonneoperationer

1. Tilføj nye kolonner i R

Den første funktion er mutere ( ) . Dette opretter en ny kolonne baseret på eksisterende kolonner.

Hvis du vil beregne en ny kolonne, kan du bruge muterfunktionen efter argumentet:

df er et stand-in navn for enhver form for dataramme. Så når den er i brug, skal du erstatte df med navnet på den dataramme, du vil mutere. Derefter placerer du de nye variabler, der skal navngives, sammen med formlen for at udlede den nye kolonne.

Som et eksempel vil mutationsfunktionen blive brugt til at finde vinderprocenten for hver kolonne. I Lahman-datasættet er der kolonnen Vind og tab. For at få procentdelen skal du dividere gevinst med summen af ​​gevinst og tab. Men før du kan gøre det, skal du medbringe dplyr-pakken.

Her er, hvad der sker, hvis du kører mutationsfunktionen uden dplyr:

Du får en fejl, der siger "kunne ikke finde funktion mutere".

Så her er, hvordan du bringer dplyr ind i R. Du behøver kun at køre library (tidyverse) .

Du vil se, at dplyr er blandt de mange funktioner i tidyverse -pakken. En anden mulighed er at køre bibliotek (dplyr) .

Hvis du nu placerer din markør på koden med mutate -funktionen og kører den, vil du så se Wpct- kolonnen, der indeholder de vindende procenter.

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

I dette tilfælde blev resultatet af den muterede funktion kun kørt; den tildelte ikke dataene.

Hvis du vil tildele resultatet af mutationsfunktionen til datateamene , skal du bruge tildelingsoperatoren ( <-> ). Når du er færdig, skal du køre den. Så i en anden linje, kør hoved (hold) . Dette vil tildele resultatet til teamets datasæt.

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Hvis du vil kontrollere, hvilke kolonner der er tilgængelige i et datasæt, skal du bruge funktionen navne ( ) . Dette vil vise alle kolonnenavnene i dataene.

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Du kan også bruge eksisterende funktioner som en del af mutationsfunktionen . Du kan f.eks. tage loggen for et bestemt datasæt ved hjælp af funktionen log ( ) .

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

2. Vælg kolonner i R

En anden funktion i dplyr er select ( ) . Den enten dropper eller vælger givne kolonner. Dens grundlæggende algoritme er:

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Du skal indtaste datarammenavnet og derefter de kolonner, du vil vælge.

For eksempel, hvis du vil beholde år-ID, gevinster og tabskolonner i datasættet, behøver du kun at køre:

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Så får du det resultat, du ønsker:

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Men hvis du ikke bruger hovedfunktionen ( ) , vil resultatet vise de nederste rækker af kolonnerne. Så hvis du har at gøre med flere rækker af data, skal du hele tiden rulle op for at komme til toppen af ​​kolonnen.

En bedste praksis er at bruge hovedfunktionen sammen med select. Så når du kører koden, vil resultatet vise de øverste rækker i kolonnen først.

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Hvis du nu vil fjerne kolonner fra datasættet, skal du kun placere et minustegn ( ) før kolonnenavnet.

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

For at kontrollere, om en kolonne faktisk er blevet fjernet, kan du sammenligne det nye datasæt fra det gamle. Sådan gør du:

Først skal du tildele R-koden med select -funktionen til et objekt. I dette eksempel er det blevet tildelt til teams_short . Brug funktionen ncol ( ) for at tælle antallet af kolonner . Kør ncol -funktionen for både teams_short og teams .

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Du vil derefter se, at en kolonne blev fjernet fra datasættet.

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

3. Omdøb kolonner i R

Den sidste kolonnefunktion i dplyr er rename ( ) . Og som navnet antyder, kan den omdøbe udvalgte kolonner i R.

Dette er dens grundlæggende algoritme:

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Og du vil bemærke, at det er lidt kontraintuitivt; det nye navn kommer først, mens det gamle navn kommer efter det. Så sørg for ikke at blande dem sammen.

Som et eksempel vil de aktuelle årID- og divID- kolonner blive omdøbt til henholdsvis year_id og division_id . Før du kører koden, skal du sørge for at tildele denne til et nyt objekt for ikke at forstyrre det originale datasæt.

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

For at kontrollere, om disse valgte kolonner har fået deres navne ændret, skal du bruge funktionen navne ( ) .

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Du vil se, at kolonnerne faktisk er blevet omdøbt.

Tilføj, fjern og omdøb kolonner i R ved hjælp af Dplyr

Har du nogensinde undret dig over, hvor kraftfuld R er, når den bruges sammen med LuckyTemplates, så tjek denne fantastiske teknik, den vil spare dig for en masse tid.

Det sidste ord

Denne tutorial har diskuteret tre grundlæggende dplyr- funktioner, du kan bruge til at udføre kolonneoperationer. Specifikt lærte du, hvordan du tilføjer, fjerner og omdøber kolonner i R.

Der er stadig andre funktioner, som du endnu ikke har udforsket. Men det er vigtigt at kende til og være bekendt med mutate ( ) , vælg ( ) og omdøb ( ), da de er de mest almindelige.

Disse kolonneredigeringsteknikker kan også udføres i Power Query. Men det er også fantastisk at have viden om, hvordan man gør dette i dplyr. Dette vil helt sikkert hjælpe dig, når du går over til at analysere statistiske datasæt.

Ofte stillede spørgsmål

Hvad er forskellen mellem R og Python?

Til at begynde med er både R og Python programmeringssprog, men python er mere et almindeligt brugssprog, og R er et statistisk programmeringssprog. Python er et mere almindeligt brugt, forstået og alsidigt sprog.

Hvad er str?

str viser blot strukturerne for r objekter

Hvad er Petal.Length i R?

Petal.length er et format, der bruges i hele R til at fortælle forhold, vi tester.

Hvad er en DataFrame i R?

En R-dataramme er en tabelformet datastruktur, der almindeligvis bruges til at gemme værdier af enhver type data.

Hvad står dbl for?

Dbl står for "dobbelt klasse", det er en datatype, der bruges til at holde numeriske værdier, der indeholder decimaler.


Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.

Datamodellering i LuckyTemplates ved hjælp af understøttende tabeller

Datamodellering i LuckyTemplates ved hjælp af understøttende tabeller

Lær nogle fantastiske analytiske teknikker, som vi kan gøre til datamodellering i LuckyTemplates ved hjælp af DAX-understøttende tabeller.

Avanceret DAX til LuckyTemplates: Implementering af rangeringslogik på tværs af unikke indsigter

Avanceret DAX til LuckyTemplates: Implementering af rangeringslogik på tværs af unikke indsigter

Her dykker vi ned i LuckyTemplates Advanced DAX og implementerer rangeringslogik for at få en meget unik indsigt. Jeg viser også måleforgrening i dette eksempel.

LuckyTemplates What-If-parameterfunktion

LuckyTemplates What-If-parameterfunktion

Denne blog introducerer den nye funktion i LuckyTemplates, What-If-analyseparameteren. Du vil se, hvordan det gør alt hurtigt og nemt til din scenarieanalyse.

Brug LuckyTemplates Mål forgrening for at kontrollere, om dine avancer udvides, efterhånden som omsætningen vokser

Brug LuckyTemplates Mål forgrening for at kontrollere, om dine avancer udvides, efterhånden som omsætningen vokser

Lær, hvordan du afgør, om din omsætningsvækst er god ved at kontrollere, om dine avancer er udvidet ved hjælp af LuckyTemplates, der måler forgrening.

LuckyTemplates-parametre via forespørgselseditor

LuckyTemplates-parametre via forespørgselseditor

Lær og forstå, hvordan du kan oprette og bruge LuckyTemplates Parameters, som er en kraftfuld funktion i Query Editor.

Rundt søjlediagram – en visualisering til dit dashboard

Rundt søjlediagram – en visualisering til dit dashboard

Denne vejledning vil diskutere om oprettelse af et rundt søjlediagram ved hjælp af Charticulator. Du lærer, hvordan du designer dem til din LuckyTemplates-rapport.

PowerApps funktioner og formler | En introduktion

PowerApps funktioner og formler | En introduktion

Lær, hvordan du bruger PowerApps-funktioner og -formler til at forbedre funktionaliteten og ændre adfærd i vores Power Apps-lærredsapp.

Pipe In R: Tilslutningsfunktioner med Dplyr

Pipe In R: Tilslutningsfunktioner med Dplyr

I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX fra LuckyTemplates giver dig mulighed for at returnere rangeringen af ​​et specifikt tal i hver tabelrække, der udgør en del af en liste over tal.