Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

dplyr er en populær R-pakke for datamanipulering, noe som gjør det enklere for brukere å jobbe med datarammer. En vanlig oppgave når du arbeider med data er å gi nytt navn til kolonner, som dplyr håndterer effektivt ved å bruke rename()-funksjonen.

Rename()-funksjonen i dplyr er spesielt nyttig når du arbeider med datasett som har kolonner med uklare eller tvetydige navn. Ved å tilby en enkel og intuitiv syntaks for å gi nytt navn til kolonner, gjør dplyr det enklere for brukere å forstå og vedlikeholde koden sin.

I tillegg kan denne funksjonen enkelt kombineres med andre dplyr-operasjoner, som filtrering og oppsummering, for å lage en sømløs datamanipuleringsarbeidsflyt i R.

Disse funksjonene er også tilgjengelige i , så de er ikke unike for R-programmet. R er imidlertid flinkere til å håndtere dem.

I den følgende artikkelen vil vi utforske detaljene i dplyrs rename()-funksjon og dens ulike applikasjoner, og eksemplifisere hvor effektiv den kan være i å administrere datarammer.

Vi vil også lære hvordan du legger til og fjerner kolonner i R ved hjelp av dyplr.

Ved å lære disse teknikkene kan brukerne forbedre det praktiske i datamanipulasjonsarbeidet, produsere mer robuste og feilfrie analyser og ha det gøy underveis!

La oss komme inn på litt datavitenskap, det er på tide å tulle, eller skal vi si, ta med base R!

Innholdsfortegnelse

Forstå Dplyr Rename

dplyr-pakken i R er en populær tidyverse- pakke for datamanipulering som tilbyr et sett med nyttige funksjoner for transformering og organisering av datasett. Blant disse funksjonene er rename()-funksjonen spesielt nyttig når det gjelder å endre kolonnenavn i en dataramme.

For å bruke rename()-funksjonen, oppgi det nye kolonnenavnet etterfulgt av det gamle, slik: new_name = old_name. La oss for eksempel vurdere en eksempeldataramme der vi ønsker å endre kolonnenavnet "gammel1" til "ny1". Syntaksen vil se slik ut:

library(dplyr)
df %>% rename(new1 = old1)

I tillegg lar funksjonen rename_with() deg gi nytt navn til kolonner ved å bruke en spesifisert transformasjonsfunksjon. Du kan for eksempel bruke den øverste funksjonen til å konvertere alle kolonnenavn til store bokstaver:

df %>% rename_with(toupper)

Hvis du trenger å gi nytt navn til flere kolonner samtidig, tilbyr dplyr to metoder. Den første involverer bruk av rename()-funksjonen, og gir flere nye og gamle kolonnenavn som argumenter:

df %>% rename(new1 = old1, new2 = old2)

Den andre metoden innebærer å bruke rename_with()-funksjonen, der du definerer matriser med gamle og nye kolonnenavn:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Begge metodene, som vist i eksemplene ovenfor, vil gi samme resultat.

Installere og laste inn Dplyr

For å begynne å bruke dplyr-pakken for å gi nytt navn til kolonner, må du først installere og laste inn pakken i ditt R-miljø. Installasjon av dplyr er en enkel prosess som kan utføres ved hjelp av følgende kommando:

install.packages("dplyr")

Etter at installasjonen er fullført, kan du laste dplyr-pakken i R-skriptet ditt ved å bruke bibliotekfunksjonen:

library("dplyr")

Med dplyr-pakken installert og lastet kan du nå bruke dens kraftige datamanipuleringsfunksjoner, inkludert rename()-funksjonen for å gi nytt navn til kolonner i datarammen.

Her er et eksempel på bruk av rename()-funksjonen med det velkjente iris-datasettet. Anta at du vil endre navn på "Sepal.Length"-kolonnen til "sepal_length". Du kan oppnå dette ved å bruke følgende kode:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

I denne kodebiten brukes %>%-operatoren til å overføre iris-datasettet til rename()-funksjonen. Det nye kolonnenavnet "sepal_length" er tilordnet det gamle kolonnenavnet "Sepal.Length". Den resulterende datarammen med den omdøpte kolonnen blir deretter tildelt variabelnavnene, iris_renamed.

Rename()-funksjonen kan også håndtere flere kolonner som gir nytt navn samtidig. Hvis du for eksempel vil endre navn på både "Sepal.Length" og "Sepal.Width"-kolonnene til henholdsvis "sepal_length" og "sepal_width", kan du bruke følgende kode:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Denne kodebiten viser hvor enkelt det er å gi nytt navn til flere kolonner i en dataramme ved å bruke dplyrs rename()-funksjon.

Bruke Dplyr Rename-funksjonen

dplyr-pakken i R er et kraftig verktøy for datamanipulering når du arbeider med datarammer. En av de mange nyttige funksjonene den gir, er endre navn-funksjonen, som lar deg enkelt endre navn på kolonner i datarammen.

Grunnleggende syntaks

Den grunnleggende syntaksen for å bruke rename-funksjonen i dplyr er som følger:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Denne kommandoen vil gi nytt navn til den angitte gamle kolonnen til det ønskede nye kolonnenavnet, uten å endre noen andre kolonner i datarammen.

Gi nytt navn til flere kolonner

Du kan også gi nytt navn til flere kolonner samtidig ved å bruke den samme endre navn-funksjonen. For å gjøre dette, skiller du hver kolonne ved å gi nytt navn til paret med et komma:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Ved å bruke denne tilnærmingen kan du gi nytt navn til så mange kolonner du trenger i en enkelt setning.

Alternativt kan du bruke rename_with()funksjonen til å bruke en transformasjon på kolonnenavn. Denne funksjonen tar en dataramme og en funksjon som vil bli brukt på kolonnenavnene for å generere de nye navnene. For eksempel:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Dette vil konvertere de angitte kolonnenavnene til store bokstaver.

Kobling med andre Dplyr-funksjoner

En av styrkene til dplyr er dens evne til å lenke flere handlinger sammen ved hjelp av operatøren %>%. Dette lar deg utføre en rekke datamanipulasjoner på en kortfattet og lettlest måte. Når du bruker funksjonen for å endre navn, kan du koble den sammen med andre dplyr-funksjoner som filter(), mutate(), og summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

Dette eksemplet viser en rekke datamanipulasjoner der datafiltrering gjøres først, etterfulgt av å gi nytt navn til en kolonne, opprette en ny kolonne ved hjelp av mutate, og til slutt oppsummere dataene med en aggregeringsfunksjon.

Ved å utnytte kraften til dplyrs rename-funksjon og kjedefunksjoner, kan R-brukere utføre effektive og lesbare datamanipulasjoner på datarammene sine.

Vanlige Dplyr Rename Use Cases

Dplyr er en kraftig pakke i R som gir et sett med funksjoner for å utføre datamanipulasjonsoppgaver. En vanlig oppgave er å gi nytt navn til kolonner i en dataramme. I denne delen vil vi diskutere noen vanlige brukstilfeller for endre navn-funksjonen i dplyr.

1. Enkelt navn på kolonne:

Det er enkelt å gi nytt navn til en enkelt kolonne ved å bruke rename()funksjonen. Syntaksen er rename(dataframe, new_name = old_name). Her er et eksempel:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Gi nytt navn til flere kolonner:

Du kan også gi nytt navn til flere kolonner i ett funksjonskall ved å tilby ytterligere kolonnetilordning inne i rename()funksjonen. Her er et eksempel:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Gi nytt navn til kolonner ved hjelp av strengfunksjoner:

Du kan gi nytt navn til kolonner ved å bruke strengfunksjoner, for eksempel tolower()eller toupper(), ved å bruke rename_with()funksjonen. I følge Stack Overflow erstatter denne funksjonen de nå erstattede rename_if, rename_atog rename_all-funksjonene. Her er et eksempel:

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Gi nytt navn til kolonner basert på en betingelse:

Med rename_with(), kan du bruke egendefinerte funksjoner for nytt navn og til og med bruksbetingelser. Følgende eksempel viser omdøpning av kolonner basert på om de inneholder en bestemt streng:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Håndtering av feil og kantsaker

Mens du bruker dplyr rename-funksjonen for å endre kolonnenavn i en dataramme, kan du støte på noen feil eller kanttilfeller på grunn av dupliserte kolonnenavn, mellomrom i kolonnenavn eller feil syntaks. Denne delen gir veiledning om hvordan du kan løse disse problemene.

Når du har å gjøre med dupliserte kolonnenavn, kan ikke dplyr gi nytt navn til kolonnene med samme utdatanavn. En løsning for å unduplikere kolonnenavn er imidlertid å bruke rename_allfunksjonen fra dplyr-pakken sammen med paste0:

d %>% rename_all(~paste0(., 1:2))

Denne koden vil legge til et tall fra 1 til 2 til hvert kolonnenavn, for å sikre at det ikke er noen duplikater. Flere detaljer finner du i denne Stack Overflow-diskusjonen .

I tilfelle det er mellomrom i kolonnenavn, kan du bruke backticks for å omslutte kolonnenavnene slik:

df %>% rename(foo = `test col`)

Til slutt, hvis du møter problemer knyttet til at dplyr ikke aksepterer funksjonen paste0()som old_name i rename(), er en mulig løsning å konstruere de nye kolonnenavnene utenfor funksjonen rename()og deretter bruke dem som input. En relevant diskusjon om et lignende problem finner du i dette Stack Overflow- spørsmålet .

Ved å adressere disse feilene og edge-tilfellene vil du være bedre rustet til å håndtere komplekse døpe-scenarier i dplyr.

I denne siste delen av artikkelen vår om dplyr endre navn, har vi diskutert betydningen av det i datamanipulasjonsoppgaver. Rename()-funksjonen lar brukere endre kolonnenavn effektivt, noe som fører til klarere og mer konsise datarammer. Dette blir spesielt nyttig når du arbeider med store datasett eller under dataforbehandlingstrinn.

Ved å bruke dplyr-pakken er det enkelt å gi nytt navn til kolonner i R, det er ikke vanskelig datavitenskap, sjekk ut nedenfor:

  rename(new_column_name = old_column_name)

Denne enkle syntaksen lar deg erstatte gamle kolonnenavn med nye, forbedre lesbarheten og sikre konsistens i dataene dine. I tillegg kan rename_with()-funksjonen brukes til å endre kolonnenavn ved å bruke en spesifikk funksjon. Dette gir større kontroll og tilpasning av datamanipulasjonene dine.

Ved å utnytte kraften til dplyr og endre navn-funksjonen, kan du trygt manipulere dataene dine og forbedre de generelle databehandlingsmulighetene. Husk å alltid bruke pålitelige kilder når du skal lære nye R-programmeringsteknikker, som f.eks

Med dplyr rename i verktøysettet ditt er du godt rustet til å takle en rekke datamanipulasjonsutfordringer og fortsette å fremme R-programmeringsekspertisen din.

Ytterligere eksempler fra den virkelige verden - Legge til, fjerne og gi nytt navn til kolonner

Kolonneoperasjoner lar deg beregne, legge til, fjerne og gi nytt navn til kolonner i R ved å bruke dplyr . Åpne et nytt R-skript i RStudio. Hvis du ikke vet hvordan, klikk på lenkene for å finne ut hvordan og .

For denne demonstrasjonen brukes Lahman datasettpakken . Dette inneholder baseball-poster som dateres tilbake over hundre år. Det er et godt datasett å bruke for praksis. Du kan laste den ned ved å gjøre et raskt google-søk.

Dessuten har Lahman-pakken et datasett merket Teams , med stor T. En beste praksis for å navngi konvensjoner i R er å bruke små bokstaver. Så dette må først konverteres til lag , som vist på bildet nedenfor.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Grunnleggende funksjoner for kolonneoperasjoner

1. Legg til nye kolonner i R

Den første funksjonen er mutere ( ) . Dette oppretter ny kolonne basert på eksisterende kolonner.

Hvis du ønsker å beregne en ny kolonne, kan du bruke mutate- funksjonen etter argumentet:

df er et stand-in navn for alle typer dataramme. Så når i faktisk bruk, erstatt df med navnet på datarammen du vil mutere. Deretter plasserer du de nye variablene som må navngis sammen med formelen for å utlede den nye kolonnen.

Som et eksempel vil mutate- funksjonen brukes til å finne vinnerprosenten for hver kolonne. I Lahman-datasettet er det en kolonne for seier og tap. For å få prosentandelen, del gevinst på summen av seier og tap. Men før du kan gjøre det, må du ta med dplyr-pakken.

Her er hva som skjer hvis du kjører mutate- funksjonen uten dplyr:

Du får en feilmelding som sier "kunne ikke finne funksjonen mutere".

Så, her er hvordan du henter inn dplyr til R. Du trenger bare å kjøre library (tidyverse) .

Du vil se at dplyr er blant de mange funksjonene i tidyverse -pakken. Et annet alternativ er å kjøre library (dplyr) .

Hvis du nå plasserer markøren på koden med mutate -funksjonen og kjører den, vil du se Wpct- kolonnen som inneholder vinnende prosenter.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

I dette tilfellet ble resultatet av den muterte funksjonen bare kjørt; den ble ikke tilordnet dataene.

Hvis du vil tilordne resultatet av mutate -funksjonen til datateamene , du bruke tilordningsoperatoren ( <-> ). Når du er ferdig, kjør den. Så i en annen linje, kjør hodet (lag) . Dette vil tilordne resultatet til teamets datasett.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Hvis du vil sjekke hvilke kolonner som er tilgjengelige i et datasett, bruker du funksjonen navn ( ) . Dette vil vise alle kolonnenavnene i dataene.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du kan også bruke eksisterende funksjoner som en del av mutasjonsfunksjonen . Du kan for eksempel ta loggen til et spesifikt datasett ved å bruke loggfunksjonen ( ) .

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

2. Velg kolonner i R

En annen funksjon i dplyr er select ( ) . Den enten dropper eller velger gitte kolonner. Dens grunnleggende algoritme er:

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du må skrive inn datarammenavnet og deretter kolonnene du vil velge.

For eksempel, hvis du ønsker å beholde år-ID, gevinster og tap-kolonnene i datasettet, trenger du bare å kjøre:

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du vil da få resultatet du ønsker:

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Men hvis du ikke bruker hodefunksjonen ( ) , vil resultatet vise de nederste radene i kolonnene. Så hvis du har å gjøre med flere rader med data, må du kontinuerlig rulle opp for å komme til toppen av kolonnen.

En beste praksis er å bruke hodefunksjonen sammen med select. Slik at når du kjører koden, vil resultatet vise de øverste radene i kolonnen først.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Hvis du nå vil fjerne kolonner fra datasettet, trenger du bare å sette et minustegn ( ) foran kolonnenavnet.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

For å sjekke om en kolonne faktisk er fjernet, kan du sammenligne det nye datasettet fra det gamle. Slik gjør du det:

Først tilordner du R-koden med valgfunksjonen til et objekt. I dette eksemplet er det tilordnet teams_short . For å telle antall kolonner, bruk funksjonen ncol ( ) . Kjør ncol -funksjonen for både teams_short og teams .

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du vil da se at én kolonne ble fjernet fra datasettet.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

3. Gi nytt navn til kolonner i R

Den siste kolonnefunksjonen i dplyr er rename ( ) . Og som navnet antyder, kan den gi nytt navn til utvalgte kolonner i R.

Dette er dens grunnleggende algoritme:

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Og du vil merke at det er litt kontraintuitivt; det nye navnet kommer først mens det gamle navnet kommer etter det. Så pass på å ikke blande dem sammen.

Som et eksempel vil gjeldende yearID og divID- kolonnene bli omdøpt til henholdsvis year_id og division_id . Før du kjører koden, sørg for å tilordne denne til et nytt objekt for ikke å forstyrre det opprinnelige datasettet.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

For å sjekke om navnene til disse valgte kolonnene ble endret, bruker du funksjonen navn ( ) .

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du vil se at kolonnene faktisk har fått nytt navn.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Noen gang lurt på hvor kraftig R er når den brukes med LuckyTemplates, sjekk ut denne fantastiske teknikken, den vil spare deg for tonnevis av tid.

Det siste ordet

Denne opplæringen har diskutert tre grunnleggende dplyr -funksjoner du kan bruke til å utføre kolonneoperasjoner. Spesifikt lærte du hvordan du legger til, fjerner og gir nytt navn til kolonner i R.

Det er fortsatt andre funksjoner du ennå ikke har utforsket. Men det er viktig å kjenne til og være kjent med mutate ( ) , velg ( ) og gi nytt navn ( ) da de er de vanligste.

Disse kolonneredigeringsteknikkene kan også gjøres i Power Query. Men det er flott å ha kunnskap om hvordan du gjør dette i dplyr også. Dette vil garantert hjelpe deg når du går over til å analysere statistiske datasett.

Vanlige spørsmål

Hva er forskjellen mellom R og Python?

For det første er både R og Python programmeringsspråk, men python er mer et generell bruksspråk og R er et statistisk programmeringsspråk. Python er et mer vanlig brukt, forstått og allsidig språk.

Hva er str?

str viser ganske enkelt strukturene til r objekter

Hva er Petal.Length i R?

Petal.length er et format som brukes gjennom R for å gjengi forhold vi tester.

Hva er en DataFrame i R?

En R-dataramme er en datastruktur i tabellform som vanligvis brukes til å lagre verdier for alle typer data.

Hva står dbl for?

Dbl står for "dobbel klasse", det er en datatype som brukes til å holde numeriske verdier som inneholder desimaltegn.


DAX Studio EVALUATE Nøkkelord: Grunnleggende eksempler

DAX Studio EVALUATE Nøkkelord: Grunnleggende eksempler

Lær å bruke DAX Studio EVALUATE nøkkelordet med grunnleggende eksempler og få en bedre forståelse av hvordan dette kan hjelpe deg med databehandling.

Opprette en datotabell i LuckyTemplates

Opprette en datotabell i LuckyTemplates

Finn ut hvorfor det er viktig å ha en dedikert datotabell i LuckyTemplates, og lær den raskeste og mest effektive måten å gjøre det på.

LuckyTemplates Mobile Reporting Tips og teknikker

LuckyTemplates Mobile Reporting Tips og teknikker

Denne korte opplæringen fremhever LuckyTemplates mobilrapporteringsfunksjon. Jeg skal vise deg hvordan du kan utvikle rapporter effektivt for mobil.

Profesjonelle tjenesteanalyserapporter i LuckyTemplates

Profesjonelle tjenesteanalyserapporter i LuckyTemplates

I denne LuckyTemplates-utstillingen vil vi gå gjennom rapporter som viser profesjonell tjenesteanalyse fra et firma som har flere kontrakter og kundeengasjementer.

Microsoft Power Platform-oppdateringer | Microsoft Ignite 2021

Microsoft Power Platform-oppdateringer | Microsoft Ignite 2021

Gå gjennom de viktigste oppdateringene for Power Apps og Power Automate og deres fordeler og implikasjoner for Microsoft Power Platform.

Vanlige SQL-funksjoner: en oversikt

Vanlige SQL-funksjoner: en oversikt

Oppdag noen vanlige SQL-funksjoner som vi kan bruke som streng, dato og noen avanserte funksjoner for å behandle eller manipulere data.

LuckyTemplates Template Creation: Guide og tips

LuckyTemplates Template Creation: Guide og tips

I denne opplæringen lærer du hvordan du lager din perfekte LuckyTemplates-mal som er konfigurert til dine behov og preferanser.

Feltparametre og små multipler i LuckyTemplates

Feltparametre og små multipler i LuckyTemplates

I denne bloggen vil vi demonstrere hvordan du legger feltparametere sammen med små multipler for å skape utrolig nyttig innsikt og grafikk.

LuckyTemplates-rangering og tilpasset gruppering

LuckyTemplates-rangering og tilpasset gruppering

I denne bloggen vil du lære hvordan du bruker LuckyTemplates rangering og tilpassede grupperingsfunksjoner for å segmentere et eksempeldata og rangere det i henhold til kriterier.

Viser kun kumulativ total opp til en bestemt dato i LuckyTemplates

Viser kun kumulativ total opp til en bestemt dato i LuckyTemplates

I denne opplæringen skal jeg dekke en spesifikk teknikk rundt hvordan du viser kumulativ total kun opp til en bestemt dato i grafikken i LuckyTemplates.