Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

dplyr er en populær R-pakke for datamanipulering, noe som gjør det enklere for brukere å jobbe med datarammer. En vanlig oppgave når du arbeider med data er å gi nytt navn til kolonner, som dplyr håndterer effektivt ved å bruke rename()-funksjonen.

Rename()-funksjonen i dplyr er spesielt nyttig når du arbeider med datasett som har kolonner med uklare eller tvetydige navn. Ved å tilby en enkel og intuitiv syntaks for å gi nytt navn til kolonner, gjør dplyr det enklere for brukere å forstå og vedlikeholde koden sin.

I tillegg kan denne funksjonen enkelt kombineres med andre dplyr-operasjoner, som filtrering og oppsummering, for å lage en sømløs datamanipuleringsarbeidsflyt i R.

Disse funksjonene er også tilgjengelige i , så de er ikke unike for R-programmet. R er imidlertid flinkere til å håndtere dem.

I den følgende artikkelen vil vi utforske detaljene i dplyrs rename()-funksjon og dens ulike applikasjoner, og eksemplifisere hvor effektiv den kan være i å administrere datarammer.

Vi vil også lære hvordan du legger til og fjerner kolonner i R ved hjelp av dyplr.

Ved å lære disse teknikkene kan brukerne forbedre det praktiske i datamanipulasjonsarbeidet, produsere mer robuste og feilfrie analyser og ha det gøy underveis!

La oss komme inn på litt datavitenskap, det er på tide å tulle, eller skal vi si, ta med base R!

Innholdsfortegnelse

Forstå Dplyr Rename

dplyr-pakken i R er en populær tidyverse- pakke for datamanipulering som tilbyr et sett med nyttige funksjoner for transformering og organisering av datasett. Blant disse funksjonene er rename()-funksjonen spesielt nyttig når det gjelder å endre kolonnenavn i en dataramme.

For å bruke rename()-funksjonen, oppgi det nye kolonnenavnet etterfulgt av det gamle, slik: new_name = old_name. La oss for eksempel vurdere en eksempeldataramme der vi ønsker å endre kolonnenavnet "gammel1" til "ny1". Syntaksen vil se slik ut:

library(dplyr)
df %>% rename(new1 = old1)

I tillegg lar funksjonen rename_with() deg gi nytt navn til kolonner ved å bruke en spesifisert transformasjonsfunksjon. Du kan for eksempel bruke den øverste funksjonen til å konvertere alle kolonnenavn til store bokstaver:

df %>% rename_with(toupper)

Hvis du trenger å gi nytt navn til flere kolonner samtidig, tilbyr dplyr to metoder. Den første involverer bruk av rename()-funksjonen, og gir flere nye og gamle kolonnenavn som argumenter:

df %>% rename(new1 = old1, new2 = old2)

Den andre metoden innebærer å bruke rename_with()-funksjonen, der du definerer matriser med gamle og nye kolonnenavn:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Begge metodene, som vist i eksemplene ovenfor, vil gi samme resultat.

Installere og laste inn Dplyr

For å begynne å bruke dplyr-pakken for å gi nytt navn til kolonner, må du først installere og laste inn pakken i ditt R-miljø. Installasjon av dplyr er en enkel prosess som kan utføres ved hjelp av følgende kommando:

install.packages("dplyr")

Etter at installasjonen er fullført, kan du laste dplyr-pakken i R-skriptet ditt ved å bruke bibliotekfunksjonen:

library("dplyr")

Med dplyr-pakken installert og lastet kan du nå bruke dens kraftige datamanipuleringsfunksjoner, inkludert rename()-funksjonen for å gi nytt navn til kolonner i datarammen.

Her er et eksempel på bruk av rename()-funksjonen med det velkjente iris-datasettet. Anta at du vil endre navn på "Sepal.Length"-kolonnen til "sepal_length". Du kan oppnå dette ved å bruke følgende kode:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

I denne kodebiten brukes %>%-operatoren til å overføre iris-datasettet til rename()-funksjonen. Det nye kolonnenavnet "sepal_length" er tilordnet det gamle kolonnenavnet "Sepal.Length". Den resulterende datarammen med den omdøpte kolonnen blir deretter tildelt variabelnavnene, iris_renamed.

Rename()-funksjonen kan også håndtere flere kolonner som gir nytt navn samtidig. Hvis du for eksempel vil endre navn på både "Sepal.Length" og "Sepal.Width"-kolonnene til henholdsvis "sepal_length" og "sepal_width", kan du bruke følgende kode:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Denne kodebiten viser hvor enkelt det er å gi nytt navn til flere kolonner i en dataramme ved å bruke dplyrs rename()-funksjon.

Bruke Dplyr Rename-funksjonen

dplyr-pakken i R er et kraftig verktøy for datamanipulering når du arbeider med datarammer. En av de mange nyttige funksjonene den gir, er endre navn-funksjonen, som lar deg enkelt endre navn på kolonner i datarammen.

Grunnleggende syntaks

Den grunnleggende syntaksen for å bruke rename-funksjonen i dplyr er som følger:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Denne kommandoen vil gi nytt navn til den angitte gamle kolonnen til det ønskede nye kolonnenavnet, uten å endre noen andre kolonner i datarammen.

Gi nytt navn til flere kolonner

Du kan også gi nytt navn til flere kolonner samtidig ved å bruke den samme endre navn-funksjonen. For å gjøre dette, skiller du hver kolonne ved å gi nytt navn til paret med et komma:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Ved å bruke denne tilnærmingen kan du gi nytt navn til så mange kolonner du trenger i en enkelt setning.

Alternativt kan du bruke rename_with()funksjonen til å bruke en transformasjon på kolonnenavn. Denne funksjonen tar en dataramme og en funksjon som vil bli brukt på kolonnenavnene for å generere de nye navnene. For eksempel:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Dette vil konvertere de angitte kolonnenavnene til store bokstaver.

Kobling med andre Dplyr-funksjoner

En av styrkene til dplyr er dens evne til å lenke flere handlinger sammen ved hjelp av operatøren %>%. Dette lar deg utføre en rekke datamanipulasjoner på en kortfattet og lettlest måte. Når du bruker funksjonen for å endre navn, kan du koble den sammen med andre dplyr-funksjoner som filter(), mutate(), og summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

Dette eksemplet viser en rekke datamanipulasjoner der datafiltrering gjøres først, etterfulgt av å gi nytt navn til en kolonne, opprette en ny kolonne ved hjelp av mutate, og til slutt oppsummere dataene med en aggregeringsfunksjon.

Ved å utnytte kraften til dplyrs rename-funksjon og kjedefunksjoner, kan R-brukere utføre effektive og lesbare datamanipulasjoner på datarammene sine.

Vanlige Dplyr Rename Use Cases

Dplyr er en kraftig pakke i R som gir et sett med funksjoner for å utføre datamanipulasjonsoppgaver. En vanlig oppgave er å gi nytt navn til kolonner i en dataramme. I denne delen vil vi diskutere noen vanlige brukstilfeller for endre navn-funksjonen i dplyr.

1. Enkelt navn på kolonne:

Det er enkelt å gi nytt navn til en enkelt kolonne ved å bruke rename()funksjonen. Syntaksen er rename(dataframe, new_name = old_name). Her er et eksempel:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Gi nytt navn til flere kolonner:

Du kan også gi nytt navn til flere kolonner i ett funksjonskall ved å tilby ytterligere kolonnetilordning inne i rename()funksjonen. Her er et eksempel:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Gi nytt navn til kolonner ved hjelp av strengfunksjoner:

Du kan gi nytt navn til kolonner ved å bruke strengfunksjoner, for eksempel tolower()eller toupper(), ved å bruke rename_with()funksjonen. I følge Stack Overflow erstatter denne funksjonen de nå erstattede rename_if, rename_atog rename_all-funksjonene. Her er et eksempel:

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Gi nytt navn til kolonner basert på en betingelse:

Med rename_with(), kan du bruke egendefinerte funksjoner for nytt navn og til og med bruksbetingelser. Følgende eksempel viser omdøpning av kolonner basert på om de inneholder en bestemt streng:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Håndtering av feil og kantsaker

Mens du bruker dplyr rename-funksjonen for å endre kolonnenavn i en dataramme, kan du støte på noen feil eller kanttilfeller på grunn av dupliserte kolonnenavn, mellomrom i kolonnenavn eller feil syntaks. Denne delen gir veiledning om hvordan du kan løse disse problemene.

Når du har å gjøre med dupliserte kolonnenavn, kan ikke dplyr gi nytt navn til kolonnene med samme utdatanavn. En løsning for å unduplikere kolonnenavn er imidlertid å bruke rename_allfunksjonen fra dplyr-pakken sammen med paste0:

d %>% rename_all(~paste0(., 1:2))

Denne koden vil legge til et tall fra 1 til 2 til hvert kolonnenavn, for å sikre at det ikke er noen duplikater. Flere detaljer finner du i denne Stack Overflow-diskusjonen .

I tilfelle det er mellomrom i kolonnenavn, kan du bruke backticks for å omslutte kolonnenavnene slik:

df %>% rename(foo = `test col`)

Til slutt, hvis du møter problemer knyttet til at dplyr ikke aksepterer funksjonen paste0()som old_name i rename(), er en mulig løsning å konstruere de nye kolonnenavnene utenfor funksjonen rename()og deretter bruke dem som input. En relevant diskusjon om et lignende problem finner du i dette Stack Overflow- spørsmålet .

Ved å adressere disse feilene og edge-tilfellene vil du være bedre rustet til å håndtere komplekse døpe-scenarier i dplyr.

I denne siste delen av artikkelen vår om dplyr endre navn, har vi diskutert betydningen av det i datamanipulasjonsoppgaver. Rename()-funksjonen lar brukere endre kolonnenavn effektivt, noe som fører til klarere og mer konsise datarammer. Dette blir spesielt nyttig når du arbeider med store datasett eller under dataforbehandlingstrinn.

Ved å bruke dplyr-pakken er det enkelt å gi nytt navn til kolonner i R, det er ikke vanskelig datavitenskap, sjekk ut nedenfor:

  rename(new_column_name = old_column_name)

Denne enkle syntaksen lar deg erstatte gamle kolonnenavn med nye, forbedre lesbarheten og sikre konsistens i dataene dine. I tillegg kan rename_with()-funksjonen brukes til å endre kolonnenavn ved å bruke en spesifikk funksjon. Dette gir større kontroll og tilpasning av datamanipulasjonene dine.

Ved å utnytte kraften til dplyr og endre navn-funksjonen, kan du trygt manipulere dataene dine og forbedre de generelle databehandlingsmulighetene. Husk å alltid bruke pålitelige kilder når du skal lære nye R-programmeringsteknikker, som f.eks

Med dplyr rename i verktøysettet ditt er du godt rustet til å takle en rekke datamanipulasjonsutfordringer og fortsette å fremme R-programmeringsekspertisen din.

Ytterligere eksempler fra den virkelige verden - Legge til, fjerne og gi nytt navn til kolonner

Kolonneoperasjoner lar deg beregne, legge til, fjerne og gi nytt navn til kolonner i R ved å bruke dplyr . Åpne et nytt R-skript i RStudio. Hvis du ikke vet hvordan, klikk på lenkene for å finne ut hvordan og .

For denne demonstrasjonen brukes Lahman datasettpakken . Dette inneholder baseball-poster som dateres tilbake over hundre år. Det er et godt datasett å bruke for praksis. Du kan laste den ned ved å gjøre et raskt google-søk.

Dessuten har Lahman-pakken et datasett merket Teams , med stor T. En beste praksis for å navngi konvensjoner i R er å bruke små bokstaver. Så dette må først konverteres til lag , som vist på bildet nedenfor.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Grunnleggende funksjoner for kolonneoperasjoner

1. Legg til nye kolonner i R

Den første funksjonen er mutere ( ) . Dette oppretter ny kolonne basert på eksisterende kolonner.

Hvis du ønsker å beregne en ny kolonne, kan du bruke mutate- funksjonen etter argumentet:

df er et stand-in navn for alle typer dataramme. Så når i faktisk bruk, erstatt df med navnet på datarammen du vil mutere. Deretter plasserer du de nye variablene som må navngis sammen med formelen for å utlede den nye kolonnen.

Som et eksempel vil mutate- funksjonen brukes til å finne vinnerprosenten for hver kolonne. I Lahman-datasettet er det en kolonne for seier og tap. For å få prosentandelen, del gevinst på summen av seier og tap. Men før du kan gjøre det, må du ta med dplyr-pakken.

Her er hva som skjer hvis du kjører mutate- funksjonen uten dplyr:

Du får en feilmelding som sier "kunne ikke finne funksjonen mutere".

Så, her er hvordan du henter inn dplyr til R. Du trenger bare å kjøre library (tidyverse) .

Du vil se at dplyr er blant de mange funksjonene i tidyverse -pakken. Et annet alternativ er å kjøre library (dplyr) .

Hvis du nå plasserer markøren på koden med mutate -funksjonen og kjører den, vil du se Wpct- kolonnen som inneholder vinnende prosenter.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

I dette tilfellet ble resultatet av den muterte funksjonen bare kjørt; den ble ikke tilordnet dataene.

Hvis du vil tilordne resultatet av mutate -funksjonen til datateamene , du bruke tilordningsoperatoren ( <-> ). Når du er ferdig, kjør den. Så i en annen linje, kjør hodet (lag) . Dette vil tilordne resultatet til teamets datasett.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Hvis du vil sjekke hvilke kolonner som er tilgjengelige i et datasett, bruker du funksjonen navn ( ) . Dette vil vise alle kolonnenavnene i dataene.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du kan også bruke eksisterende funksjoner som en del av mutasjonsfunksjonen . Du kan for eksempel ta loggen til et spesifikt datasett ved å bruke loggfunksjonen ( ) .

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

2. Velg kolonner i R

En annen funksjon i dplyr er select ( ) . Den enten dropper eller velger gitte kolonner. Dens grunnleggende algoritme er:

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du må skrive inn datarammenavnet og deretter kolonnene du vil velge.

For eksempel, hvis du ønsker å beholde år-ID, gevinster og tap-kolonnene i datasettet, trenger du bare å kjøre:

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du vil da få resultatet du ønsker:

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Men hvis du ikke bruker hodefunksjonen ( ) , vil resultatet vise de nederste radene i kolonnene. Så hvis du har å gjøre med flere rader med data, må du kontinuerlig rulle opp for å komme til toppen av kolonnen.

En beste praksis er å bruke hodefunksjonen sammen med select. Slik at når du kjører koden, vil resultatet vise de øverste radene i kolonnen først.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Hvis du nå vil fjerne kolonner fra datasettet, trenger du bare å sette et minustegn ( ) foran kolonnenavnet.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

For å sjekke om en kolonne faktisk er fjernet, kan du sammenligne det nye datasettet fra det gamle. Slik gjør du det:

Først tilordner du R-koden med valgfunksjonen til et objekt. I dette eksemplet er det tilordnet teams_short . For å telle antall kolonner, bruk funksjonen ncol ( ) . Kjør ncol -funksjonen for både teams_short og teams .

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du vil da se at én kolonne ble fjernet fra datasettet.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

3. Gi nytt navn til kolonner i R

Den siste kolonnefunksjonen i dplyr er rename ( ) . Og som navnet antyder, kan den gi nytt navn til utvalgte kolonner i R.

Dette er dens grunnleggende algoritme:

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Og du vil merke at det er litt kontraintuitivt; det nye navnet kommer først mens det gamle navnet kommer etter det. Så pass på å ikke blande dem sammen.

Som et eksempel vil gjeldende yearID og divID- kolonnene bli omdøpt til henholdsvis year_id og division_id . Før du kjører koden, sørg for å tilordne denne til et nytt objekt for ikke å forstyrre det opprinnelige datasettet.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

For å sjekke om navnene til disse valgte kolonnene ble endret, bruker du funksjonen navn ( ) .

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Du vil se at kolonnene faktisk har fått nytt navn.

Legg til, fjern og gi nytt navn til kolonner i R ved å bruke Dplyr

Noen gang lurt på hvor kraftig R er når den brukes med LuckyTemplates, sjekk ut denne fantastiske teknikken, den vil spare deg for tonnevis av tid.

Det siste ordet

Denne opplæringen har diskutert tre grunnleggende dplyr -funksjoner du kan bruke til å utføre kolonneoperasjoner. Spesifikt lærte du hvordan du legger til, fjerner og gir nytt navn til kolonner i R.

Det er fortsatt andre funksjoner du ennå ikke har utforsket. Men det er viktig å kjenne til og være kjent med mutate ( ) , velg ( ) og gi nytt navn ( ) da de er de vanligste.

Disse kolonneredigeringsteknikkene kan også gjøres i Power Query. Men det er flott å ha kunnskap om hvordan du gjør dette i dplyr også. Dette vil garantert hjelpe deg når du går over til å analysere statistiske datasett.

Vanlige spørsmål

Hva er forskjellen mellom R og Python?

For det første er både R og Python programmeringsspråk, men python er mer et generell bruksspråk og R er et statistisk programmeringsspråk. Python er et mer vanlig brukt, forstått og allsidig språk.

Hva er str?

str viser ganske enkelt strukturene til r objekter

Hva er Petal.Length i R?

Petal.length er et format som brukes gjennom R for å gjengi forhold vi tester.

Hva er en DataFrame i R?

En R-dataramme er en datastruktur i tabellform som vanligvis brukes til å lagre verdier for alle typer data.

Hva står dbl for?

Dbl står for "dobbel klasse", det er en datatype som brukes til å holde numeriske verdier som inneholder desimaltegn.


LuckyTemplates Financial Dashboard: Komplette tabelltilpasningstips

LuckyTemplates Financial Dashboard: Komplette tabelltilpasningstips

LuckyTemplates er et flott verktøy for finansiell rapportering. Her er en veiledning om hvordan du lager tilpassede tabeller for ditt LuckyTemplates økonomiske dashbord.

Gode ​​fremgangsmåter for Power Query Language Flow

Gode ​​fremgangsmåter for Power Query Language Flow

Denne opplæringen vil diskutere Power Query Language Flow og hvordan den kan bidra til å lage en jevn og effektiv datarapport.

LuckyTemplates egendefinerte ikoner | PBI visualiseringsteknikk

LuckyTemplates egendefinerte ikoner | PBI visualiseringsteknikk

Jeg vil diskutere en av mine favorittteknikker rundt LuckyTemplates egendefinerte ikoner, som bruker egendefinerte ikoner på en dynamisk måte i LuckyTemplates visuals.

Opprette LuckyTemplates-tabeller ved å bruke UNION & ROW-funksjonen

Opprette LuckyTemplates-tabeller ved å bruke UNION & ROW-funksjonen

I denne bloggen viser jeg deg hvordan du kan lage LuckyTemplates-tabeller ved å bruke en formel som kombinerer UNION-funksjonen og ROW-funksjonen.

On-Premises Data Gateway In Power Automate

On-Premises Data Gateway In Power Automate

Oppdag hvordan on-premises data gateway lar Power Automate få tilgang til skrivebordsapplikasjoner når brukeren er borte fra datamaskinen.

Oppdag unik innsikt ved å bruke LuckyTemplates TOPN-funksjon

Oppdag unik innsikt ved å bruke LuckyTemplates TOPN-funksjon

Denne bloggen inneholder LuckyTemplates TOPN DAX-funksjonen, som lar deg få unik innsikt fra dataene dine, og hjelper deg med å ta bedre markedsføringsbeslutninger.

Datamodellering i LuckyTemplates ved hjelp av støttetabeller

Datamodellering i LuckyTemplates ved hjelp av støttetabeller

Lær noen fantastiske analytiske teknikker som vi kan gjøre for datamodellering i LuckyTemplates ved å bruke DAX-støttetabeller.

Avansert DAX for LuckyTemplates: Implementering av rangeringslogikk på tvers av unik innsikt

Avansert DAX for LuckyTemplates: Implementering av rangeringslogikk på tvers av unik innsikt

Her dykker vi ned i LuckyTemplates Advanced DAX og implementerer rangeringslogikk for å få en helt unik innsikt. Jeg viser også frem målegrening i dette eksemplet.

LuckyTemplates What-If-parameterfunksjon

LuckyTemplates What-If-parameterfunksjon

Denne bloggen introduserer den nye funksjonen i LuckyTemplates, What-If-analyseparameteren. Du vil se hvordan det gjør alt raskt og enkelt for scenarioanalysen din.

Bruk LuckyTemplates Mål forgrening for å sjekke om marginene dine øker ettersom inntektene vokser

Bruk LuckyTemplates Mål forgrening for å sjekke om marginene dine øker ettersom inntektene vokser

Finn ut hvordan du kan finne ut om inntektsveksten din er god ved å sjekke om marginene dine økte ved å bruke LuckyTemplates som måler forgrening.