Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

dplyr je populárny balík R na manipuláciu s údajmi, ktorý používateľom uľahčuje prácu s dátovými rámcami. Bežnou úlohou pri práci s dátami je premenovanie stĺpcov, ktoré dplyr efektívne zvláda pomocou funkcie rename().

Funkcia rename() v dplyr je užitočná najmä pri práci so množinami údajov, ktoré majú stĺpce s nejasnými alebo nejednoznačnými názvami. Poskytnutím jednoduchej a intuitívnej syntaxe na premenovanie stĺpcov uľahčuje dplyr používateľom pochopenie a údržbu ich kódu.

Okrem toho možno túto funkciu jednoducho skombinovať s inými operáciami dplyr, ako je filtrovanie a sumarizácia, čím sa vytvorí bezproblémový pracovný postup manipulácie s údajmi v R.

Tieto funkcie sú dostupné aj v , takže nie sú jedinečné pre program R. R však s nimi lepšie zaobchádza.

V nasledujúcom článku preskúmame podrobnosti funkcie dplyr rename() a jej rôznych aplikácií, pričom ukážeme, ako efektívne môže byť pri správe dátových rámcov.

Naučíme sa tiež pridávať a odstraňovať stĺpce v R pomocou dyplr.

Naučením sa týchto techník môžu používatelia zlepšiť praktickosť ich úsilia o manipuláciu s údajmi, vytvárať robustnejšie a bezchybné analýzy a baviť sa pritom!

Poďme sa pustiť do vedy o údajoch, je načase zahryznúť sa, alebo by sme mali povedať, priniesť základ R!

Obsah

Pochopenie premenovania Dplyr

Balík dplyr v jazyku R je populárny balík na manipuláciu s údajmi, ktorý ponúka súbor užitočných funkcií na transformáciu a organizáciu súborov údajov. Spomedzi týchto funkcií je funkcia rename() obzvlášť užitočná, pokiaľ ide o úpravu názvov stĺpcov v dátovom rámci.

Ak chcete použiť funkciu rename(), jednoducho zadajte nový názov stĺpca, za ktorým bude nasledovať starý, napríklad takto: new_name = old_name. Uvažujme napríklad o vzorovom dátovom rámci, kde chceme zmeniť názov stĺpca „starý1“ na „nový1“. Syntax by vyzerala takto:

library(dplyr)
df %>% rename(new1 = old1)

Okrem toho funkcia rename_with() vám umožňuje premenovať stĺpce pomocou špecifikovanej transformačnej funkcie. Môžete napríklad použiť funkciu toupper na konverziu všetkých názvov stĺpcov na veľké písmená:

df %>% rename_with(toupper)

Ak potrebujete premenovať viacero stĺpcov naraz, dplyr poskytuje dve metódy. Prvý zahŕňa použitie funkcie rename(), ktorá poskytuje viaceré nové a staré názvy stĺpcov ako argumenty:

df %>% rename(new1 = old1, new2 = old2)

Druhá metóda zahŕňa použitie funkcie rename_with(), kde definujete polia starých a nových názvov stĺpcov:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Obe metódy, ako je uvedené v príkladoch vyššie, prinesú rovnaký výsledok.

Inštalácia a načítanie Dplyr

Ak chcete začať používať balík dplyr na premenovanie stĺpcov, musíte balík najprv nainštalovať a načítať do prostredia R. Inštalácia dplyr je jednoduchý proces, ktorý možno vykonať pomocou nasledujúceho príkazu:

install.packages("dplyr")

Po dokončení inštalácie môžete načítať balík dplyr do skriptu R pomocou funkcie knižnice:

library("dplyr")

S nainštalovaným a načítaným balíkom dplyr môžete teraz využívať jeho výkonné funkcie na manipuláciu s údajmi, vrátane funkcie rename() na premenovanie stĺpcov vo vašom dátovom rámci.

Tu je príklad použitia funkcie rename() so známym súborom údajov o dúhovke. Predpokladajme, že chcete premenovať stĺpec „Sepal.Length“ na „sepal_length“. Môžete to dosiahnuť pomocou nasledujúceho kódu:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

V tomto úryvku kódu sa operátor %>% používa na prepojenie množiny údajov o dúhovke do funkcie rename(). Nový názov stĺpca „sepal_length“ je priradený k starému názvu stĺpca „Sepal.Length“. Výsledný dátový rámec s premenovaným stĺpcom sa potom priradí k názvom premenných, iris_renamed.

Funkcia rename() zvládne aj premenovanie viacerých stĺpcov naraz. Ak napríklad chcete premenovať stĺpce „Sepal.Length“ a „Sepal.Width“ na „sepal_length“ a „sepal_width“, môžete použiť nasledujúci kód:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Tento úryvok kódu ukazuje, aké ľahké je premenovať viacero stĺpcov v dátovom rámci pomocou funkcie rename() dplyr.

Pomocou funkcie premenovania Dplyr

Balík dplyr v R je výkonný nástroj na manipuláciu s dátami pri práci s dátovými rámcami. Jednou z mnohých užitočných funkcií, ktoré poskytuje, je funkcia premenovania, ktorá vám umožňuje jednoducho premenovať stĺpce v dátovom rámci.

Základná syntax

Základná syntax pre použitie funkcie premenovania v dplyr je nasledovná:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Tento príkaz premenuje zadaný starý stĺpec na požadovaný nový názov stĺpca bez zmeny akýchkoľvek iných stĺpcov v dátovom rámci.

Premenovanie viacerých stĺpcov

Pomocou rovnakej funkcie premenovania môžete tiež premenovať viacero stĺpcov naraz. Ak to chcete urobiť, oddeľte každý stĺpec premenovaním páru čiarkou:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Pomocou tohto prístupu môžete v jednom príkaze premenovať toľko stĺpcov, koľko potrebujete.

Alternatívne môžete použiť rename_with()funkciu na aplikovanie transformácie na názvy stĺpcov. Táto funkcia preberá dátový rámec a funkciu, ktorá sa použije na názvy stĺpcov, aby sa vygenerovali nové názvy. Napríklad:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Tým sa zadané názvy stĺpcov skonvertujú na veľké písmená.

Reťazenie s ďalšími funkciami Dplyr

Jednou zo silných stránok dplyr je jeho schopnosť spojiť viacero akcií pomocou %>%operátora. To vám umožňuje vykonávať sériu manipulácií s údajmi stručným a ľahko čitateľným spôsobom. Keď používate funkciu premenovania, môžete ju spojiť s ďalšími funkciami dplyr, ako sú filter(), mutate()a summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

Tento príklad demonštruje sériu manipulácií s údajmi, pri ktorých sa najprv vykoná filtrovanie údajov, potom nasleduje premenovanie stĺpca, vytvorenie nového stĺpca pomocou mutácie a nakoniec sumarizácia údajov pomocou funkcie agregácie.

Využitím výkonu funkcie premenovania a možností reťazenia dplyr môžu používatelia R vykonávať efektívne a čitateľné manipulácie s dátami na svojich dátových rámcoch.

Bežné prípady použitia premenovania Dplyr

Dplyr je výkonný balík v jazyku R, ktorý poskytuje súbor funkcií na vykonávanie úloh manipulácie s údajmi. Jednou z bežných úloh je premenovanie stĺpcov v dátovom rámci. V tejto časti budeme diskutovať o niektorých bežných prípadoch použitia funkcie premenovania v dplyr.

1. Jednoduché premenovanie stĺpcov:

Premenovanie jedného stĺpca je pomocou rename()funkcie jednoduché. Syntax je rename(dataframe, new_name = old_name). Tu je príklad:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Premenovanie viacerých stĺpcov:

Môžete tiež premenovať viacero stĺpcov v jednom volaní funkcie poskytnutím dodatočného mapovania stĺpcov vo vnútri rename()funkcie. Tu je príklad:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Premenovanie stĺpcov pomocou reťazcových funkcií:

Pomocou funkcie môžete premenovať stĺpce pomocou reťazcových funkcií, ako napríklad tolower()alebo . Podľa Stack Overflow táto funkcia nahrádza teraz nahradené funkcie a funkcie. Tu je príklad:toupper()rename_with()rename_ifrename_atrename_all

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Premenovanie stĺpcov na základe podmienky:

Pomocou rename_with()môžete použiť vlastné funkcie premenovania a dokonca aj podmienky používania. Nasledujúci príklad ukazuje premenovanie stĺpcov na základe toho, či obsahujú určitý reťazec:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Riešenie chýb a okrajových prípadov

Pri používaní funkcie premenovania dplyr na úpravu názvov stĺpcov v dátovom rámci sa môžete stretnúť s niektorými chybami alebo okrajovými prípadmi v dôsledku duplicitných názvov stĺpcov, medzier v názvoch stĺpcov alebo nesprávnej syntaxe. Táto časť poskytuje návod, ako tieto problémy riešiť.

Pri práci s duplicitnými názvami stĺpcov nemôže dplyr premenovať stĺpce s rovnakým názvom výstupu. Alternatívnym riešením na zrušenie duplicitných názvov stĺpcov je však použitie funkcie rename_allz balíka dplyr spolu s paste0:

d %>% rename_all(~paste0(., 1:2))

Tento kód pripojí ku každému názvu stĺpca číslo od 1 do 2, čím sa zabezpečí, že neexistujú žiadne duplikáty. Viac podrobností nájdete v tejto diskusii Stack Overflow .

V prípade, že sú v názvoch stĺpcov medzery, môžete použiť spätné značky na uzavretie názvov stĺpcov takto:

df %>% rename(foo = `test col`)

Nakoniec, ak čelíte problémom súvisiacim s tým, že dplyr neprijíma funkciu paste0()ako old_name v rename(), možným riešením je vytvoriť nové názvy stĺpcov mimo funkcie rename()a potom ich použiť ako vstup. Relevantnú diskusiu o podobnom probléme nájdete v tejto otázke Stack Overflow .

Vyriešením týchto chýb a okrajových prípadov budete lepšie pripravení zvládnuť zložité scenáre premenovania v dplyr.

V tejto poslednej časti nášho článku o premenovaní dplyr sme diskutovali o jeho dôležitosti pri úlohách manipulácie s údajmi. Funkcia rename() umožňuje používateľom efektívne meniť názvy stĺpcov, čo vedie k jasnejším a stručnejším dátovým rámcom. Toto sa stáva obzvlášť užitočným pri práci s veľkými súbormi údajov alebo počas krokov predbežného spracovania údajov.

Pomocou balíka dplyr je premenovanie stĺpcov v R jednoduché, nie je to ťažká veda o údajoch, pozrite sa nižšie:

  rename(new_column_name = old_column_name)

Táto jednoduchá syntax vám umožňuje nahradiť staré názvy stĺpcov novými, čím sa zlepší čitateľnosť a zabezpečí sa konzistentnosť údajov. Okrem toho možno funkciu rename_with() použiť na úpravu názvov stĺpcov pomocou špecifickej funkcie. To ponúka väčšiu kontrolu a prispôsobenie vašich manipulácií s údajmi.

Využitím výkonu dplyr a funkcie premenovania môžete s istotou manipulovať s vašimi údajmi a zlepšiť celkové možnosti spracovania údajov. Nezabudnite vždy používať spoľahlivé zdroje pri učení sa nových techník programovania R, ako napr

S premenovaním dplyr vo vašej súprave nástrojov ste dobre vybavení na to, aby ste sa vysporiadali s rôznymi výzvami v oblasti manipulácie s údajmi a aby ste mohli pokračovať vo svojej odbornosti v oblasti programovania R.

Ďalšie príklady zo skutočného sveta – pridávanie, odstraňovanie a premenovanie stĺpcov

Operácie stĺpcov vám umožňujú vypočítať, pridať, odstrániť a premenovať stĺpce v R pomocou dplyr . Otvorte nový R skript v RStudio. Ak neviete ako na to, kliknite na odkazy a zistite, ako na to a .

Na túto demonštráciu sa používa balík dátových množín Lahman . Toto obsahuje baseballové záznamy staré viac ako sto rokov. Je to dobrý súbor údajov na precvičenie. Môžete si ho stiahnuť rýchlym vyhľadávaním Google.

Balík Lahman má navyše množinu údajov označenú Teams , s veľkým T. Osvedčeným postupom pre pomenovanie konvencií v R je používanie malých písmen. Takže to treba najskôr previesť na tímy , ako je vidieť na obrázku nižšie.

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Základné funkcie pre operácie so stĺpcami

1. Pridajte nové stĺpce do R

Prvá funkcia je mutate ( ) . Tým sa vytvorí nový stĺpec na základe existujúcich stĺpcov.

Ak chcete vypočítať nový stĺpec, môžete použiť funkciu mutate za argumentom:

df je zástupný názov pre akýkoľvek druh dátového rámca. Takže pri skutočnom používaní nahraďte df názvom dátového rámca, ktorý chcete mutovať. Potom umiestnite nové premenné, ktoré je potrebné pomenovať, spolu so vzorcom na odvodenie nového stĺpca.

Napríklad funkcia mutate sa použije na nájdenie percenta výhry pre každý stĺpec. V množine údajov Lahman je stĺpec Výhry a prehry. Ak chcete získať percento, vydeľte výhry súčtom výhier a prehier. Ale skôr ako to urobíte, musíte priniesť balík dplyr.

Tu je to, čo sa stane, ak spustíte funkciu mutate bez dplyr:

Zobrazí sa chybové hlásenie „nepodarilo sa nájsť mutáciu funkcie“.

Takže, tu je návod, ako vložiť dplyr do R. Potrebujete spustiť iba knižnicu (tidyverse) .

Uvidíte, že dplyr je medzi mnohými funkciami v balíku tidyverse . Ďalšou možnosťou je spustiť knižnicu (dplyr) .

Ak teraz umiestnite kurzor na kód s funkciou mutate a spustíte ho, uvidíte stĺpec Wpct obsahujúci percentá výhry.

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

V tomto prípade bol výsledok funkcie mutácie iba spustený; nepriradilo sa k údajom.

Ak chcete priradiť výsledok funkcie mutácie dátovým tímom , musíte použiť operátor priradenia ( <-> ). Po dokončení ho spustite. Potom v ďalšom riadku spustite hlavu (tímy) . Tým sa výsledok priradí k množine údajov tímov .

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Ak chcete skontrolovať, ktoré stĺpce sú dostupné v množine údajov, použite funkciu názvov ( ) . Zobrazí sa zoznam všetkých názvov stĺpcov v údajoch.

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Môžete tiež použiť existujúce funkcie ako súčasť funkcie mutácie . Napríklad môžete získať protokol konkrétneho súboru údajov pomocou funkcie protokolu ( ) .

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

2. Vyberte položku Stĺpce v R

Ďalšou funkciou v dplyr je výber ( ) . Buď vypustí alebo vyberie dané stĺpce. Jeho základný algoritmus je:

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Musíte zadať názov dátového rámca a potom stĺpce, ktoré chcete vybrať.

Napríklad, ak chcete v množine údajov ponechať stĺpce yearID, výhry a prehry, stačí spustiť:

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Potom dostanete požadovaný výsledok:

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Ak však nepoužijete funkciu head ( ) , vo výsledku sa zobrazia spodné riadky stĺpcov. Ak teda pracujete s viacerými riadkami údajov, budete sa musieť neustále posúvať nahor, aby ste sa dostali na začiatok stĺpca.

Osvedčeným postupom je používať funkciu hlavy spolu s výberom. Takže keď spustíte kód, výsledok zobrazí najskôr horné riadky stĺpca.

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Ak teraz chcete odstrániť stĺpce z množiny údajov, stačí pred názov stĺpca umiestniť znamienko mínus ( – ).

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Ak chcete skontrolovať, či bol stĺpec skutočne odstránený, môžete porovnať novú množinu údajov so starou. Postup:

Najprv priraďte R kód pomocou funkcie výberu objektu. V tomto príklade bol priradený k team_short . Ak chcete spočítať počet stĺpcov, použite funkciu ncol ( ) . Spustite funkciu ncol pre teamy_short aj teamy .

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Potom uvidíte, že jeden stĺpec bol odstránený z množiny údajov.

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

3. Premenujte stĺpce v R

Posledná stĺpcová funkcia v dplyr je premenovať ( ) . A ako už názov napovedá, dokáže premenovať vybrané stĺpce v R.

Toto je jeho základný algoritmus:

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

A všimnete si, že je to trochu kontraintuitívne; nové meno je prvé, zatiaľ čo staré meno nasleduje po ňom. Takže sa uistite, že si ich nepomýlite.

Napríklad aktuálne stĺpce yearID a divID budú premenované na year_id a division_id . Pred spustením kódu sa uistite, že ste ho priradili k novému objektu, aby ste nenarušili pôvodný súbor údajov.

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Ak chcete skontrolovať, či sa názvy týchto vybratých stĺpcov úspešne zmenili, použite funkciu názvov ( ) .

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Uvidíte, že stĺpce boli skutočne premenované.

Pridať, odstrániť a premenovať stĺpce v R pomocou Dplyr

Premýšľali ste niekedy nad tým, aké silné je R pri použití s ​​LuckyTemplates, vyskúšajte túto úžasnú techniku, ktorá vám ušetrí veľa času.

Záverečné slovo

Tento tutoriál popisuje tri základné funkcie dplyr , ktoré môžete použiť na vykonávanie operácií so stĺpcami. Konkrétne ste sa naučili, ako pridať, odstrániť a premenovať stĺpce v R.

Existujú ešte ďalšie funkcie, ktoré ešte musíte preskúmať. Je však dôležité poznať a poznať mutáciu ( ) , výber ( ) a premenovanie ( ), pretože sú najbežnejšie.

Tieto techniky úpravy stĺpcov je možné vykonať aj v Power Query. Ale je skvelé mať vedomosti o tom, ako to urobiť aj v dplyr. To vám určite pomôže, keď prejdete na analýzu súborov štatistických údajov.

často kladené otázky

Aký je rozdiel medzi R a Pythonom?

Na začiatok, R aj Python sú programovacie jazyky, ale python je skôr jazyk na všeobecné použitie a R je štatistický programovací jazyk. Python je bežne používaný, zrozumiteľnejší a všestrannejší jazyk.

čo je str?

str jednoducho zobrazuje štruktúry r objektov

Čo je Petal.Length v R?

Petal.length je formát používaný v R na prepočet vzťahov, ktoré testujeme.

Čo je to DataFrame v R?

Dátový rámec R je tabuľková dátová štruktúra, ktorá sa bežne používa na ukladanie hodnôt akéhokoľvek typu dát.

Čo znamená dbl?

Dbl znamená „dvojitú triedu“, je to dátový typ používaný na uchovávanie číselných hodnôt obsahujúcich desatinné čiarky.


Tabulky proporcí a četností v Excelu

Tabulky proporcí a četností v Excelu

Chtěli jsme se ponořit do tabulek četností v Excelu a také do tabulek proporcí. Podívejte se, co to je a kdy je použít.

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Zistite, ako stiahnuť a nainštalovať DAX Studio a Tabular Editor 3 a ako ich nakonfigurovať na použitie v LuckyTemplates a v Exceli.

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

Tento blog obsahuje vizualizáciu Shape Map pre priestorovú analýzu v LuckyTemplates. Ukážem vám, ako môžete efektívne využiť túto vizualizáciu s jej funkciami a prvkami.

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

V tomto návode predstavujem jedinečný nápad týkajúci sa finančného výkazníctva, ktorý spočíva v prideľovaní výsledkov na vopred určené šablóny tabuliek v rámci LuckyTemplates.

DAX měří v LuckyTemplates pomocí Measure Branching

DAX měří v LuckyTemplates pomocí Measure Branching

Vytvářejte míry DAX v LuckyTemplates pomocí existujících mír nebo vzorců. Tomu říkám technika větvení opatření.

Najvýkonnejšie volanie funkcie v LuckyTemplates

Najvýkonnejšie volanie funkcie v LuckyTemplates

V tomto blogu preskúmajte množinu údajov LuckyTemplates, najvýkonnejšie volanie funkcií, ktoré vám prináša tisíce funkcií M a DAX na dosah ruky.

Techniky modelovania údajov na organizáciu opatrení DAX

Techniky modelovania údajov na organizáciu opatrení DAX

V dnešnom návode sa podelím o niekoľko techník modelovania údajov o tom, ako lepšie usporiadať vaše merania DAX pre efektívnejší pracovný tok.

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates je skvelý nástroj pre finančné výkazníctvo. Tu je návod, ako vytvoriť prispôsobené tabuľky pre váš finančný dashboard LuckyTemplates.

Osvedčené postupy toku jazyka Power Query

Osvedčené postupy toku jazyka Power Query

V tomto návode sa bude diskutovať o toku jazyka Power Query a o tom, ako môže pomôcť vytvoriť hladkú a efektívnu zostavu údajov.

LuckyTemplates vlastní ikony | Vizualizační technika PBI

LuckyTemplates vlastní ikony | Vizualizační technika PBI

Budu diskutovat o jedné z mých oblíbených technik kolem vlastních ikon LuckyTemplates, která používá vlastní ikony dynamickým způsobem ve vizuálech LuckyTemplates.