Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Tämä opetusohjelma on jatkoa dplyr- pakettia koskevalle keskustelulle . Opit järjestämään, suodattamaan ja ryhmittelemään rivejä R:ssä.

Edellinen oppitunti koski saraketoimintoja. Tällä kertaa keskitytään rivitoimintoihin dplyr : ssä .

Käsittelemme perusasiat, joihin kuuluu tietojoukon lajittelu ja suodattaminen sekä tietueiden kokoaminen ja yhteenveto . Saat yleiskatsauksen siitä, mitä voit odottaa tältä oppitunnilta, ajattelemalla pivot-taulukkoa MS Excelissä.

Sisällysluettelo

Päästä alkuun

Avaa uusi R-skripti RStudiossa.

Samoin kuin saraketoimintojen oppitunnissa, tämä demonstraatio käyttää Lahman-tietosarjapakettia . Lataa se tekemällä nopea google-haku.

Tuo Lahman-paketti R:hen suorittamalla kirjasto (Lahman) . Ota dplyr- paketti käyttöön suorittamalla kirjasto (tidyverse) . Lisäksi paras käytäntö nimeämiskäytäntöjen R:ssä on käyttää pieniä kirjaimia, joten määritä tiimit ryhmiksi .

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Perustoiminnot rivioperaatioille

1. Järjestä rivit R-kirjaimeen

Ensimmäisen rivin operaatio dpylrissä on arrange ( ) . Tämän toiminnon avulla voit järjestellä rivejä uudelleen. Se toimii järjestämällä ensin datakehys df ja sitten annetut kentät.

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Lajittelemme esimerkiksi tiimitunnuksen mukaan . Suorita järjestys (joukkueet, tiimitunnus) .

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Jos haluat, että ne järjestetään laskevaan järjestykseen, sinun on käytettävä desc ( ) -toimintoa.

Esimerkiksi, jos haluat lajitella vuoden mukaan laskevassa järjestyksessä, suorita arrange (teams, desc(yearID)) .

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Kun teet tämän, et määritä tulosta takaisin tiimeille . Näet vain tuloksen konsolissa.

On myös mahdollista lajitella useiden kriteerien mukaan. Jos esimerkiksi haluat lajitella joukkuetunnuksen ja sitten vuositunnuksen mukaan laskevassa järjestyksessä, sinun tarvitsee vain suorittaa tämä koodi:

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Kun lajittelet rivejä, et muuta tietoja. Dataa vain siirretään. Mitään ei lisätä tai poisteta.

2. Suodata rivit R

Suodatintoiminto ( ) lisää tai poistaa tietoja valituista ehdoista riippuen. Sen peruskoodi on:

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Otetaan esimerkiksi kaikki tiedot, joissa vuositunnus on suurempi tai yhtä suuri kuin 2000. Seuraa suodatinfunktion muotoa ja syötä tarvittavat tiedot. Suorita se sitten. Älä unohda määrittää tätä uudelle objektille. Tässä tapauksessa se määritettiin modernille .

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Voit tarkistaa, onko rivit todella suodatettu, käyttämällä himmennystoimintoa ( ) . Se ilmoittaa tietokehyksen rivien ja sarakkeiden lukumäärän.

Jos suoritat dim (teams) , näet, että tietokehyksessä on 2 955 riviä ja 48 saraketta.

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Jos suoritat dim- toiminnon modernissa versiossa , huomaat, että rivien määrä on vähentynyt 630:een, mutta sarakkeiden määrä pysyy samana.

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Rivejä on katkaistu, koska osa tietueista ylittää vuoden 2000.

Suodata rivit useiden kenttien mukaan

On myös mahdollista suodattaa rivejä useiden kenttien mukaan R:ssä. Sinun on käytettävä AND- ja OR- lauseita.

Suodatetaan esimerkiksi joukkueet alueen mukaan. Tässä tapauksessa luodaan uusi objekti ohio . Suodatuskriteerit ovat, että teamID:n tulee sisältää vain Cleveland JA Cincinnati.

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Sinun on käytettävä kaksinkertaista yhtäläisyysmerkkiä ( == ) tasa-arvon tarkistamiseksi. Jos käytät vain yhtä yhtäläisyysmerkkiä, R pitää sitä osoitusoperaattorina. Käytä et-merkkiä ( & ) edustamaan JA.

Tarkistaaksesi käytä himmennystoimintoa . Näet, että rivien määrä on 0.

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Tämä tarkoittaa, että ei ole joukkueita, joissa ne molemmat sijaitsevat Clevelandissa ja Cincinnatissa.

Seuraavaksi kokeillaan Cleveland TAI Cincinnatia. TAI-operaattoria edustaa putken operaattori ( | ). Joten sinun tarvitsee vain korvata et-merkki putkioperaattorilla ja sitten käyttää sitä. Suorita sen jälkeen himmennystoiminto uudelleen .

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Näet, että riviä on 251 nollan sijaan.

Entä jos unohdat käyttää kaksoisyhtäysmerkkiä ja käytät sen sijaan vain yhtä? Tässä on mitä tapahtuu:

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

RStudio näyttää konsolissa erittäin hyödyllisen virheilmoituksen, joka muistuttaa sinua käyttämään kaksoisyhtäysmerkkiä.

3. Ryhmittele ja tee yhteenveto rivistä R

Ryhmittele ( ) -funktion avulla voit koota tietueita valittujen sarakkeiden mukaan ja tehdä sitten yhteenvedon toisesta sarakkeesta tämän koosteen perusteella.

Ryhmä ( ) -funktio noudattaa tätä algoritmia:

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Esimerkkinä voidaan ryhmitellä teamID:n mukaan ja määrittää se uudelle objektille. Tässä tapauksessa uuden objektin nimi on teams_ID . Tulosta se sitten.

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Konsolissa huomaat, että ensimmäisellä rivillä lukee, että se on tabble .

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Tibble on siisti parannus perustietokehykseen verrattuna. Se on pakkauksessa oleva ominaisuus, joka täydentää ja parantaa laatikosta saatavaa.

Toinen rivi on Ryhmät . Joten tiedot ryhmitellään nyt teamID-sarakkeen mukaan.

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Ja sen avulla voit nyt käyttää yhteenvetotoimintoa ( ) näissä ryhmissä.

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Huomautus: yhteenvetofunktio voi olla joko s- tai z-kirjaimella, ja se riippuu britti- tai amerikkalaisen englannin käytöstä.

Tehdään esimerkiksi yhteenveto teams_ID:stä ja hankitaan perusyhteenvetotilastoja. Tarkastellaan kunkin joukkueen voittojen keskiarvoa, minimiä ja enimmäisarvoa. Muista korostaa koko koodi ennen kuin valitset Suorita .

Järjestä, suodata ja ryhmittele rivit R:ssä Dplyr:n avulla

Näet sitten konsolissa, että yhteenveto kunkin joukkueen tilastoista tulee näkyviin. Tämä on hyvin samanlainen kuin pivot-taulukko, jossa kokoat ja teet yhteenvedon.




Johtopäätös

Yhteenvetona totean, että kaksi dplyr-toimintoa on keskusteltu. Edellinen opetusohjelma keskittyi saraketoimintoihin. Sillä välin tämä nykyinen oppitunti osoitti sinulle, kuinka voit suorittaa rivitoimintoja käyttämällä dplyr -pakettia RStudiossa. Erityisesti opit järjestämään, suodattamaan ja ryhmittelemään rivejä R:ssä.

Seuraavaksi opit yhdistämään nämä kaksi toimintoa. Kaikkien tähän mennessä oppimiesi toimintojen käyttäminen auttaa sinua suuresti luomaan koodeja R:ssä. Hyödyllisempi tekniikka olisi kuitenkin liukuhihna. Tämä auttaa kaikkea kulkemaan yhdessä. Muista siis käydä läpi myös seuraavat opetusohjelmat.


LuckyTemplates -muotokartan visualisointi tilaanalyysiin

LuckyTemplates -muotokartan visualisointi tilaanalyysiin

Tämä blogi sisältää Shape Map -visualisoinnin tilaanalyysiä varten LuckyTemplatesissa. Näytän sinulle, kuinka voit käyttää tätä visualisointia tehokkaasti sen ominaisuuksien ja elementtien kanssa.

LuckyTemplatesin talousraportointi: tulosten kohdentaminen malleihin jokaisella rivillä

LuckyTemplatesin talousraportointi: tulosten kohdentaminen malleihin jokaisella rivillä

Tässä opetusohjelmassa esittelen ainutlaatuisen idean talousraportoinnista, joka allokoi tulokset LuckyTemplatesin sisällä olevien taulukkopohjien ennalta määrittämiseen.

DAX-mittaukset LuckyTemplatesissa käyttämällä mittahaaroitusta

DAX-mittaukset LuckyTemplatesissa käyttämällä mittahaaroitusta

Luo DAX-suureita LuckyTemplatesissa käyttämällä olemassa olevia suureita tai kaavoja. Tätä kutsun mittahaaroitustekniikaksi.

Tehokkain toimintopuhelu LuckyTemplatesissa

Tehokkain toimintopuhelu LuckyTemplatesissa

Tässä blogissa tutustu LuckyTemplates-tietojoukkoon, tehokkaimpaan funktiokutsuun, joka tuo tuhansia M- ja DAX-funktioita sormiesi ulottuville.

Datamallinnustekniikat DAX-mittausten järjestämiseen

Datamallinnustekniikat DAX-mittausten järjestämiseen

Tämän päivän opetusohjelmassa jaan muutamia datamallinnustekniikoita DAX-mittausten järjestämiseksi paremmin tehokkaamman työnkulun aikaansaamiseksi.

LuckyTemplates Financial Dashboard: Täydelliset taulukon mukautusvinkit

LuckyTemplates Financial Dashboard: Täydelliset taulukon mukautusvinkit

LuckyTemplates on loistava työkalu talousraportointiin. Tässä on opetusohjelma räätälöityjen taulukoiden luomisesta LuckyTemplates-talouden hallintapaneelillesi.

Power Queryn kielivirran parhaat käytännöt

Power Queryn kielivirran parhaat käytännöt

Tässä opetusohjelmassa keskustellaan Power Query Language Flowsta ja siitä, kuinka se voi auttaa luomaan sujuvan ja tehokkaan dataraportin.

LuckyTemplates mukautetut kuvakkeet | PBI-visualisointitekniikka

LuckyTemplates mukautetut kuvakkeet | PBI-visualisointitekniikka

Keskustelen yhdestä suosikkitekniikoistani mukautettujen LuckyTemplates-kuvakkeiden ympärillä, joka käyttää mukautettuja kuvakkeita dynaamisella tavalla LuckyTemplates-visuaaleissa.

LuckyTemplates -taulukoiden luominen UNION & ROW -funktiolla

LuckyTemplates -taulukoiden luominen UNION & ROW -funktiolla

Tässä blogissa näytän sinulle, kuinka voit luoda LuckyTemplates-taulukoita käyttämällä kaavaa, joka yhdistää UNION-funktion ja ROW-funktion.

On-Premises Data Gateway Power Automatessa

On-Premises Data Gateway Power Automatessa

Tutustu siihen, kuinka On-premises-tietoyhdyskäytävä antaa Power Automaten käyttää työpöytäsovelluksia, kun käyttäjä on poissa tietokoneesta.