Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Denne opplæringen er en fortsettelse av diskusjonen om dplyr -pakken. Du lærer hvordan du ordner, filtrerer og grupperer rader i R.

Forrige leksjon handlet om kolonneoperasjoner. Denne gangen vil fokuset være på raddrift i dplyr .

Vi vil dekke det grunnleggende som inkluderer sortering og filtrering av et datasett og aggregering og oppsummering av poster . For å gi deg en oversikt over hva du kan forvente for denne leksjonen, tenk på en pivottabell i MS Excel.

Innholdsfortegnelse

Starter
Grunnleggende funksjoner for radoperasjoner
Konklusjon

Starter

Åpne et nytt R-skript i RStudio.

I likhet med leksjonen om kolonneoperasjoner vil denne demonstrasjonen bruke Lahman-datasettet . Last den ned ved å gjøre et raskt google-søk.

For å bringe Lahman-pakken inn i R, kjør bibliotek (Lahman) . For å aktivere dplyr -pakken, kjør library (tidyverse) . Også at en beste praksis for navnekonvensjoner i R er å bruke små bokstaver, så tildel Teams i team .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Grunnleggende funksjoner for radoperasjoner

1. Ordne rader i R

Den første radoperasjonen i dpylr er arrange ( ) . Denne funksjonen lar deg omorganisere rader. Det fungerer ved først å ordne datarammen df og deretter de gitte feltene.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

La oss for eksempel sortere etter teamID . Kjør arrangement (lag, teamID) .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Hvis du vil at de skal ordnes i synkende rekkefølge, må du bruke funksjonen desc ( ) .

For eksempel, hvis du ønsker å sortere etter år i synkende rekkefølge, kjør arrangement (lag, desc(yearID)) .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Når du gjør dette, tildeler du ikke utdataene tilbake til team . Du ser bare resultatet i konsollen.

Det er også mulig å sortere etter flere kriterier. For eksempel, hvis du vil sortere etter teamID og deretter yearID i synkende rekkefølge, trenger du bare å kjøre denne koden:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Når du sorterer rader, endrer du ikke dataene. Dataene blir bare flyttet rundt. Ingenting blir lagt til eller fjernet.

2. Filtrer rader i R

Filter -funksjonen ( ) legger til eller fjerner data avhengig av kriteriene som er valgt. Dens grunnleggende kode er:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Som et eksempel, la oss få alle dataene der yearID er større enn eller lik 2000. Følg filterfunksjonens format og skriv inn nødvendig informasjon. Kjør den så. Ikke glem å tilordne dette til et nytt objekt. I dette tilfellet ble det tildelt moderne .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

For å sjekke om radene faktisk ble filtrert, kan du bruke funksjonen dimme ( ) . Den gir antall rader og kolonner i datarammen.

Hvis du kjører dim (team) , vil du se at datarammen har 2 955 rader og 48 kolonner.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Hvis du kjører dimmefunksjonen på moderne , vil du se at antall rader er redusert til 630 mens antallet kolonner forblir det samme.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Radene er avkortet fordi noen av postene går utover år 2000.

Filtrer rader etter flere felt

Det er også mulig å filtrere rader etter flere felt i R. Du må bruke AND- og OR- setningene.

La oss for eksempel filtrere lag etter område. I dette tilfellet opprettes et nytt objekt ohio . Filterkriteriene er at teamID bare skal inkludere Cleveland OG Cincinnati.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Du må bruke det doble likhetstegnet ( == ) for å sjekke likhet. Hvis du bare bruker ett likhetstegn, vil R vurdere det som en tilordningsoperatør. Bruk og-tegnet ( & ) for å representere OG.

For å sjekke, bruk dimmefunksjonen . Du vil se at antall rader er 0.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Dette betyr at det ikke er noen lag der de begge er basert i Cleveland og Cincinnati.

La oss deretter prøve Cleveland ELLER Cincinnati. OR-operatøren er representert av røroperatøren ( | ). Så alt du trenger å gjøre er å erstatte og-tegnet med røroperatøren og deretter kjøre den. Etterpå kjører du dimmefunksjonen igjen.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Du vil se at det er 251 rader i stedet for null.

Hva om du glemmer å bruke et dobbelt likhetstegn og i stedet bruker bare ett? Her er hva som skjer:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

RStudio vil vise en veldig nyttig feilmelding i konsollen som minner deg om å bruke det doble likhetstegnet.

3. Grupper etter og oppsummer rader i R

Gruppe etter ( ) -funksjonen lar deg samle poster etter valgte kolonner og deretter, basert på den aggregeringen, oppsummere en annen kolonne.

Gruppe etter ( )-funksjonen følger denne algoritmen:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Som et eksempel, la oss gruppere etter teamID og tilordne det til et nytt objekt. I dette tilfellet kalles det nye objektet teams_ID . Skriv den deretter ut.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

I konsollen vil du legge merke til at den første linjen sier at det er en tibble .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

En tibble er en ryddig forbedring i forhold til den grunnleggende datarammen. Det er en funksjon i pakken som forsterker og forbedrer det som er tilgjengelig ut av esken.

Den andre linjen er grupper . Så dataene er nå gruppert etter teamID-kolonnen.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Og med det kan du nå bruke oppsummeringsfunksjonen ( ) på disse gruppene.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Merk: oppsummeringsfunksjonen kan enten være med s eller z, og vil avhenge av bruken av britisk eller amerikansk engelsk.

La oss for eksempel oppsummere teams_ID og få noen grunnleggende sammendragsstatistikker. La oss se etter gjennomsnittet, minimum og maksimum av gevinstene for hvert lag. Husk å markere hele koden før du velger å Kjør .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Du kan da se i konsollen at et sammendrag av hvert lags statistikk vises. Dette ligner veldig på en pivottabell der du samler og oppsummerer data.

Konklusjon

For å oppsummere har to operasjoner i dplyr blitt diskutert. En tidligere opplæring fokuserte på kolonneoperasjoner. I mellomtiden viste denne gjeldende leksjonen deg hvordan du utfører radoperasjoner ved å bruke dplyr -pakken i RStudio. Spesifikt lærte du hvordan du ordner, filtrerer og grupperer rader i R.

Den neste tingen å lære er hvordan man kombinerer disse to operasjonene. Å bruke alle funksjonene du har lært så langt vil hjelpe deg med å lage koder i R. En mer nyttig teknikk ville imidlertid være en pipeline. Dette vil hjelpe alt flyte sammen. Så sørg for å se gjennom de neste veiledningene også.

Legg igjen en kommentar

DAX Studio EVALUATE Nøkkelord: Grunnleggende eksempler

DAX Studio EVALUATE Nøkkelord: Grunnleggende eksempler

Lær å bruke DAX Studio EVALUATE nøkkelordet med grunnleggende eksempler og få en bedre forståelse av hvordan dette kan hjelpe deg med databehandling.

Opprette en datotabell i LuckyTemplates

Opprette en datotabell i LuckyTemplates

Finn ut hvorfor det er viktig å ha en dedikert datotabell i LuckyTemplates, og lær den raskeste og mest effektive måten å gjøre det på.

LuckyTemplates Mobile Reporting Tips og teknikker

LuckyTemplates Mobile Reporting Tips og teknikker

Denne korte opplæringen fremhever LuckyTemplates mobilrapporteringsfunksjon. Jeg skal vise deg hvordan du kan utvikle rapporter effektivt for mobil.

Profesjonelle tjenesteanalyserapporter i LuckyTemplates

Profesjonelle tjenesteanalyserapporter i LuckyTemplates

I denne LuckyTemplates-utstillingen vil vi gå gjennom rapporter som viser profesjonell tjenesteanalyse fra et firma som har flere kontrakter og kundeengasjementer.

Vanlige SQL-funksjoner: en oversikt

Vanlige SQL-funksjoner: en oversikt

Oppdag noen vanlige SQL-funksjoner som vi kan bruke som streng, dato og noen avanserte funksjoner for å behandle eller manipulere data.

Microsoft Power Platform-oppdateringer | Microsoft Ignite 2021

Microsoft Power Platform-oppdateringer | Microsoft Ignite 2021

Gå gjennom de viktigste oppdateringene for Power Apps og Power Automate og deres fordeler og implikasjoner for Microsoft Power Platform.

Feltparametre og små multipler i LuckyTemplates

Feltparametre og små multipler i LuckyTemplates

I denne bloggen vil vi demonstrere hvordan du legger feltparametere sammen med små multipler for å skape utrolig nyttig innsikt og grafikk.

LuckyTemplates Template Creation: Guide og tips

LuckyTemplates Template Creation: Guide og tips

I denne opplæringen lærer du hvordan du lager din perfekte LuckyTemplates-mal som er konfigurert til dine behov og preferanser.

LuckyTemplates-rangering og tilpasset gruppering

LuckyTemplates-rangering og tilpasset gruppering

I denne bloggen vil du lære hvordan du bruker LuckyTemplates rangering og tilpassede grupperingsfunksjoner for å segmentere et eksempeldata og rangere det i henhold til kriterier.

Punktdiagrammer: Avanserte tilpassede bilder for LuckyTemplates

Punktdiagrammer: Avanserte tilpassede bilder for LuckyTemplates

Lær hvordan du oppretter og tilpasser punktdiagrammer i LuckyTemplates, som hovedsakelig brukes til å måle ytelse mot mål eller tidligere år.