Hvordan kommentere i Python – En hurtigveiledning for nybegynnere
Hvordan kommentere i Python – En hurtigveiledning for nybegynnere
Denne opplæringen er en fortsettelse av diskusjonen om dplyr -pakken. Du lærer hvordan du ordner, filtrerer og grupperer rader i R.
Forrige leksjon handlet om kolonneoperasjoner. Denne gangen vil fokuset være på raddrift i dplyr .
Vi vil dekke det grunnleggende som inkluderer sortering og filtrering av et datasett og aggregering og oppsummering av poster . For å gi deg en oversikt over hva du kan forvente for denne leksjonen, tenk på en pivottabell i MS Excel.
Innholdsfortegnelse
Starter
Åpne et nytt R-skript i RStudio.
I likhet med leksjonen om kolonneoperasjoner vil denne demonstrasjonen bruke Lahman-datasettet . Last den ned ved å gjøre et raskt google-søk.
For å bringe Lahman-pakken inn i R, kjør bibliotek (Lahman) . For å aktivere dplyr -pakken, kjør library (tidyverse) . Også at en beste praksis for navnekonvensjoner i R er å bruke små bokstaver, så tildel Teams i team .
Grunnleggende funksjoner for radoperasjoner
1. Ordne rader i R
Den første radoperasjonen i dpylr er arrange ( ) . Denne funksjonen lar deg omorganisere rader. Det fungerer ved først å ordne datarammen df og deretter de gitte feltene.
La oss for eksempel sortere etter teamID . Kjør arrangement (lag, teamID) .
Hvis du vil at de skal ordnes i synkende rekkefølge, må du bruke funksjonen desc ( ) .
For eksempel, hvis du ønsker å sortere etter år i synkende rekkefølge, kjør arrangement (lag, desc(yearID)) .
Når du gjør dette, tildeler du ikke utdataene tilbake til team . Du ser bare resultatet i konsollen.
Det er også mulig å sortere etter flere kriterier. For eksempel, hvis du vil sortere etter teamID og deretter yearID i synkende rekkefølge, trenger du bare å kjøre denne koden:
Når du sorterer rader, endrer du ikke dataene. Dataene blir bare flyttet rundt. Ingenting blir lagt til eller fjernet.
2. Filtrer rader i R
Filter -funksjonen ( ) legger til eller fjerner data avhengig av kriteriene som er valgt. Dens grunnleggende kode er:
Som et eksempel, la oss få alle dataene der yearID er større enn eller lik 2000. Følg filterfunksjonens format og skriv inn nødvendig informasjon. Kjør den så. Ikke glem å tilordne dette til et nytt objekt. I dette tilfellet ble det tildelt moderne .
For å sjekke om radene faktisk ble filtrert, kan du bruke funksjonen dimme ( ) . Den gir antall rader og kolonner i datarammen.
Hvis du kjører dim (team) , vil du se at datarammen har 2 955 rader og 48 kolonner.
Hvis du kjører dimmefunksjonen på moderne , vil du se at antall rader er redusert til 630 mens antallet kolonner forblir det samme.
Radene er avkortet fordi noen av postene går utover år 2000.
Det er også mulig å filtrere rader etter flere felt i R. Du må bruke AND- og OR- setningene.
La oss for eksempel filtrere lag etter område. I dette tilfellet opprettes et nytt objekt ohio . Filterkriteriene er at teamID bare skal inkludere Cleveland OG Cincinnati.
Du må bruke det doble likhetstegnet ( == ) for å sjekke likhet. Hvis du bare bruker ett likhetstegn, vil R vurdere det som en tilordningsoperatør. Bruk og-tegnet ( & ) for å representere OG.
For å sjekke, bruk dimmefunksjonen . Du vil se at antall rader er 0.
Dette betyr at det ikke er noen lag der de begge er basert i Cleveland og Cincinnati.
La oss deretter prøve Cleveland ELLER Cincinnati. OR-operatøren er representert av røroperatøren ( | ). Så alt du trenger å gjøre er å erstatte og-tegnet med røroperatøren og deretter kjøre den. Etterpå kjører du dimmefunksjonen igjen.
Du vil se at det er 251 rader i stedet for null.
Hva om du glemmer å bruke et dobbelt likhetstegn og i stedet bruker bare ett? Her er hva som skjer:
RStudio vil vise en veldig nyttig feilmelding i konsollen som minner deg om å bruke det doble likhetstegnet.
3. Grupper etter og oppsummer rader i R
Gruppe etter ( ) -funksjonen lar deg samle poster etter valgte kolonner og deretter, basert på den aggregeringen, oppsummere en annen kolonne.
Gruppe etter ( )-funksjonen følger denne algoritmen:
Som et eksempel, la oss gruppere etter teamID og tilordne det til et nytt objekt. I dette tilfellet kalles det nye objektet teams_ID . Skriv den deretter ut.
I konsollen vil du legge merke til at den første linjen sier at det er en tibble .
En tibble er en ryddig forbedring i forhold til den grunnleggende datarammen. Det er en funksjon i pakken som forsterker og forbedrer det som er tilgjengelig ut av esken.
Den andre linjen er grupper . Så dataene er nå gruppert etter teamID-kolonnen.
Og med det kan du nå bruke oppsummeringsfunksjonen ( ) på disse gruppene.
Merk: oppsummeringsfunksjonen kan enten være med s eller z, og vil avhenge av bruken av britisk eller amerikansk engelsk.
La oss for eksempel oppsummere teams_ID og få noen grunnleggende sammendragsstatistikker. La oss se etter gjennomsnittet, minimum og maksimum av gevinstene for hvert lag. Husk å markere hele koden før du velger å Kjør .
Du kan da se i konsollen at et sammendrag av hvert lags statistikk vises. Dette ligner veldig på en pivottabell der du samler og oppsummerer data.
Konklusjon
For å oppsummere har to operasjoner i dplyr blitt diskutert. En tidligere opplæring fokuserte på kolonneoperasjoner. I mellomtiden viste denne gjeldende leksjonen deg hvordan du utfører radoperasjoner ved å bruke dplyr -pakken i RStudio. Spesifikt lærte du hvordan du ordner, filtrerer og grupperer rader i R.
Den neste tingen å lære er hvordan man kombinerer disse to operasjonene. Å bruke alle funksjonene du har lært så langt vil hjelpe deg med å lage koder i R. En mer nyttig teknikk ville imidlertid være en pipeline. Dette vil hjelpe alt flyte sammen. Så sørg for å se gjennom de neste veiledningene også.
Hvordan kommentere i Python – En hurtigveiledning for nybegynnere
Denne opplæringen gir en oversikt over Power Query Editor og M-språket på LuckyTemplates-skrivebordet.
Lær hvordan du lager en paginert rapport, legger til tekster og bilder og deretter eksporterer rapporten til ulike dokumentformater.
Lær hvordan du bruker SharePoint-automatiseringsfunksjonen til å lage arbeidsflyter og hjelpe deg med å mikroadministrere SharePoint-brukere, -biblioteker og -lister.
Utvid rapportutviklingsferdighetene dine ved å bli med i en dataanalyseutfordring. Akseleratoren kan hjelpe deg å bli en LuckyTemplates-superbruker!
Lær hvordan du beregner løpende totaler i LuckyTemplates ved hjelp av DAX. Løpende totaler lar deg ikke bli fanget opp i et individuelt resultat.
Forstå konseptet med variabler i DAX i LuckyTemplates og implikasjonene av variabler for hvordan målene dine beregnes.
Lær mer om det tilpassede visuelle bildet kalt LuckyTemplates Slope-diagram, som brukes til å vise økning/reduksjon for en enkelt eller flere beregninger.
Oppdag fargetemaene i LuckyTemplates. Disse er avgjørende for at rapportene og visualiseringene dine skal se ut og fungere sømløst.
Å beregne et gjennomsnitt i LuckyTemplates kan gjøres på mange måter for å gi deg nøyaktig informasjon for bedriftsrapportene dine.