Hur man kommenterar i Python – En snabbguide för nybörjare
Hur man kommenterar i Python – En snabbguide för nybörjare
Denna handledning är en fortsättning på diskussionen om dplyr -paketet. Du lär dig hur du ordnar, filtrerar och grupperar rader i R.
Förra lektionen handlade om kolumnoperationer. Den här gången kommer fokus att ligga på raddrift i dplyr .
Vi kommer att täcka grunderna som inkluderar sortering och filtrering av en datauppsättning och aggregering och sammanfattning av poster . För att ge dig en överblick över vad du kan förvänta dig för den här lektionen, tänk på en pivottabell i MS Excel.
Innehållsförteckning
Komma igång
Öppna ett nytt R-skript i RStudio.
På samma sätt som i kolumnoperationslektionen kommer denna demonstration att använda Lahmans datauppsättningspaket . Ladda ner den genom att göra en snabb google-sökning.
För att ta med Lahman-paketet till R, kör bibliotek (Lahman) . För att aktivera dplyr -paketet, kör library (tidyverse) . Dessutom att en bästa praxis för att namnge konventioner i R är att använda små bokstäver så tilldela Teams i team .
Grundläggande funktioner för radoperationer
1. Ordna rader i R
Den första radens operation i dpylr är arrangera ( ) . Denna funktion låter dig ändra ordning på rader. Det fungerar genom att först ordna dataramen df och sedan de givna fälten.
Låt oss till exempel sortera efter teamID . Kör arrangera (lag, teamID) .
Om du vill att de ska ordnas i fallande ordning måste du använda funktionen desc ( ) .
Som ett exempel, om du vill sortera efter år i fallande ordning, kör arrangera (team, desc(yearID)) .
När du gör detta tilldelar du inte utdata tillbaka till team . Du ser bara resultatet i konsolen.
Det är också möjligt att sortera efter flera kriterier. Om du till exempel vill sortera efter teamID och sedan yearID i fallande ordning behöver du bara köra denna kod:
När du sorterar rader ändrar du inte data. Data flyttas bara runt. Inget läggs till eller tas bort.
2. Filtrera rader i R
Filterfunktionen ( ) lägger till eller tar bort data beroende på de valda kriterierna. Dess grundläggande kod är:
Som ett exempel, låt oss få all data där yearID är större än eller lika med 2000. Följ filterfunktionens format och mata in den information som behövs. Kör sedan. Glöm inte att tilldela detta till ett nytt objekt. I det här fallet tilldelades den modern .
För att kontrollera om raderna verkligen var filtrerade kan du använda funktionen dim ( ) . Den anger antalet rader och kolumner i dataramen.
Om du kör dim (lag) ser du att dataramen har 2 955 rader och 48 kolumner.
Om du kör nedtoningsfunktionen på modern ser du att antalet rader har reducerats till 630 medan antalet kolumner förblir detsamma.
Raderna har trunkerats eftersom vissa av posterna går längre än år 2000.
Det är också möjligt att filtrera rader efter flera fält i R. Du måste använda AND- och OR -satserna.
Låt oss till exempel filtrera lag efter område. I detta fall skapas ett nytt objekt ohio . Filterkriterierna är att teamID endast ska inkludera Cleveland OCH Cincinnati.
Du måste använda det dubbla likhetstecknet ( == ) för att kontrollera likheten. Om du bara använder ett likhetstecken kommer R att betrakta det som en tilldelningsoperatör. Använd et-tecken ( & ) för att representera OCH.
För att kontrollera, använd dimfunktionen . Du kommer att se att antalet rader är 0.
Det betyder att det inte finns några lag där de båda är baserade i Cleveland och Cincinnati.
Låt oss sedan prova Cleveland ELLER Cincinnati. OR-operatorn representeras av röroperatorn ( | ). Så allt du behöver göra är att byta ut et-tecken med röroperatören och sedan köra det. Kör sedan dimfunktionen igen.
Du kommer att se att det finns 251 rader istället för noll.
Vad händer nu om du glömmer att använda ett dubbelt likhetstecken och istället använder bara ett? Så här händer:
RStudio kommer att visa ett mycket användbart felmeddelande i konsolen som påminner dig om att använda det dubbla likhetstecknet.
3. Gruppera efter och sammanfatta rader i R
Funktionen gruppera efter ( ) låter dig aggregera poster efter valda kolumner och sedan, baserat på den sammanställningen, sammanfatta en annan kolumn.
Funktionen grupp efter ( ) följer denna algoritm:
Som ett exempel, låt oss gruppera efter teamID och tilldela det till ett nytt objekt. I det här fallet kallas det nya objektet teams_ID . Skriv sedan ut den.
I konsolen kommer du att märka att den första raden säger att det är en tibble .
En tibble är en rejäl förbättring jämfört med den grundläggande dataramen. Det är en funktion i paketet som förstärker och förbättrar det som finns tillgängligt direkt från förpackningen.
Den andra raden är Grupper . Så, data är nu grupperade efter teamID-kolumnen.
Och med det kan du nu använda funktionen summera ( ) på dessa grupper.
Notera: sammanfattningsfunktionen kan antingen vara med ett s eller z, och beror på användningen av brittisk eller amerikansk engelska.
Låt oss till exempel sammanfatta teams_ID och få lite grundläggande sammanfattningsstatistik. Låt oss leta efter medelvärdet, minimum och maximum av vinsterna för varje lag. Kom ihåg att markera hela koden innan du väljer att köra .
Du kan sedan se i konsolen att en sammanfattning av varje lags statistik visas. Detta påminner mycket om en pivottabell där du aggregerar och sammanfattar data.
Slutsats
För att sammanfatta har två operationer i dplyr diskuterats. En tidigare handledning fokuserade på kolumnoperationer. Samtidigt visade den här aktuella lektionen dig hur du utför radoperationer med hjälp av dplyr -paketet i RStudio. Specifikt lärde du dig att ordna, filtrera och gruppera rader i R.
Nästa sak att lära sig är hur man kombinerar dessa två operationer. Att använda alla funktioner du har lärt dig hittills kommer att hjälpa dig att skapa koder i R. En mer användbar teknik skulle dock vara en pipeline. Detta kommer att hjälpa allt att flyta ihop. Så se till att granska nästa handledning också.
Hur man kommenterar i Python – En snabbguide för nybörjare
Denna handledning ger en översikt över Power Query Editor och M-språket på LuckyTemplates-skrivbordet.
Lär dig hur du skapar en sidnumrerad rapport, lägger till texter och bilder och sedan exporterar din rapport till olika dokumentformat.
Lär dig hur du använder SharePoint-automatiseringsfunktionen för att skapa arbetsflöden och hjälpa dig att mikrohantera SharePoint-användare, bibliotek och listor.
Finslipa dina färdigheter i rapportutveckling genom att gå med i en dataanalysutmaning. Acceleratorn kan hjälpa dig att bli en LuckyTemplates superanvändare!
Lär dig hur du beräknar löpande summor i LuckyTemplates med DAX. Löpande summor låter dig inte fastna i ett individuellt resultat.
Förstå konceptet med variabler i DAX inom LuckyTemplates och konsekvenserna av variabler för hur dina mått beräknas.
Lär dig mer om den anpassade visual som kallas LuckyTemplates Slope-diagram, som används för att visa ökning/minskning för en enstaka eller flera mätvärden.
Upptäck färgteman i LuckyTemplates. Dessa är viktiga för att dina rapporter och visualiseringar ska se ut och fungera sömlöst.
Att beräkna ett genomsnitt i LuckyTemplates kan göras på många sätt för att ge dig exakt information för dina affärsrapporter.