Pipe In R: Tilslutningsfunktioner med Dplyr
I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.
I dette indlæg skal vi se på, hvordan man indlæser eksempeldatasæt i Python. Dette virker måske ikke som det mest glamourøse emne, men det er faktisk ret vigtigt. Ideelt set vil du have nogle datasæt i Python, som du kan øve dig på, når du lærer nye koncepter. Du kan se den fulde video af denne tutorial nederst på denne blog.
Hvis du vil dele din kode , dokumentere, hvad du har gjort , eller har brug for hjælp , er det virkelig en god idé at bruge et generelt tilgængeligt datasæt til at bygge noget, hvad der kaldes et minimalt reproducerbart eksempel .
Du vil have en forudbundtet kode eller et script, som en anden på internettet kan køre og hjælpe dig med. Hvis du ikke producerer disse minimalt reproducerbare eksempler , bliver du brændt på steder som Stack Overflow, hvilket kan være lidt af et chok, hvis du ikke er bekendt med det.
Lad os se på et par måder at bygge disse minimalt reproducerbare eksempler på og få datasættene. Der er et par pakker, som du kan bruge til at indlæse i et foruddefineret datasæt i Python og dele denne kode rundt.
Vi vil se på tre pakker, der er de mest almindelige. Lad os tænde en tom Jupyter-notesbog og komme i gang.
Indholdsfortegnelse
Indlæs datasæt i Python fra Sklearn
Den første, vi skal se på, hedder Sklearn . Hvis du bruger Anaconda, behøver du ikke at downloade dette. Hvis du gerne vil have mere hjælp med Python, har LuckyTemplates en, som du kan tilmelde dig.
Jeg går ud fra, at du allerede kender til ting som pakker, og går derfra. Vi vil bringe pandaer og Sklearn ind, specifikt datasættets undermodul.
Vi vil bringe et par af disse datasæt. Scikit-learn – et maskinlæringsdatabibliotek – kalder dem legetøjsdatasæt. Vi skal indlæse Boston, som er et boligprisdatasæt. Når vi bringer dette ind, skal vi have det som en dataramme.
Vi skal faktisk specificere, at dataene og kolonnerne kommer fra Scikit-learn-datasættet, og adskille funktionsvariablerne og målvariablerne.
Vi får dette ind som en dataramme, så vi kan operere og gøre forskellige ting med det. Panda er sådan en fantastisk pakke at kende som LuckyTemplates-bruger.
Indlæs datasæt i Python fra Vega-datasæt
En anden mulighed, vi kan lære, er Vega-datasætpakken. Denne er ikke tilgængelig på Anaconda, men vi kan installere den via PIP. Dette er, hvad vi skriver på kommandolinjen for at installere Vega-datasættene og for at installere eller importere det lokale datamodul.
Nogle af disse kan du faktisk få, men du skal bruge en internetforbindelse. Vi henter dem ind, der er installeret lokalt, ved at importere lokale data og køre dem.
Som du kan se, er der en del datasæt. Nogle af disse er tidsserier, mens nogle af disse har kategoriske eller kontinuerte variable. Lad os vælge bilernes datasæt i en dataramme, så vi kan køre hovedmetoden på det.
Nu har vi endnu et eksempeldatasæt, som vi kan bruge og dele.
Indlæs datasæt i Python fra Seaborn
Seaborn er en anden pakke, der er tilgængelig i Anaconda-distributionen. Som standard er Seaborn bedst kendt for datavisualisering, men den har også nogle fantastiske eksempeldatasæt, som du kan bruge. Dette er, hvad vi skriver for at få datasæt.
Som du kan se, er der en del datasæt her. Vi går videre og bruger pingvinens datasæt og får de første par rækker igen.
Resultatet er endnu et datasæt, som vi kan øve os på.
Ideen her er ikke kun at have datasættene at øve sig på. Hvis vi ser nogle manglende værdier, har problemer med at slette datasæt, ønsker at udfylde den kategoriske variabel eller vise et eksempel til andre mennesker uden at give nogle følsomme data, kan du bare bruge et af disse offentligt tilgængelige datasæt, som er virkelig, virkelig nemme for folk at bruge og dele. Det er ideen med et minimalt reproducerbart eksempel.
Konklusion
For at opsummere er der tre steder at lede efter eksempeldatasæt. Scikit-learn er en maskinlæringspakke. Det er lidt sværere at konvertere, men hvis du laver ting relateret til maskinlæring, er dette stedet at gå hen. Vega-datasæt har også et ret godt antal datasæt, specielt hvis du bruger metoden til at hente datasæt fra nettet, men det er relativt sværere at indlæse, så du skal bare bruge PIP i forhold til at have det forudinstalleret med Anaconda. Seaborn er det søde sted, fordi det indlæser datarammen, og det har en masse alsidighed, når det kommer til at bruge eksempeldatasæt og reproducerbare eksempler.
Stack Overflow har også en tutorial om, hvordan man skriver et godt minimalt reproducerbart eksempel eller MRE, så tjek det ud, hvis du ønsker at poste noget online.
At vide, hvor man kan få gode datasæt og dele en god MRE er en virkelig vigtig færdighed at have som analytiker.
Hvis du kunne lide indholdet, der er dækket i denne særlige vejledning, bedes du abonnere på LuckyTemplates tv-kanal. Vi har en enorm mængde indhold, der kommer ud hele tiden fra mig selv og en række indholdsskabere – alle dedikeret til at forbedre den måde, du bruger LuckyTemplates og Power Platform på.
I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.
RANKX fra LuckyTemplates giver dig mulighed for at returnere rangeringen af et specifikt tal i hver tabelrække, der udgør en del af en liste over tal.
Lær, hvordan du adskiller en PBIX-fil for at udtrække LuckyTemplates-temaer og -billeder fra baggrunden og bruge den til at oprette din rapport!
Excel Formler Snydeark: Mellemvejledning
LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det
Lær, hvordan du installerer programmeringssproget Python i LuckyTemplates, og hvordan du bruger dets værktøjer til at skrive koder og vise billeder.
Lær, hvordan du beregner dynamiske fortjenstmargener ved siden af LuckyTemplates, og hvordan du kan få mere indsigt ved at grave dybere ned i resultaterne.
Lær, hvordan du sorterer felterne fra kolonner med udvidet datotabel korrekt. Dette er en god strategi at gøre for vanskelige felter.
I denne artikel gennemgår jeg, hvordan du kan finde dine topprodukter pr. region ved hjælp af DAX-beregninger i LuckyTemplates, herunder funktionerne TOPN og CALCUATE.
Lær, hvordan du bruger en uønsket dimension til flag med lav kardinalitet, som du ønsker at inkorporere i din datamodel på en effektiv måde.