Sådan indlæses prøvedatasæt i Python

I dette indlæg skal vi se på, hvordan man indlæser eksempeldatasæt i Python. Dette virker måske ikke som det mest glamourøse emne, men det er faktisk ret vigtigt. Ideelt set vil du have nogle datasæt i Python, som du kan øve dig på, når du lærer nye koncepter. Du kan se den fulde video af denne tutorial nederst på denne blog.

Hvis du vil dele din kode , dokumentere, hvad du har gjort , eller har brug for hjælp , er det virkelig en god idé at bruge et generelt tilgængeligt datasæt til at bygge noget, hvad der kaldes et minimalt reproducerbart eksempel .

Du vil have en forudbundtet kode eller et script, som en anden på internettet kan køre og hjælpe dig med. Hvis du ikke producerer disse minimalt reproducerbare eksempler , bliver du brændt på steder som Stack Overflow, hvilket kan være lidt af et chok, hvis du ikke er bekendt med det.

Sådan indlæses prøvedatasæt i Python

Lad os se på et par måder at bygge disse minimalt reproducerbare eksempler på og få datasættene. Der er et par pakker, som du kan bruge til at indlæse i et foruddefineret datasæt i Python og dele denne kode rundt.

Vi vil se på tre pakker, der er de mest almindelige. Lad os tænde en tom Jupyter-notesbog og komme i gang.

Sådan indlæses prøvedatasæt i Python

Indholdsfortegnelse

Indlæs datasæt i Python fra Sklearn

Den første, vi skal se på, hedder Sklearn . Hvis du bruger Anaconda, behøver du ikke at downloade dette. Hvis du gerne vil have mere hjælp med Python, har LuckyTemplates en, som du kan tilmelde dig.

Jeg går ud fra, at du allerede kender til ting som pakker, og går derfra. Vi vil bringe pandaer og Sklearn ind, specifikt datasættets undermodul.

Sådan indlæses prøvedatasæt i Python

Vi vil bringe et par af disse datasæt. Scikit-learn – et maskinlæringsdatabibliotek – kalder dem legetøjsdatasæt. Vi skal indlæse Boston, som er et boligprisdatasæt. Når vi bringer dette ind, skal vi have det som en dataramme.

Vi skal faktisk specificere, at dataene og kolonnerne kommer fra Scikit-learn-datasættet, og adskille funktionsvariablerne og målvariablerne.

Sådan indlæses prøvedatasæt i Python

Vi får dette ind som en dataramme, så vi kan operere og gøre forskellige ting med det. Panda er sådan en fantastisk pakke at kende som LuckyTemplates-bruger.

Indlæs datasæt i Python fra Vega-datasæt

En anden mulighed, vi kan lære, er Vega-datasætpakken. Denne er ikke tilgængelig på Anaconda, men vi kan installere den via PIP. Dette er, hvad vi skriver på kommandolinjen for at installere Vega-datasættene og for at installere eller importere det lokale datamodul.

Sådan indlæses prøvedatasæt i Python

Nogle af disse kan du faktisk få, men du skal bruge en internetforbindelse. Vi henter dem ind, der er installeret lokalt, ved at importere lokale data og køre dem.

Sådan indlæses prøvedatasæt i Python

Som du kan se, er der en del datasæt. Nogle af disse er tidsserier, mens nogle af disse har kategoriske eller kontinuerte variable. Lad os vælge bilernes datasæt i en dataramme, så vi kan køre hovedmetoden på det.

Sådan indlæses prøvedatasæt i Python

Nu har vi endnu et eksempeldatasæt, som vi kan bruge og dele.

Sådan indlæses prøvedatasæt i Python

Indlæs datasæt i Python fra Seaborn

Seaborn er en anden pakke, der er tilgængelig i Anaconda-distributionen. Som standard er Seaborn bedst kendt for datavisualisering, men den har også nogle fantastiske eksempeldatasæt, som du kan bruge. Dette er, hvad vi skriver for at få datasæt.

Sådan indlæses prøvedatasæt i Python

Som du kan se, er der en del datasæt her. Vi går videre og bruger pingvinens datasæt og får de første par rækker igen.

Sådan indlæses prøvedatasæt i Python

Resultatet er endnu et datasæt, som vi kan øve os på.

Sådan indlæses prøvedatasæt i Python

Ideen her er ikke kun at have datasættene at øve sig på. Hvis vi ser nogle manglende værdier, har problemer med at slette datasæt, ønsker at udfylde den kategoriske variabel eller vise et eksempel til andre mennesker uden at give nogle følsomme data, kan du bare bruge et af disse offentligt tilgængelige datasæt, som er virkelig, virkelig nemme for folk at bruge og dele. Det er ideen med et minimalt reproducerbart eksempel.



Konklusion

For at opsummere er der tre steder at lede efter eksempeldatasæt. Scikit-learn er en maskinlæringspakke. Det er lidt sværere at konvertere, men hvis du laver ting relateret til maskinlæring, er dette stedet at gå hen. Vega-datasæt har også et ret godt antal datasæt, specielt hvis du bruger metoden til at hente datasæt fra nettet, men det er relativt sværere at indlæse, så du skal bare bruge PIP i forhold til at have det forudinstalleret med Anaconda. Seaborn er det søde sted, fordi det indlæser datarammen, og det har en masse alsidighed, når det kommer til at bruge eksempeldatasæt og reproducerbare eksempler.

Stack Overflow har også en tutorial om, hvordan man skriver et godt minimalt reproducerbart eksempel eller MRE, så tjek det ud, hvis du ønsker at poste noget online.

At vide, hvor man kan få gode datasæt og dele en god MRE er en virkelig vigtig færdighed at have som analytiker.

Hvis du kunne lide indholdet, der er dækket i denne særlige vejledning, bedes du abonnere på LuckyTemplates tv-kanal. Vi har en enorm mængde indhold, der kommer ud hele tiden fra mig selv og en række indholdsskabere – alle dedikeret til at forbedre den måde, du bruger LuckyTemplates og Power Platform på.


Pipe In R: Tilslutningsfunktioner med Dplyr

Pipe In R: Tilslutningsfunktioner med Dplyr

I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX fra LuckyTemplates giver dig mulighed for at returnere rangeringen af ​​et specifikt tal i hver tabelrække, der udgør en del af en liste over tal.

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Lær, hvordan du adskiller en PBIX-fil for at udtrække LuckyTemplates-temaer og -billeder fra baggrunden og bruge den til at oprette din rapport!

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

Python i LuckyTemplates: Sådan installeres og konfigureres

Python i LuckyTemplates: Sådan installeres og konfigureres

Lær, hvordan du installerer programmeringssproget Python i LuckyTemplates, og hvordan du bruger dets værktøjer til at skrive koder og vise billeder.

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Lær, hvordan du beregner dynamiske fortjenstmargener ved siden af ​​LuckyTemplates, og hvordan du kan få mere indsigt ved at grave dybere ned i resultaterne.

Sortering af datotabelkolonner i LuckyTemplates

Sortering af datotabelkolonner i LuckyTemplates

Lær, hvordan du sorterer felterne fra kolonner med udvidet datotabel korrekt. Dette er en god strategi at gøre for vanskelige felter.

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

I denne artikel gennemgår jeg, hvordan du kan finde dine topprodukter pr. region ved hjælp af DAX-beregninger i LuckyTemplates, herunder funktionerne TOPN og CALCUATE.

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Lær, hvordan du bruger en uønsket dimension til flag med lav kardinalitet, som du ønsker at inkorporere i din datamodel på en effektiv måde.