Sådan indlæses prøvedatasæt i Python

I dette indlæg skal vi se på, hvordan man indlæser eksempeldatasæt i Python. Dette virker måske ikke som det mest glamourøse emne, men det er faktisk ret vigtigt. Ideelt set vil du have nogle datasæt i Python, som du kan øve dig på, når du lærer nye koncepter. Du kan se den fulde video af denne tutorial nederst på denne blog.

Hvis du vil dele din kode , dokumentere, hvad du har gjort , eller har brug for hjælp , er det virkelig en god idé at bruge et generelt tilgængeligt datasæt til at bygge noget, hvad der kaldes et minimalt reproducerbart eksempel .

Du vil have en forudbundtet kode eller et script, som en anden på internettet kan køre og hjælpe dig med. Hvis du ikke producerer disse minimalt reproducerbare eksempler , bliver du brændt på steder som Stack Overflow, hvilket kan være lidt af et chok, hvis du ikke er bekendt med det.

Sådan indlæses prøvedatasæt i Python

Lad os se på et par måder at bygge disse minimalt reproducerbare eksempler på og få datasættene. Der er et par pakker, som du kan bruge til at indlæse i et foruddefineret datasæt i Python og dele denne kode rundt.

Vi vil se på tre pakker, der er de mest almindelige. Lad os tænde en tom Jupyter-notesbog og komme i gang.

Sådan indlæses prøvedatasæt i Python

Indholdsfortegnelse

Indlæs datasæt i Python fra Sklearn
Indlæs datasæt i Python fra Vega-datasæt
Indlæs datasæt i Python fra Seaborn
Konklusion

Indlæs datasæt i Python fra Sklearn

Den første, vi skal se på, hedder Sklearn . Hvis du bruger Anaconda, behøver du ikke at downloade dette. Hvis du gerne vil have mere hjælp med Python, har LuckyTemplates en, som du kan tilmelde dig.

Jeg går ud fra, at du allerede kender til ting som pakker, og går derfra. Vi vil bringe pandaer og Sklearn ind, specifikt datasættets undermodul.

Sådan indlæses prøvedatasæt i Python

Vi vil bringe et par af disse datasæt. Scikit-learn – et maskinlæringsdatabibliotek – kalder dem legetøjsdatasæt. Vi skal indlæse Boston, som er et boligprisdatasæt. Når vi bringer dette ind, skal vi have det som en dataramme.

Vi skal faktisk specificere, at dataene og kolonnerne kommer fra Scikit-learn-datasættet, og adskille funktionsvariablerne og målvariablerne.

Sådan indlæses prøvedatasæt i Python

Vi får dette ind som en dataramme, så vi kan operere og gøre forskellige ting med det. Panda er sådan en fantastisk pakke at kende som LuckyTemplates-bruger.

Indlæs datasæt i Python fra Vega-datasæt

En anden mulighed, vi kan lære, er Vega-datasætpakken. Denne er ikke tilgængelig på Anaconda, men vi kan installere den via PIP. Dette er, hvad vi skriver på kommandolinjen for at installere Vega-datasættene og for at installere eller importere det lokale datamodul.

Sådan indlæses prøvedatasæt i Python

Nogle af disse kan du faktisk få, men du skal bruge en internetforbindelse. Vi henter dem ind, der er installeret lokalt, ved at importere lokale data og køre dem.

Sådan indlæses prøvedatasæt i Python

Som du kan se, er der en del datasæt. Nogle af disse er tidsserier, mens nogle af disse har kategoriske eller kontinuerte variable. Lad os vælge bilernes datasæt i en dataramme, så vi kan køre hovedmetoden på det.

Sådan indlæses prøvedatasæt i Python

Nu har vi endnu et eksempeldatasæt, som vi kan bruge og dele.

Sådan indlæses prøvedatasæt i Python

Indlæs datasæt i Python fra Seaborn

Seaborn er en anden pakke, der er tilgængelig i Anaconda-distributionen. Som standard er Seaborn bedst kendt for datavisualisering, men den har også nogle fantastiske eksempeldatasæt, som du kan bruge. Dette er, hvad vi skriver for at få datasæt.

Sådan indlæses prøvedatasæt i Python

Som du kan se, er der en del datasæt her. Vi går videre og bruger pingvinens datasæt og får de første par rækker igen.

Sådan indlæses prøvedatasæt i Python

Resultatet er endnu et datasæt, som vi kan øve os på.

Sådan indlæses prøvedatasæt i Python

Ideen her er ikke kun at have datasættene at øve sig på. Hvis vi ser nogle manglende værdier, har problemer med at slette datasæt, ønsker at udfylde den kategoriske variabel eller vise et eksempel til andre mennesker uden at give nogle følsomme data, kan du bare bruge et af disse offentligt tilgængelige datasæt, som er virkelig, virkelig nemme for folk at bruge og dele. Det er ideen med et minimalt reproducerbart eksempel.

Konklusion

For at opsummere er der tre steder at lede efter eksempeldatasæt. Scikit-learn er en maskinlæringspakke. Det er lidt sværere at konvertere, men hvis du laver ting relateret til maskinlæring, er dette stedet at gå hen. Vega-datasæt har også et ret godt antal datasæt, specielt hvis du bruger metoden til at hente datasæt fra nettet, men det er relativt sværere at indlæse, så du skal bare bruge PIP i forhold til at have det forudinstalleret med Anaconda. Seaborn er det søde sted, fordi det indlæser datarammen, og det har en masse alsidighed, når det kommer til at bruge eksempeldatasæt og reproducerbare eksempler.

Stack Overflow har også en tutorial om, hvordan man skriver et godt minimalt reproducerbart eksempel eller MRE, så tjek det ud, hvis du ønsker at poste noget online.

At vide, hvor man kan få gode datasæt og dele en god MRE er en virkelig vigtig færdighed at have som analytiker.

Hvis du kunne lide indholdet, der er dækket i denne særlige vejledning, bedes du abonnere på LuckyTemplates tv-kanal. Vi har en enorm mængde indhold, der kommer ud hele tiden fra mig selv og en række indholdsskabere – alle dedikeret til at forbedre den måde, du bruger LuckyTemplates og Power Platform på.

Efterlad en kommentar

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.

Oprettelse af en datotabel i LuckyTemplates

Find ud af, hvorfor det er vigtigt at have en dedikeret datotabel i LuckyTemplates, og lær den hurtigste og mest effektive måde at gøre det på.

LuckyTemplates Mobile Reporting Tips og teknikker

Denne korte vejledning fremhæver LuckyTemplates mobilrapporteringsfunktion. Jeg vil vise dig, hvordan du kan udvikle rapporter effektivt til mobilenheder.

Professionelle serviceanalyserapporter i LuckyTemplates

I denne LuckyTemplates Showcase gennemgår vi rapporter, der viser professionel serviceanalyse fra et firma, der har flere kontrakter og kundeengagementer.

Almindelige SQL-funktioner: En oversigt

Opdag nogle almindelige SQL-funktioner, som vi kan bruge, såsom streng, dato og nogle avancerede funktioner til at behandle eller manipulere data.

Microsoft Power Platform-opdateringer | Microsoft Ignite 2021

Gå gennem de vigtigste opdateringer til Power Apps og Power Automate og deres fordele og implikationer for Microsoft Power Platform.

Feltparametre og små multipler i LuckyTemplates

I denne blog vil vi demonstrere, hvordan man lagdelte feltparametre med små multipler for at skabe utrolig nyttig indsigt og visuals.

LuckyTemplates skabelonoprettelse: Guide og tips

I denne tutorial lærer du, hvordan du opretter din perfekte LuckyTemplates-skabelon, der er konfigureret til dine behov og præferencer.

LuckyTemplates-rangering og brugerdefineret gruppering

I denne blog vil du lære, hvordan du bruger LuckyTemplates rangerings- og brugerdefinerede grupperingsfunktioner til at segmentere et eksempeldata og rangordne det efter kriterier.

Punktdiagrammer: Avancerede brugerdefinerede billeder til Lucky Templates

Lær, hvordan du opretter og tilpasser Bullet-diagrammer i LuckyTemplates, som hovedsageligt bruges til at måle ydeevne i forhold til mål eller tidligere år.