Slik laster du inn eksempeldatasett i Python

I dette innlegget skal vi se på hvordan du laster inn eksempeldatasett i Python. Dette virker kanskje ikke som det mest glamorøse emnet, men det er faktisk ganske viktig. Ideelt sett vil du ha noen datasett i Python som du kan øve deg på når du lærer nye konsepter. Du kan se hele videoen av denne opplæringen nederst på denne bloggen.

Hvis du skal dele koden din , dokumentere hva du har gjort , eller trenger hjelp , er det virkelig en god idé å bruke et generelt tilgjengelig datasett for å bygge noe det som kalles et minimalt reproduserbart eksempel .

Du kommer til å ha en forhåndsbundet kode eller et skript som noen andre på internett kan kjøre og hjelpe deg med. Hvis du ikke produserer disse minimalt reproduserbare eksemplene , blir du flammet på steder som Stack Overflow, noe som kan være litt av et sjokk hvis du ikke er kjent med det.

Slik laster du inn eksempeldatasett i Python

La oss se på noen få måter å bygge disse minimalt reproduserbare eksemplene og få datasettene. Det er noen få pakker du kan bruke til å laste inn et forhåndsdefinert datasett til Python og dele den koden rundt.

Vi skal se på tre pakker som er de vanligste. La oss fyre opp en tom Jupyter-notisbok og komme i gang.

Slik laster du inn eksempeldatasett i Python

Innholdsfortegnelse

Last inn datasett i Python fra Sklearn

Den første vi skal se på heter Sklearn . Hvis du bruker Anaconda, trenger du ikke å laste ned dette. Hvis du vil ha mer hjelp med Python, har LuckyTemplates en som du kan registrere deg.

Jeg kommer til å anta at du allerede vet om ting som pakker, og gå derfra. Vi kommer til å ta inn pandaer og Sklearn, nærmere bestemt datasettundermodulen.

Slik laster du inn eksempeldatasett i Python

Vi skal ta med noen av disse datasettene. Scikit-learn – et maskinlæringsdatabibliotek – kaller dem leketøydatasett. Vi skal laste Boston, som er et datasett for boligpriser. Når vi tar dette inn, må vi ha det som en dataramme.

Vi må faktisk spesifisere at dataene og kolonnene kommer fra Scikit-learn-datasettet, og skille funksjonsvariablene og målvariablene.

Slik laster du inn eksempeldatasett i Python

Vi får dette inn som en dataramme slik at vi kan operere og gjøre forskjellige ting med det. Panda er en så flott pakke å kjenne til som LuckyTemplates-bruker.

Last inn datasett i Python fra Vega-datasett

Et annet alternativ vi kan lære er Vega-datasettpakken. Denne er ikke tilgjengelig på Anaconda, men vi kan installere den via PIP. Dette er hva vi skal skrive på kommandolinjen for å installere Vega-datasettene, og for å installere eller importere den lokale datamodulen.

Slik laster du inn eksempeldatasett i Python

Noen av disse kan du faktisk få, men du trenger en nettforbindelse. Vi henter inn de som er installert lokalt ved å importere lokale data og kjøre dem.

Slik laster du inn eksempeldatasett i Python

Som du kan se, er det ganske mange datasett. Noen av disse er tidsserier, mens noen av disse har kategoriske eller kontinuerlige variabler. La oss velge bilens datasett i en dataramme slik at vi kan kjøre hodemetoden på den.

Slik laster du inn eksempeldatasett i Python

Nå har vi et annet eksempeldatasett som vi kan bruke og dele.

Slik laster du inn eksempeldatasett i Python

Last inn datasett i Python fra Seaborn

Seaborn er en annen pakke som er tilgjengelig i Anaconda-distribusjonen. Som standard er Seaborn mest kjent for datavisualisering, men den har også noen flotte eksempeldatasett som du kan bruke. Dette er hva vi skriver for å få datasett.

Slik laster du inn eksempeldatasett i Python

Som du kan se, er det ganske mange datasett her. Vi går videre og bruker pingvindatasettet og får de første radene igjen.

Slik laster du inn eksempeldatasett i Python

Resultatet er nok et datasett for oss å øve oss på.

Slik laster du inn eksempeldatasett i Python

Tanken her er ikke bare å ha datasettene å øve på. Hvis vi ser noen manglende verdier, har problemer med å slippe datasett, ønsker å fylle ut den kategoriske variabelen eller vise et eksempel til andre mennesker uten å oppgi noen sensitive data, kan du bare bruke et av disse offentlig tilgjengelige datasettene som er veldig, veldig enkle for folk å bruke og dele. Det er ideen med et minimalt reproduserbart eksempel.



Konklusjon

For å oppsummere er det tre steder å se etter eksempeldatasett. Scikit-learn er en maskinlæringspakke. Det er litt vanskeligere å konvertere, men hvis du gjør ting relatert til maskinlæring, er dette stedet å gå. Vega datasett har også et ganske godt antall datasett, spesielt hvis du bruker metoden for å hente datasett fra nettet, men det er relativt vanskeligere å laste så du må bare bruke PIP kontra å ha det forhåndsinstallert med Anaconda. Seaborn er sweet spot fordi den laster inn datarammen og den har mye allsidighet når det gjelder bruk av eksempeldatasett og reproduserbare eksempler.

Stack Overflow har også en opplæring om hvordan du skriver et godt minimalt reproduserbart eksempel eller MRE, så sjekk det ut hvis du ønsker å legge ut noe på nettet.

Å vite hvor man kan få tak i gode datasett og dele en god MRE er en veldig viktig ferdighet å ha som analytiker.

Hvis du likte innholdet som dekkes i denne spesielle opplæringen, vennligst abonner på LuckyTemplates TV-kanal. Vi har en enorm mengde innhold som kommer ut hele tiden fra meg selv og en rekke innholdsskapere – alle dedikert til å forbedre måten du bruker LuckyTemplates og Power Platform på.


LuckyTemplates What-If-parameterfunksjon

LuckyTemplates What-If-parameterfunksjon

Denne bloggen introduserer den nye funksjonen i LuckyTemplates, What-If-analyseparameteren. Du vil se hvordan det gjør alt raskt og enkelt for scenarioanalysen din.

Bruk LuckyTemplates Mål forgrening for å sjekke om marginene dine øker ettersom inntektene vokser

Bruk LuckyTemplates Mål forgrening for å sjekke om marginene dine øker ettersom inntektene vokser

Finn ut hvordan du kan finne ut om inntektsveksten din er god ved å sjekke om marginene dine økte ved å bruke LuckyTemplates som måler forgrening.

LuckyTemplates Parameters Via Query Editor

LuckyTemplates Parameters Via Query Editor

Lær og forstå hvordan du kan lage og bruke LuckyTemplates Parameters som er en kraftig funksjon i spørringsredigereren.

Rundt stolpediagram – en visualisering for dashbordet ditt

Rundt stolpediagram – en visualisering for dashbordet ditt

Denne opplæringen vil diskutere hvordan du lager et rundt søylediagram ved hjelp av Charticulator. Du vil lære hvordan du designer dem for LuckyTemplates-rapporten.

PowerApps funksjoner og formler | En introduksjon

PowerApps funksjoner og formler | En introduksjon

Lær hvordan du bruker PowerApps-funksjoner og -formler for å forbedre funksjonaliteten og endre atferd i Power Apps-lerretsappen vår.

Pipe In R: Koblingsfunksjoner med Dplyr

Pipe In R: Koblingsfunksjoner med Dplyr

I denne opplæringen lærer du hvordan du kobler funksjoner sammen ved å bruke dplyr-røroperatøren i programmeringsspråket R.

RANKX Deep Dive: A LuckyTemplates DAX-funksjon

RANKX Deep Dive: A LuckyTemplates DAX-funksjon

RANKX fra LuckyTemplates lar deg returnere rangeringen til et spesifikt tall i hver tabellrad som utgjør en del av en liste med tall.

Trekker ut LuckyTemplates-temaer og bilder fra PBIX

Trekker ut LuckyTemplates-temaer og bilder fra PBIX

Lær hvordan du demonterer en PBIX-fil for å trekke ut LuckyTemplates-temaer og bilder fra bakgrunnen og bruke den til å lage rapporten din!

Excel Formulas Cheat Sheet: Mellomveiledning

Excel Formulas Cheat Sheet: Mellomveiledning

Excel Formulas Cheat Sheet: Mellomveiledning

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det