Slik laster du inn eksempeldatasett i Python

I dette innlegget skal vi se på hvordan du laster inn eksempeldatasett i Python. Dette virker kanskje ikke som det mest glamorøse emnet, men det er faktisk ganske viktig. Ideelt sett vil du ha noen datasett i Python som du kan øve deg på når du lærer nye konsepter. Du kan se hele videoen av denne opplæringen nederst på denne bloggen.

Hvis du skal dele koden din , dokumentere hva du har gjort , eller trenger hjelp , er det virkelig en god idé å bruke et generelt tilgjengelig datasett for å bygge noe det som kalles et minimalt reproduserbart eksempel .

Du kommer til å ha en forhåndsbundet kode eller et skript som noen andre på internett kan kjøre og hjelpe deg med. Hvis du ikke produserer disse minimalt reproduserbare eksemplene , blir du flammet på steder som Stack Overflow, noe som kan være litt av et sjokk hvis du ikke er kjent med det.

Slik laster du inn eksempeldatasett i Python

La oss se på noen få måter å bygge disse minimalt reproduserbare eksemplene og få datasettene. Det er noen få pakker du kan bruke til å laste inn et forhåndsdefinert datasett til Python og dele den koden rundt.

Vi skal se på tre pakker som er de vanligste. La oss fyre opp en tom Jupyter-notisbok og komme i gang.

Slik laster du inn eksempeldatasett i Python

Innholdsfortegnelse

Last inn datasett i Python fra Sklearn
Last inn datasett i Python fra Vega-datasett
Last inn datasett i Python fra Seaborn
Konklusjon

Last inn datasett i Python fra Sklearn

Den første vi skal se på heter Sklearn . Hvis du bruker Anaconda, trenger du ikke å laste ned dette. Hvis du vil ha mer hjelp med Python, har LuckyTemplates en som du kan registrere deg.

Jeg kommer til å anta at du allerede vet om ting som pakker, og gå derfra. Vi kommer til å ta inn pandaer og Sklearn, nærmere bestemt datasettundermodulen.

Slik laster du inn eksempeldatasett i Python

Vi skal ta med noen av disse datasettene. Scikit-learn – et maskinlæringsdatabibliotek – kaller dem leketøydatasett. Vi skal laste Boston, som er et datasett for boligpriser. Når vi tar dette inn, må vi ha det som en dataramme.

Vi må faktisk spesifisere at dataene og kolonnene kommer fra Scikit-learn-datasettet, og skille funksjonsvariablene og målvariablene.

Slik laster du inn eksempeldatasett i Python

Vi får dette inn som en dataramme slik at vi kan operere og gjøre forskjellige ting med det. Panda er en så flott pakke å kjenne til som LuckyTemplates-bruker.

Last inn datasett i Python fra Vega-datasett

Et annet alternativ vi kan lære er Vega-datasettpakken. Denne er ikke tilgjengelig på Anaconda, men vi kan installere den via PIP. Dette er hva vi skal skrive på kommandolinjen for å installere Vega-datasettene, og for å installere eller importere den lokale datamodulen.

Slik laster du inn eksempeldatasett i Python

Noen av disse kan du faktisk få, men du trenger en nettforbindelse. Vi henter inn de som er installert lokalt ved å importere lokale data og kjøre dem.

Slik laster du inn eksempeldatasett i Python

Som du kan se, er det ganske mange datasett. Noen av disse er tidsserier, mens noen av disse har kategoriske eller kontinuerlige variabler. La oss velge bilens datasett i en dataramme slik at vi kan kjøre hodemetoden på den.

Slik laster du inn eksempeldatasett i Python

Nå har vi et annet eksempeldatasett som vi kan bruke og dele.

Slik laster du inn eksempeldatasett i Python

Last inn datasett i Python fra Seaborn

Seaborn er en annen pakke som er tilgjengelig i Anaconda-distribusjonen. Som standard er Seaborn mest kjent for datavisualisering, men den har også noen flotte eksempeldatasett som du kan bruke. Dette er hva vi skriver for å få datasett.

Slik laster du inn eksempeldatasett i Python

Som du kan se, er det ganske mange datasett her. Vi går videre og bruker pingvindatasettet og får de første radene igjen.

Slik laster du inn eksempeldatasett i Python

Resultatet er nok et datasett for oss å øve oss på.

Slik laster du inn eksempeldatasett i Python

Tanken her er ikke bare å ha datasettene å øve på. Hvis vi ser noen manglende verdier, har problemer med å slippe datasett, ønsker å fylle ut den kategoriske variabelen eller vise et eksempel til andre mennesker uten å oppgi noen sensitive data, kan du bare bruke et av disse offentlig tilgjengelige datasettene som er veldig, veldig enkle for folk å bruke og dele. Det er ideen med et minimalt reproduserbart eksempel.

Konklusjon

For å oppsummere er det tre steder å se etter eksempeldatasett. Scikit-learn er en maskinlæringspakke. Det er litt vanskeligere å konvertere, men hvis du gjør ting relatert til maskinlæring, er dette stedet å gå. Vega datasett har også et ganske godt antall datasett, spesielt hvis du bruker metoden for å hente datasett fra nettet, men det er relativt vanskeligere å laste så du må bare bruke PIP kontra å ha det forhåndsinstallert med Anaconda. Seaborn er sweet spot fordi den laster inn datarammen og den har mye allsidighet når det gjelder bruk av eksempeldatasett og reproduserbare eksempler.

Stack Overflow har også en opplæring om hvordan du skriver et godt minimalt reproduserbart eksempel eller MRE, så sjekk det ut hvis du ønsker å legge ut noe på nettet.

Å vite hvor man kan få tak i gode datasett og dele en god MRE er en veldig viktig ferdighet å ha som analytiker.

Hvis du likte innholdet som dekkes i denne spesielle opplæringen, vennligst abonner på LuckyTemplates TV-kanal. Vi har en enorm mengde innhold som kommer ut hele tiden fra meg selv og en rekke innholdsskapere – alle dedikert til å forbedre måten du bruker LuckyTemplates og Power Platform på.

Legg igjen en kommentar

DAX Studio EVALUATE Nøkkelord: Grunnleggende eksempler

Lær å bruke DAX Studio EVALUATE nøkkelordet med grunnleggende eksempler og få en bedre forståelse av hvordan dette kan hjelpe deg med databehandling.

Opprette en datotabell i LuckyTemplates

Finn ut hvorfor det er viktig å ha en dedikert datotabell i LuckyTemplates, og lær den raskeste og mest effektive måten å gjøre det på.

LuckyTemplates Mobile Reporting Tips og teknikker

Denne korte opplæringen fremhever LuckyTemplates mobilrapporteringsfunksjon. Jeg skal vise deg hvordan du kan utvikle rapporter effektivt for mobil.

Profesjonelle tjenesteanalyserapporter i LuckyTemplates

I denne LuckyTemplates-utstillingen vil vi gå gjennom rapporter som viser profesjonell tjenesteanalyse fra et firma som har flere kontrakter og kundeengasjementer.

Vanlige SQL-funksjoner: en oversikt

Oppdag noen vanlige SQL-funksjoner som vi kan bruke som streng, dato og noen avanserte funksjoner for å behandle eller manipulere data.

Microsoft Power Platform-oppdateringer | Microsoft Ignite 2021

Gå gjennom de viktigste oppdateringene for Power Apps og Power Automate og deres fordeler og implikasjoner for Microsoft Power Platform.

Feltparametre og små multipler i LuckyTemplates

I denne bloggen vil vi demonstrere hvordan du legger feltparametere sammen med små multipler for å skape utrolig nyttig innsikt og grafikk.

LuckyTemplates Template Creation: Guide og tips

I denne opplæringen lærer du hvordan du lager din perfekte LuckyTemplates-mal som er konfigurert til dine behov og preferanser.

LuckyTemplates-rangering og tilpasset gruppering

I denne bloggen vil du lære hvordan du bruker LuckyTemplates rangering og tilpassede grupperingsfunksjoner for å segmentere et eksempeldata og rangere det i henhold til kriterier.

Punktdiagrammer: Avanserte tilpassede bilder for LuckyTemplates

Lær hvordan du oppretter og tilpasser punktdiagrammer i LuckyTemplates, som hovedsakelig brukes til å måle ytelse mot mål eller tidligere år.