Hur man laddar exempeldataset i Python

I det här inlägget ska vi titta på hur man laddar exempeldatauppsättningar i Python. Det här kanske inte verkar vara det mest glamorösa ämnet, men det är faktiskt ganska viktigt. Helst kommer du att ha några dataset i Python som du kan öva på när du lär dig nya koncept. Du kan se hela videon av denna handledning längst ner på den här bloggen.

Om du ska dela med dig av din kod , dokumentera vad du har gjort eller behöver hjälp är det verkligen en bra idé att använda en allmänt tillgänglig datauppsättning för att bygga något som kallas ett minimalt reproducerbart exempel .

Du kommer att ha en förbuntad kod eller ett skript som någon annan på internet kan köra och hjälpa dig med det. Om du inte producerar de här minimalt reproducerbara exemplen blir du upptänd på platser som Stack Overflow, vilket kan vara lite av en chock om du inte är bekant med det.

Hur man laddar exempeldataset i Python

Låt oss titta på några sätt att bygga dessa minimalt reproducerbara exempel och få datauppsättningarna. Det finns några paket som du kan använda för att ladda i en färdig datauppsättning till Python och dela den koden runt.

Vi ska titta på tre paket som är de vanligaste. Låt oss tända en tom Jupyter-anteckningsbok och sätta igång.

Hur man laddar exempeldataset i Python

Innehållsförteckning

Ladda datauppsättningar i Python från Sklearn

Den första vi ska titta på heter Sklearn . Om du använder Anaconda behöver du inte ladda ner detta. Om du vill ha mer hjälp med Python, har LuckyTemplates en som du kan registrera dig.

Jag antar att du redan känner till saker som paket och går därifrån. Vi kommer att ta in pandor och Sklearn, speciellt datauppsättningsundermodulen.

Hur man laddar exempeldataset i Python

Vi kommer att ta med några av dessa datamängder. Scikit-learn – ett databibliotek för maskininlärning – kallar dem leksaksdataset. Vi ska ladda Boston, som är ett dataset för bostadspriser. När vi tar in detta måste vi ha det som en dataram.

Vi måste faktiskt specificera att data och kolumner kommer från Scikit-learn-datauppsättningen och separera funktionsvariablerna och målvariablerna.

Hur man laddar exempeldataset i Python

Vi kommer att få in det här som en dataram så att vi kan arbeta och göra olika saker med det. Panda är ett så bra paket att känna till som LuckyTemplates-användare.

Ladda datauppsättningar i Python från Vega datauppsättningar

Ett annat alternativ vi kan lära oss är paketet Vega dataset. Den här är inte tillgänglig på Anaconda men vi kan installera den via PIP. Det här är vad vi kommer att skriva på kommandoraden för att installera Vega-datauppsättningarna och för att installera eller importera den lokala datamodulen.

Hur man laddar exempeldataset i Python

Vissa av dessa kan du faktiskt få, men du behöver en webbanslutning. Vi tar in de som är installerade lokalt genom att importera lokal data och köra den.

Hur man laddar exempeldataset i Python

Som du kan se finns det en hel del datauppsättningar. Vissa av dessa är tidsserier, medan vissa av dessa har kategoriska eller kontinuerliga variabler. Låt oss välja bilens datauppsättning i en dataram så att vi kan köra huvudmetoden på den.

Hur man laddar exempeldataset i Python

Nu har vi en annan exempeldatauppsättning som vi kan använda och dela.

Hur man laddar exempeldataset i Python

Ladda datauppsättningar i Python från Seaborn

Seaborn är ett annat paket som är tillgängligt i Anaconda-distributionen. Som standard är Seaborn mest känd för datavisualisering, men den har också några fantastiska exempeldataset som du kan använda. Det här är vad vi kommer att skriva för att få datauppsättningar.

Hur man laddar exempeldataset i Python

Som du kan se finns det en hel del datauppsättningar här. Vi går vidare och använder pingvinernas datauppsättning och får de första raderna igen.

Hur man laddar exempeldataset i Python

Resultatet är ytterligare en datauppsättning för oss att öva på.

Hur man laddar exempeldataset i Python

Tanken här är inte bara att ha datamängderna att öva på. Om vi ​​ser några saknade värden, har problem med att ta bort datamängder, vill fylla i den kategoriska variabeln eller visa ett exempel för andra människor utan att ge några känsliga data, kan du bara använda en av dessa allmänt tillgängliga datauppsättningar som är riktigt, riktigt enkla för människor att använda och dela. Det är tanken med ett minimalt reproducerbart exempel.



Slutsats

För att sammanfatta finns det tre ställen att leta efter exempeldatauppsättningar. Scikit-learn är ett maskininlärningspaket. Det är lite svårare att konvertera, men om du gör saker relaterade till maskininlärning är det här platsen att gå. Vega dataset har också ett ganska stort antal datamängder, speciellt om du använder metoden för att hämta datamängder från webben men det är relativt svårare att ladda så du måste bara använda PIP jämfört med att ha det förinstallerat med Anaconda. Seaborn är sweet spot eftersom den laddar dataramen och den har en hel del mångsidighet när det kommer till att använda exempeldataset och reproducerbara exempel.

Stack Overflow har också en handledning om hur man skriver ett bra minimalt reproducerbart exempel eller MRE, så kolla in det om du funderar på att lägga upp något online.

Att veta var man kan få tag i bra datauppsättningar och dela en bra MRE är en väldigt viktig färdighet att ha som analytiker.

Om du gillade innehållet i denna handledning, vänligen prenumerera på LuckyTemplates TV-kanal. Vi har en enorm mängd innehåll som kommer ut hela tiden från mig själv och en rad innehållsskapare – alla dedikerade till att förbättra ditt sätt att använda LuckyTemplates och Power Platform.


Skapa en datumtabell i LuckyTemplates

Skapa en datumtabell i LuckyTemplates

Ta reda på varför det är viktigt att ha en dedikerad datumtabell i LuckyTemplates och lär dig det snabbaste och mest effektiva sättet att göra det.

LuckyTemplates mobilrapporteringstips och tekniker

LuckyTemplates mobilrapporteringstips och tekniker

Denna korta handledning belyser LuckyTemplates mobilrapporteringsfunktion. Jag ska visa dig hur du kan utveckla rapporter effektivt för mobila enheter.

Professional Service Analytics-rapporter i LuckyTemplates

Professional Service Analytics-rapporter i LuckyTemplates

I denna LuckyTemplates Showcase går vi igenom rapporter som visar professionell serviceanalys från ett företag som har flera kontrakt och kundengagemang.

Microsoft Power Platform-uppdateringar | Microsoft Ignite 2021

Microsoft Power Platform-uppdateringar | Microsoft Ignite 2021

Gå igenom de viktigaste uppdateringarna för Power Apps och Power Automate och deras fördelar och konsekvenser för Microsoft Power Platform.

Vanliga SQL-funktioner: En översikt

Vanliga SQL-funktioner: En översikt

Upptäck några vanliga SQL-funktioner som vi kan använda som sträng, datum och några avancerade funktioner för att bearbeta eller manipulera data.

LuckyTemplates Skapa mall: Guide och tips

LuckyTemplates Skapa mall: Guide och tips

I den här handledningen kommer du att lära dig hur du skapar din perfekta LuckyTemplates-mall som är konfigurerad efter dina behov och preferenser.

Fältparametrar och små multiplar i LuckyTemplates

Fältparametrar och små multiplar i LuckyTemplates

I den här bloggen kommer vi att visa hur man lager fältparametrar med små multiplar för att skapa otroligt användbara insikter och bilder.

LuckyTemplates Rank och anpassad gruppering

LuckyTemplates Rank och anpassad gruppering

I den här bloggen kommer du att lära dig hur du använder LuckyTemplates ranknings- och anpassade grupperingsfunktioner för att segmentera en exempeldata och rangordna den enligt kriterier.

Visar kumulativ total endast upp till ett visst datum i LuckyTemplates

Visar kumulativ total endast upp till ett visst datum i LuckyTemplates

I den här handledningen kommer jag att täcka en specifik teknik kring hur man visar Kumulativ total endast upp till ett specifikt datum i dina bilder i LuckyTemplates.

Punktdiagram: Avancerade anpassade bilder för LuckyTemplates

Punktdiagram: Avancerade anpassade bilder för LuckyTemplates

Lär dig hur du skapar och anpassar punktdiagram i LuckyTemplates, som huvudsakligen används för att mäta prestanda mot mål eller tidigare år.