Hur man laddar exempeldataset i Python

I det här inlägget ska vi titta på hur man laddar exempeldatauppsättningar i Python. Det här kanske inte verkar vara det mest glamorösa ämnet, men det är faktiskt ganska viktigt. Helst kommer du att ha några dataset i Python som du kan öva på när du lär dig nya koncept. Du kan se hela videon av denna handledning längst ner på den här bloggen.

Om du ska dela med dig av din kod , dokumentera vad du har gjort eller behöver hjälp är det verkligen en bra idé att använda en allmänt tillgänglig datauppsättning för att bygga något som kallas ett minimalt reproducerbart exempel .

Du kommer att ha en förbuntad kod eller ett skript som någon annan på internet kan köra och hjälpa dig med det. Om du inte producerar de här minimalt reproducerbara exemplen blir du upptänd på platser som Stack Overflow, vilket kan vara lite av en chock om du inte är bekant med det.

Hur man laddar exempeldataset i Python

Låt oss titta på några sätt att bygga dessa minimalt reproducerbara exempel och få datauppsättningarna. Det finns några paket som du kan använda för att ladda i en färdig datauppsättning till Python och dela den koden runt.

Vi ska titta på tre paket som är de vanligaste. Låt oss tända en tom Jupyter-anteckningsbok och sätta igång.

Hur man laddar exempeldataset i Python

Innehållsförteckning

Ladda datauppsättningar i Python från Sklearn

Den första vi ska titta på heter Sklearn . Om du använder Anaconda behöver du inte ladda ner detta. Om du vill ha mer hjälp med Python, har LuckyTemplates en som du kan registrera dig.

Jag antar att du redan känner till saker som paket och går därifrån. Vi kommer att ta in pandor och Sklearn, speciellt datauppsättningsundermodulen.

Hur man laddar exempeldataset i Python

Vi kommer att ta med några av dessa datamängder. Scikit-learn – ett databibliotek för maskininlärning – kallar dem leksaksdataset. Vi ska ladda Boston, som är ett dataset för bostadspriser. När vi tar in detta måste vi ha det som en dataram.

Vi måste faktiskt specificera att data och kolumner kommer från Scikit-learn-datauppsättningen och separera funktionsvariablerna och målvariablerna.

Hur man laddar exempeldataset i Python

Vi kommer att få in det här som en dataram så att vi kan arbeta och göra olika saker med det. Panda är ett så bra paket att känna till som LuckyTemplates-användare.

Ladda datauppsättningar i Python från Vega datauppsättningar

Ett annat alternativ vi kan lära oss är paketet Vega dataset. Den här är inte tillgänglig på Anaconda men vi kan installera den via PIP. Det här är vad vi kommer att skriva på kommandoraden för att installera Vega-datauppsättningarna och för att installera eller importera den lokala datamodulen.

Hur man laddar exempeldataset i Python

Vissa av dessa kan du faktiskt få, men du behöver en webbanslutning. Vi tar in de som är installerade lokalt genom att importera lokal data och köra den.

Hur man laddar exempeldataset i Python

Som du kan se finns det en hel del datauppsättningar. Vissa av dessa är tidsserier, medan vissa av dessa har kategoriska eller kontinuerliga variabler. Låt oss välja bilens datauppsättning i en dataram så att vi kan köra huvudmetoden på den.

Hur man laddar exempeldataset i Python

Nu har vi en annan exempeldatauppsättning som vi kan använda och dela.

Hur man laddar exempeldataset i Python

Ladda datauppsättningar i Python från Seaborn

Seaborn är ett annat paket som är tillgängligt i Anaconda-distributionen. Som standard är Seaborn mest känd för datavisualisering, men den har också några fantastiska exempeldataset som du kan använda. Det här är vad vi kommer att skriva för att få datauppsättningar.

Hur man laddar exempeldataset i Python

Som du kan se finns det en hel del datauppsättningar här. Vi går vidare och använder pingvinernas datauppsättning och får de första raderna igen.

Hur man laddar exempeldataset i Python

Resultatet är ytterligare en datauppsättning för oss att öva på.

Hur man laddar exempeldataset i Python

Tanken här är inte bara att ha datamängderna att öva på. Om vi ​​ser några saknade värden, har problem med att ta bort datamängder, vill fylla i den kategoriska variabeln eller visa ett exempel för andra människor utan att ge några känsliga data, kan du bara använda en av dessa allmänt tillgängliga datauppsättningar som är riktigt, riktigt enkla för människor att använda och dela. Det är tanken med ett minimalt reproducerbart exempel.



Slutsats

För att sammanfatta finns det tre ställen att leta efter exempeldatauppsättningar. Scikit-learn är ett maskininlärningspaket. Det är lite svårare att konvertera, men om du gör saker relaterade till maskininlärning är det här platsen att gå. Vega dataset har också ett ganska stort antal datamängder, speciellt om du använder metoden för att hämta datamängder från webben men det är relativt svårare att ladda så du måste bara använda PIP jämfört med att ha det förinstallerat med Anaconda. Seaborn är sweet spot eftersom den laddar dataramen och den har en hel del mångsidighet när det kommer till att använda exempeldataset och reproducerbara exempel.

Stack Overflow har också en handledning om hur man skriver ett bra minimalt reproducerbart exempel eller MRE, så kolla in det om du funderar på att lägga upp något online.

Att veta var man kan få tag i bra datauppsättningar och dela en bra MRE är en väldigt viktig färdighet att ha som analytiker.

Om du gillade innehållet i denna handledning, vänligen prenumerera på LuckyTemplates TV-kanal. Vi har en enorm mängd innehåll som kommer ut hela tiden från mig själv och en rad innehållsskapare – alla dedikerade till att förbättra ditt sätt att använda LuckyTemplates och Power Platform.


LuckyTemplates What-If-parameterfunktion

LuckyTemplates What-If-parameterfunktion

Den här bloggen introducerar den nya funktionen i LuckyTemplates, analysparametern What-If. Du kommer att se hur det gör allt snabbt och enkelt för din scenarioanalys.

Använd LuckyTemplates Mät förgreningar för att kontrollera om dina marginaler ökar när intäkterna växer

Använd LuckyTemplates Mät förgreningar för att kontrollera om dina marginaler ökar när intäkterna växer

Lär dig hur du avgör om din intäktstillväxt är bra genom att kontrollera om dina marginaler ökade med hjälp av LuckyTemplates mäter förgrening.

LuckyTemplates parametrar via frågeredigerare

LuckyTemplates parametrar via frågeredigerare

Lär dig och förstå hur du kan skapa och använda LuckyTemplates-parametrar som är en kraftfull funktion i frågeredigeraren.

Runda stapeldiagram – En visualisering för din instrumentpanel

Runda stapeldiagram – En visualisering för din instrumentpanel

Denna handledning kommer att diskutera hur man skapar ett runt stapeldiagram med Charticulator. Du kommer att lära dig hur du designar dem för din LuckyTemplates-rapport.

PowerApps funktioner och formler | En introduktion

PowerApps funktioner och formler | En introduktion

Lär dig hur du använder PowerApps funktioner och formler för att förbättra funktionaliteten och ändra ett beteende i vår Power Apps canvas-app.

Pipe In R: Anslutningsfunktioner med Dplyr

Pipe In R: Anslutningsfunktioner med Dplyr

I den här handledningen kommer du att lära dig hur du kopplar ihop funktioner med hjälp av dplyr-röroperatorn i programmeringsspråket R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX från LuckyTemplates låter dig returnera rankningen av ett specifikt nummer i varje tabellrad som utgör en del av en lista med nummer.

Extrahera LuckyTemplates-teman och bilder från PBIX

Extrahera LuckyTemplates-teman och bilder från PBIX

Lär dig hur du tar isär en PBIX-fil för att extrahera LuckyTemplates-teman och bilder från bakgrunden och använda den för att skapa din rapport!

Excel Formler Fuskblad: Mellanvägledning

Excel Formler Fuskblad: Mellanvägledning

Excel Formler Fuskblad: Mellanvägledning

LuckyTemplates Kalendertabell: Vad är det och hur man använder det

LuckyTemplates Kalendertabell: Vad är det och hur man använder det

LuckyTemplates Kalendertabell: Vad är det och hur man använder det