Jak načíst ukázkové datové sady v Pythonu

V tomto příspěvku se podíváme na to, jak načíst ukázkové datové sady v Pythonu. Možná se to nezdá jako nejatraktivnější téma, ale ve skutečnosti je docela důležité. V ideálním případě budete mít v Pythonu nějaké datové sady, které můžete procvičovat, když se učíte nové koncepty. Celé video tohoto tutoriálu si můžete prohlédnout ve spodní části tohoto blogu.

Pokud se chystáte sdílet svůj kód , dokumentovat, co jste udělali , nebo potřebujete pomoc , je opravdu dobré použít obecně dostupnou datovou sadu k vytvoření něčeho, čemu se říká minimálně reprodukovatelný příklad .

Budete mít předem připravený kód nebo skript, který může spustit někdo jiný na internetu a pomůže vám s ním. Pokud neprodukujete tyto minimálně reprodukovatelné ukázky , dostanete se na místa jako Stack Overflow, což může být trochu šok, pokud to neznáte.

Jak načíst ukázkové datové sady v Pythonu

Podívejme se na několik způsobů, jak vytvořit tyto minimálně reprodukovatelné příklady a získat datové sady. Existuje několik balíčků, které můžete použít k načtení předem připravené datové sady do Pythonu a sdílení tohoto kódu.

Podíváme se na tři balíčky, které jsou nejběžnější. Zapálíme prázdný notebook Jupyter a můžeme začít.

Jak načíst ukázkové datové sady v Pythonu

Obsah

Načtěte datové sady v Pythonu ze Sklearnu

První, na kterou se podíváme, se jmenuje Sklearn . Pokud používáte Anacondu, nebudete ji muset stahovat. Pokud byste chtěli další pomoc s Pythonem, LuckyTemplates má, že se můžete zaregistrovat.

Budu předpokládat, že už víte o věcech, jako jsou balíčky, a jděte od toho. Přineseme pandy a Sklearn, konkrétně submodul datové sady.

Jak načíst ukázkové datové sady v Pythonu

Několik těchto datových sad přineseme. Scikit-learn – datová knihovna strojového učení – je nazývá datové sady hraček. Chystáme se načíst Boston, což je soubor údajů o cenách bydlení. Když to přineseme, musíme to mít jako datový rámec.

Musíme skutečně specifikovat, že data a sloupce pocházejí z datové sady Scikit-learn, a oddělit proměnné funkce a cílové proměnné.

Jak načíst ukázkové datové sady v Pythonu

Dostaneme to jako datový rámec, abychom s ním mohli pracovat a dělat s ním různé věci. Panda je tak skvělý balíček, který byste měli znát jako uživatel LuckyTemplates.

Načtěte datové sady v Pythonu z datových sad Vega

Další možností, kterou se můžeme naučit, je balíček datových sad Vega. Tento není k dispozici na Anaconda, ale můžeme jej nainstalovat přes PIP. Toto napíšeme do příkazového řádku pro instalaci datových sad Vega a pro instalaci nebo import místního datového modulu.

Jak načíst ukázkové datové sady v Pythonu

Některé z nich můžete skutečně získat, ale budete potřebovat připojení k webu. Přineseme ty, které jsou nainstalovány lokálně, importováním místních dat a jejich spuštěním.

Jak načíst ukázkové datové sady v Pythonu

Jak vidíte, existuje poměrně málo datových sad. Některé z nich jsou časové řady, zatímco některé z nich mají kategorické nebo spojité proměnné. Vyberme datovou sadu automobilů v datovém rámci, abychom na něm mohli spustit metodu hlavy.

Jak načíst ukázkové datové sady v Pythonu

Nyní máme další ukázkovou datovou sadu, kterou můžeme použít a sdílet.

Jak načíst ukázkové datové sady v Pythonu

Načtěte datové sady v Pythonu z Seaborn

Seaborn je další balíček, který je dostupný v distribuci Anaconda. Ve výchozím nastavení je Seaborn nejlépe známý pro vizualizaci dat, ale má také několik skvělých ukázkových datových sad, které můžete použít. To je to, co zadáme, abychom získali datové sady.

Jak načíst ukázkové datové sady v Pythonu

Jak vidíte, datových sad je zde poměrně dost. Pokračujeme a použijeme datovou sadu tučňáků a znovu získáme prvních několik řádků.

Jak načíst ukázkové datové sady v Pythonu

Výsledkem je další soubor dat, na kterém si můžeme procvičit.

Jak načíst ukázkové datové sady v Pythonu

Myšlenka zde není jen mít datové sady k procvičování. Pokud vidíme nějaké chybějící hodnoty, máme problémy s vypouštěním datových sad, chceme vyplnit kategorickou proměnnou nebo ukázat příklad jiným lidem, aniž bychom poskytli nějaká citlivá data, stačí použít jeden z těchto veřejně přístupných datových sad, které jsou opravdu, opravdu jednoduché aby je lidé mohli používat a sdílet. To je myšlenka minimálně reprodukovatelného příkladu.



Závěr

Abychom to shrnuli, existují tři místa, kde můžete hledat ukázkové datové sady. Scikit-learn je balíček strojového učení. Převod je trochu těžší, ale pokud děláte věci související se strojovým učením, toto je místo, kam jít. Datové sady Vega mají také docela dobrý počet datových sad, zvláště pokud používáte metodu pro získávání datových sad z webu, ale je relativně těžší ji načíst, takže musíte použít PIP oproti tomu, abyste ji měli předinstalovanou s Anacondou. Seaborn je ideální místo, protože načítá datový rámec a má velkou všestrannost, pokud jde o použití vzorových datových sad a reprodukovatelných příkladů.

Stack Overflow má také návod, jak napsat dobrý minimálně reprodukovatelný příklad nebo MRE, takže se podívejte, pokud chcete něco zveřejnit online.

Vědět, kde získat dobré datové sady a sdílet dobré MRE, je opravdu důležitá dovednost, kterou musíte mít jako analytik.

Pokud se vám obsah obsažený v tomto konkrétním tutoriálu líbil, přihlaste se k odběru televizního kanálu LuckyTemplates. Neustále od nás vychází obrovské množství obsahu od mě a od řady tvůrců obsahu – všichni se věnují zlepšování způsobu, jakým používáte LuckyTemplates a Power Platform.


Vytvoření tabulky data v LuckyTemplates

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Bežné funkcie SQL: Prehľad

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

Parametry pole a malé násobky v LuckyTemplates

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

LuckyTemplates Rank a vlastní seskupení

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

V tomto tutoriálu se budu zabývat konkrétní technikou, jak zobrazit kumulativní součet pouze do určitého data ve vašich vizuálech v LuckyTemplates.

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Naučte se vytvářet a přizpůsobovat Bullet grafy v LuckyTemplates, které se používají hlavně pro měření výkonu oproti cílovým nebo předchozím rokům.