Jak načíst ukázkové datové sady v Pythonu

V tomto příspěvku se podíváme na to, jak načíst ukázkové datové sady v Pythonu. Možná se to nezdá jako nejatraktivnější téma, ale ve skutečnosti je docela důležité. V ideálním případě budete mít v Pythonu nějaké datové sady, které můžete procvičovat, když se učíte nové koncepty. Celé video tohoto tutoriálu si můžete prohlédnout ve spodní části tohoto blogu.

Pokud se chystáte sdílet svůj kód , dokumentovat, co jste udělali , nebo potřebujete pomoc , je opravdu dobré použít obecně dostupnou datovou sadu k vytvoření něčeho, čemu se říká minimálně reprodukovatelný příklad .

Budete mít předem připravený kód nebo skript, který může spustit někdo jiný na internetu a pomůže vám s ním. Pokud neprodukujete tyto minimálně reprodukovatelné ukázky , dostanete se na místa jako Stack Overflow, což může být trochu šok, pokud to neznáte.

Jak načíst ukázkové datové sady v Pythonu

Podívejme se na několik způsobů, jak vytvořit tyto minimálně reprodukovatelné příklady a získat datové sady. Existuje několik balíčků, které můžete použít k načtení předem připravené datové sady do Pythonu a sdílení tohoto kódu.

Podíváme se na tři balíčky, které jsou nejběžnější. Zapálíme prázdný notebook Jupyter a můžeme začít.

Jak načíst ukázkové datové sady v Pythonu

Obsah

Načtěte datové sady v Pythonu ze Sklearnu

První, na kterou se podíváme, se jmenuje Sklearn . Pokud používáte Anacondu, nebudete ji muset stahovat. Pokud byste chtěli další pomoc s Pythonem, LuckyTemplates má, že se můžete zaregistrovat.

Budu předpokládat, že už víte o věcech, jako jsou balíčky, a jděte od toho. Přineseme pandy a Sklearn, konkrétně submodul datové sady.

Jak načíst ukázkové datové sady v Pythonu

Několik těchto datových sad přineseme. Scikit-learn – datová knihovna strojového učení – je nazývá datové sady hraček. Chystáme se načíst Boston, což je soubor údajů o cenách bydlení. Když to přineseme, musíme to mít jako datový rámec.

Musíme skutečně specifikovat, že data a sloupce pocházejí z datové sady Scikit-learn, a oddělit proměnné funkce a cílové proměnné.

Jak načíst ukázkové datové sady v Pythonu

Dostaneme to jako datový rámec, abychom s ním mohli pracovat a dělat s ním různé věci. Panda je tak skvělý balíček, který byste měli znát jako uživatel LuckyTemplates.

Načtěte datové sady v Pythonu z datových sad Vega

Další možností, kterou se můžeme naučit, je balíček datových sad Vega. Tento není k dispozici na Anaconda, ale můžeme jej nainstalovat přes PIP. Toto napíšeme do příkazového řádku pro instalaci datových sad Vega a pro instalaci nebo import místního datového modulu.

Jak načíst ukázkové datové sady v Pythonu

Některé z nich můžete skutečně získat, ale budete potřebovat připojení k webu. Přineseme ty, které jsou nainstalovány lokálně, importováním místních dat a jejich spuštěním.

Jak načíst ukázkové datové sady v Pythonu

Jak vidíte, existuje poměrně málo datových sad. Některé z nich jsou časové řady, zatímco některé z nich mají kategorické nebo spojité proměnné. Vyberme datovou sadu automobilů v datovém rámci, abychom na něm mohli spustit metodu hlavy.

Jak načíst ukázkové datové sady v Pythonu

Nyní máme další ukázkovou datovou sadu, kterou můžeme použít a sdílet.

Jak načíst ukázkové datové sady v Pythonu

Načtěte datové sady v Pythonu z Seaborn

Seaborn je další balíček, který je dostupný v distribuci Anaconda. Ve výchozím nastavení je Seaborn nejlépe známý pro vizualizaci dat, ale má také několik skvělých ukázkových datových sad, které můžete použít. To je to, co zadáme, abychom získali datové sady.

Jak načíst ukázkové datové sady v Pythonu

Jak vidíte, datových sad je zde poměrně dost. Pokračujeme a použijeme datovou sadu tučňáků a znovu získáme prvních několik řádků.

Jak načíst ukázkové datové sady v Pythonu

Výsledkem je další soubor dat, na kterém si můžeme procvičit.

Jak načíst ukázkové datové sady v Pythonu

Myšlenka zde není jen mít datové sady k procvičování. Pokud vidíme nějaké chybějící hodnoty, máme problémy s vypouštěním datových sad, chceme vyplnit kategorickou proměnnou nebo ukázat příklad jiným lidem, aniž bychom poskytli nějaká citlivá data, stačí použít jeden z těchto veřejně přístupných datových sad, které jsou opravdu, opravdu jednoduché aby je lidé mohli používat a sdílet. To je myšlenka minimálně reprodukovatelného příkladu.



Závěr

Abychom to shrnuli, existují tři místa, kde můžete hledat ukázkové datové sady. Scikit-learn je balíček strojového učení. Převod je trochu těžší, ale pokud děláte věci související se strojovým učením, toto je místo, kam jít. Datové sady Vega mají také docela dobrý počet datových sad, zvláště pokud používáte metodu pro získávání datových sad z webu, ale je relativně těžší ji načíst, takže musíte použít PIP oproti tomu, abyste ji měli předinstalovanou s Anacondou. Seaborn je ideální místo, protože načítá datový rámec a má velkou všestrannost, pokud jde o použití vzorových datových sad a reprodukovatelných příkladů.

Stack Overflow má také návod, jak napsat dobrý minimálně reprodukovatelný příklad nebo MRE, takže se podívejte, pokud chcete něco zveřejnit online.

Vědět, kde získat dobré datové sady a sdílet dobré MRE, je opravdu důležitá dovednost, kterou musíte mít jako analytik.

Pokud se vám obsah obsažený v tomto konkrétním tutoriálu líbil, přihlaste se k odběru televizního kanálu LuckyTemplates. Neustále od nás vychází obrovské množství obsahu od mě a od řady tvůrců obsahu – všichni se věnují zlepšování způsobu, jakým používáte LuckyTemplates a Power Platform.


Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Zistite, ako stiahnuť a nainštalovať DAX Studio a Tabular Editor 3 a ako ich nakonfigurovať na použitie v LuckyTemplates a v Exceli.

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

Tento blog obsahuje vizualizáciu Shape Map pre priestorovú analýzu v LuckyTemplates. Ukážem vám, ako môžete efektívne využiť túto vizualizáciu s jej funkciami a prvkami.

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

V tomto návode predstavujem jedinečný nápad týkajúci sa finančného výkazníctva, ktorý spočíva v prideľovaní výsledkov na vopred určené šablóny tabuliek v rámci LuckyTemplates.

DAX měří v LuckyTemplates pomocí Measure Branching

DAX měří v LuckyTemplates pomocí Measure Branching

Vytvářejte míry DAX v LuckyTemplates pomocí existujících mír nebo vzorců. Tomu říkám technika větvení opatření.

Najvýkonnejšie volanie funkcie v LuckyTemplates

Najvýkonnejšie volanie funkcie v LuckyTemplates

V tomto blogu preskúmajte množinu údajov LuckyTemplates, najvýkonnejšie volanie funkcií, ktoré vám prináša tisíce funkcií M a DAX na dosah ruky.

Techniky modelovania údajov na organizáciu opatrení DAX

Techniky modelovania údajov na organizáciu opatrení DAX

V dnešnom návode sa podelím o niekoľko techník modelovania údajov o tom, ako lepšie usporiadať vaše merania DAX pre efektívnejší pracovný tok.

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates je skvelý nástroj pre finančné výkazníctvo. Tu je návod, ako vytvoriť prispôsobené tabuľky pre váš finančný dashboard LuckyTemplates.

Osvedčené postupy toku jazyka Power Query

Osvedčené postupy toku jazyka Power Query

V tomto návode sa bude diskutovať o toku jazyka Power Query a o tom, ako môže pomôcť vytvoriť hladkú a efektívnu zostavu údajov.

LuckyTemplates vlastní ikony | Vizualizační technika PBI

LuckyTemplates vlastní ikony | Vizualizační technika PBI

Budu diskutovat o jedné z mých oblíbených technik kolem vlastních ikon LuckyTemplates, která používá vlastní ikony dynamickým způsobem ve vizuálech LuckyTemplates.

Vytváření tabulek LuckyTemplates pomocí funkce UNION & ROW

Vytváření tabulek LuckyTemplates pomocí funkce UNION & ROW

V tomto blogu vám ukážu, jak můžete vytvořit tabulky LuckyTemplates pomocí vzorce, který kombinuje funkci UNION a funkci ROW.