Datové sady v Pandách s ProfileReport() | Python v LuckyTemplates

Jednou z nejčastějších otázek, se kterou se jako datový analytik setkáte, je, jaký je nejlepší způsob, jak prozkoumat daný soubor dat. To je důležité především tehdy, chcete-li dát všechna data dohromady do sestavy, kterou budete snadno interpretovat vy nebo váš tým. V tomto tutoriálu ukážu, jak můžete efektivně prozkoumat datové sady v Pandas pomocí ProfileReport(). Celé video tohoto tutoriálu si můžete prohlédnout ve spodní části tohoto blogu.

Když dostanete soubor dat, co uděláte? Jak prozkoumáváte soubor dat? Především, pokud to chcete dát dohromady do snadno čitelné zprávy pro sebe, pro spolupracovníky atd., musíte zvážit spoustu věcí.

Nejprve přemýšlejte o tom, jaké druhy proměnných to jsou, protože to ovlivní, jak je analyzujete a jak s nimi zacházíte. Data znamenají to, co je dáno. Takže to, co chybí, budou data, která nemáme. Další věcí je vizualizace těchto vztahů. Jak vypadají? Tuto vizualizační sílu chceme využívat brzy a často.

Jedná se o mnoho vzájemně propojených složitých otázek. Dobrá věc je, že je k dispozici tato funkce profilování, která nám tyto odpovědi poskytne. Podívejme se na to všechno v Pythonu.

Obsah

Prozkoumejte datové sady v Pandas pomocí funkce ProfileReport().

Nejprve načteme datovou sadu.

Datové sady v Pandách s ProfileReport() |  Python v LuckyTemplates

Poté z pandas_profiling importujeme věc zvanou profilová zpráva. Nyní, pokud se zde zobrazí chyba, pravděpodobně jej budete muset nainstalovat. Používám Anacondu. Navrhuji, abyste to také použili. Spusťte to a pak to vytiskněte.

Datové sady v Pandách s ProfileReport() |  Python v LuckyTemplates

Tak tady to je. Máme přehled . To nám dává rozpis typů proměnných. Máme statistiku datového souboru. Vidíme počet řádkových sloupců, tak dále a tak dále. Pěkné na této zprávě je, že je jako jediné kontaktní místo a také vypadá opravdu pěkně. Má velmi přitažlivou prezentaci.

Datové sady v Pandách s ProfileReport() |  Python v LuckyTemplates

Srolujeme sem dolů a máme. Získáme vizualizaci a můžeme přepínat další podrobnosti o proměnné. Máme vlajky, které upozorňují na věci, které mohou být trochu neobvyklé. Máme také tato upozornění a mnoho dalších funkcí, které nám poskytnou další informace. A to platí pro každou jednotlivou proměnnou.

Datové sady v Pandách s ProfileReport() |  Python v LuckyTemplates

Jak pokračujeme v rolování dolů, najdeme Interactions, kde jsou vytvořeny bodové grafy pro vizualizaci dat.

Datové sady v Pandách s ProfileReport() |  Python v LuckyTemplates

A pak tu máme Korelace , které shrnuly vztah.

Datové sady v Pandách s ProfileReport() |  Python v LuckyTemplates

Další je, které jsou velmi důležité. Jak vidíte, některé hodnoty zde chybí a chceme vědět proč. Tyto vizualizace nám k tomu mají pomoci. Můžeme se proklikat každým vizuálem a analyzovat data.

Datové sady v Pandách s ProfileReport() |  Python v LuckyTemplates

Nakonec tu máme ukázku. Mohli bychom to získat mnoha způsoby, ale stačí jen vytisknout několik prvních řádků, což je dobré vědět.

Datové sady v Pandách s ProfileReport() |  Python v LuckyTemplates




Závěr

Takto prozkoumáváte datové sady v Pandas pomocí funkce ProfileReport(). Existuje mnoho způsobů, jak data rozdělit na kousky. Přemýšlejte o všech kombinacích permutací dat. Tohle za vás nebude moct udělat všechno, ale je to opravdu dobrý začátek.

Když zkoumáme data, je to opravdu iterativní proces. Neexistuje žádná jednorázová magická pilulka, kterou bychom mohli chtít. ProfilerReport() je však opravdu skvělý nástroj. Získáváme spoustu informací a pouze jeden řádek kódu. Toto je bezplatný nástroj, takže doufám, že jej můžete použít ve své vlastní práci. Dejte nám vědět, jak to děláte.

Vše nejlepší!


Vytvoření tabulky data v LuckyTemplates

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Bežné funkcie SQL: Prehľad

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

Parametry pole a malé násobky v LuckyTemplates

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

LuckyTemplates Rank a vlastní seskupení

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

V tomto tutoriálu se budu zabývat konkrétní technikou, jak zobrazit kumulativní součet pouze do určitého data ve vašich vizuálech v LuckyTemplates.

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Naučte se vytvářet a přizpůsobovat Bullet grafy v LuckyTemplates, které se používají hlavně pro měření výkonu oproti cílovým nebo předchozím rokům.