Vizualizace chybějících dat v RW/GGMICE

Při analýze dat chceme znát další kroky, jak najít chybějící hodnoty, protože většinu věcí v analýze určují různé faktory. Abychom vám s tím pomohli, budeme se zabývat vizualizací chybějících dat v R pomocí balíčku ggmice . Na celé video tohoto tutoriálu se můžete podívat na konci tohoto blogu .

"Co mám dělat s chybějícími hodnotami?" To je zásadní otázka, kterou si musíte položit, když analyzujete data. Všichni doufáme, že je lze snadno najít, protože jsou kódovány jako null nebo NA.

Podívejme se na některá obecná pravidla a další kroky. Dozvíme se, jak odpovědět na otázky, jako je kolik chybí dat? Jak velký je problém? Můžeme v datech najít nějaké vzory?

Existuje mnoho způsobů, jak toho dosáhnout, ale jako první průzkumný začátek použijeme vizualizaci chybějících dat v R.

Obsah

Kdy zahodit a kdy najít chybějící hodnoty

Pokud v tom, jak chybí, neexistuje žádný vzor a ovlivňuje to méně než 5 % pozorování, ať už je to ve sloupci nebo v sadě dat, můžete tyto chybějící hodnoty vypustit.

Pokud se však ukáže, že je rozšířenější a na základě vizualizací můžete najít nějaké významné vzory, možná budete muset s těmito daty něco udělat.

Takže místo toho, abychom je vypustili, můžeme je připsat, protože pravděpodobně existuje příběh o tom, proč tyto hodnoty ve vzoru chybí tak, jak jsou.

Vizualizace chybějících dat v RW/GGMICE

V tomto demu použijeme balíček, který bude imputovat chybějící hodnoty. Toto je nový balíček pro vizualizaci chybějících dat v R a jmenuje se ggmice .

Cílem je najít vzor a kolik chybí hodnoty, proto se podíváme na vzor grafu a poté matici prediktoru grafu .

MICE znamená multivariační imputaci řetězenými metodami . Nezabýváme se mechanikou, ale naučíme se, jak bude tento algoritmus imputovat naše data, pokud jej použijeme.

Další věc, kterou byste měli vědět o vizualizaci chybějících dat v R pomocí ggmice, je to, že má být skutečně kompatibilní s ggplot2 , takže jsme schopni vytvořit některé vizualizace na zadní straně , slavného vizualizačního balíčku. 

Vizualizace chybějících dat v RW/GGMICE

Kroky při vizualizaci chybějících dat v R s GGMICE

Pojďme do toho a nastartujeme. První věc, kterou musíme udělat, je importovat všechny balíčky, které potřebujeme, zadáním datových sad library (ggmice) , library (tidyverse) , která obsahuje ggplot2, a knihovna (Ecdat) .

Balíček knihovny (Ecdat) má spoustu dobrých datových sad k procvičování. Proto jej používáme a dovážíme.

Vizualizace chybějících dat v RW/GGMICE

Jednou z datových sad je help (MCAS) . Spusťte k tomu funkci nápovědy.

Jak vidíme, je to od společnosti Ecdat a je to soubor údajů o skóre testu. Tato dokumentace nápovědy popisuje každý ze sloupců a říká nám, odkud pochází.

Použijeme to, abychom zjistili, zda chybí data a jaký vzor tvoří, pokud nějaká existují.

Vizualizace chybějících dat v RW/GGMICE

Použijeme is.na (MCAS) a klikneme na Spustit . Jak vidíme, existuje spousta PRAVDIVÝCH a NEPRAVDIVÝCH. Můžeme je shrnout pomocí funkce colSums (is.na(MCAS)), protože FALSE a TRUE jsou v přestrojení nula a jedna. Toto je náš způsob, jak zkontrolovat, zda hodnota chybí nebo ne.

Vizualizace chybějících dat v RW/GGMICE

Jak je uvedeno níže, chybějící hodnoty se nacházejí ve třech sloupcích, jako je spc , totsc8 a avgsalary . Popis těchto sloupců můžeme vidět v sekci dokumentace nápovědy.

Vizualizace chybějících dat v RW/GGMICE

Také pomocí colSums (is.na(MCAS)) / nrow (MCAS) se počet řádků změní na procenta. Toto je jeden způsob, jak se na to dívat, ale není to nejjednodušší.

Vizualizace chybějících dat v RW/GGMICE

V tomto případě se podívejme, co pro nás ggmice může udělat. Použijeme funkci browseVignettes (package = 'ggmice') a poté klikneme na Spustit .

Vizualizace chybějících dat v RW/GGMICE

Pro tuto funkci byly nalezeny některé viněty, takže vyberte ggmice a klikněte na odkaz HTML , abyste viděli několik užitečných výukových programů, které by vám mohly pomoci.

Vizualizace chybějících dat v RW/GGMICE

Vizualizace chybějících dat v RW/GGMICE

Vraťme se ke skriptu a k předání datové sady použijeme funkci plot_pattern (MCAS) .

Vizualizace chybějících dat v RW/GGMICE

Chcete-li si to lépe představit, klikněte na tlačítko Zoom . Jak je znázorněno, ze 155 pozorování má spc 9 chybějících hodnot, 25 pro avgsalary a 40 pro totsc8 .

Pokusíme se zjistit, zda se některá z nich shoduje, kolik jich je a zda mají tendenci být ve shluku.

Vizualizace chybějících dat v RW/GGMICE

Abychom to prověřili, můžeme zkusit analogový způsob pomocí funkce zobrazení (MCAS) a poté kliknutím na Spustit .

Vizualizace chybějících dat v RW/GGMICE

Jedná se o jakýsi tabulkový prohlížeč, kde můžeme vidět všechny chybějící hodnoty. Můžeme to také rozbalit kliknutím na tlačítko Source Editor .

Vizualizace chybějících dat v RW/GGMICE

Podobně jako u , můžeme vidět celkové položky a NA jsou chybějící hodnoty. Je patrné, že celkový počet položek v pohledu (MCAS) je 220 a pouze 155 pro vzor_plot (MCAS), protože pravděpodobně existovaly úplné hodnoty, které nebyly vykresleny samy o sobě.

Také můžeme vidět, že mají tendenci se shlukovat na základě proměnných a řádků. V mnoha případech však chybí pouze jeden nebo druhý. Realita je taková, že je těžké udělat tento vizuální řádek po řádku, takže tady přichází na řadu vizualizace.

Vizualizace chybějících dat v RW/GGMICE

Imputování chybějících dat

Další věcí, kterou musíte udělat, je vrátit se k našemu skriptu, poté zadat nrow (MCAS) a poté sum(is.na(MCAS)$totsc8)) .

V tomto případě víme, že u 40 chybí hodnoty z 200 pozorování. Použijme R jako kalkulačku zadáním 40/200. Chybí nám tedy asi 20 % hodnot, což je hodně.

V ideálním případě chceme vědět, proč jich tolik chybí. Možná je to jen tím, jak byla data shromážděna, což je důvod, proč to můžeme přičíst.

Vizualizace chybějících dat v RW/GGMICE

Chcete-li to provést, naimportujte balíček knihovny (myší) . Toto je jedna z imputačních metod.

Vizualizace chybějících dat v RW/GGMICE

Pak použijme funkce MCAS_pred < –="" quickpred=""> a plot_pred(MCAS_pred) . Ujistěte se, že jste je uložili, klikněte na Spustit a klikněte na tlačítko Lupa .

Vizualizace chybějících dat v RW/GGMICE

Máme-li použít vícerozměrnou imputaci, tento algoritmus najde pozorování a datové body, které jsou podobné těm, které chybí, a pokusí se je doplnit.

Například sloupce spc . Ty budou užitečné pro předpovídání chybějících hodnot stejně jako u totsc8 a avgsalary . V tuto chvíli to neděláme, ale vidíme, jaké hodnoty a proměnné spolu souvisí, což by mohlo pomoci těmto hodnotám bránit.

Vizualizace chybějících dat v RW/GGMICE

Zkusme ještě jednu věc. Použijeme ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , poté klikněte na Spustit .

Toto je , kromě toho, že používáme ggmice. V zásadě jde o to, že můžeme vidět vztah mezi těmito dvěma proměnnými, které mají poměrně málo chybějících hodnot. Když jeden z nich chybí a druhý je dostupný, vidíme, kde tyto body jsou.

V této situaci jsou oba tyto pozorovány v jednom z těchto případů. Jeden chybí a druhý ne. Pokud oba chybí, nebude to na pozemku.

Vizualizace chybějících dat v RW/GGMICE




Závěr

Když pracujeme s chybějícími hodnotami, je lákavé použít algoritmus jako MICE, protože je velmi výkonný k imputaci hodnot. Je však lepší prozkoumat data pro sebe a pochopit, co se děje.

V ideálním případě, pokud máme mnoho chybějících dat, chceme zjistit proč a možná se můžeme pokusit získat další data nebo je můžeme připsat. Vždy je preferováno jít přímo ke zdroji.

Pokud nakonec budeme chtít připočítat chybějící hodnoty, můžeme s balíčkem tidyverse provést několik jednoduchých imputačních metod , jako je průměr nebo medián.

Balíček MICE je bezpochyby výkonný. U věcí, které jsou výpočetně velmi náročné, to může být přehnané, ale my se teď soustředíme jen na jeho vizualizační prvek.

Doufám, že se něco naučíte a klidně tento balíček využijete. Určitě to sdílejte a snažte se dostat slovo, protože je to pěkný balíček pro práci s chybějícími hodnotami, které jsou kompatibilní s ggplot2.

Vše nejlepší,

Jiří


Vytvoření tabulky data v LuckyTemplates

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Bežné funkcie SQL: Prehľad

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

Parametry pole a malé násobky v LuckyTemplates

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

LuckyTemplates Rank a vlastní seskupení

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

V tomto tutoriálu se budu zabývat konkrétní technikou, jak zobrazit kumulativní součet pouze do určitého data ve vašich vizuálech v LuckyTemplates.

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Naučte se vytvářet a přizpůsobovat Bullet grafy v LuckyTemplates, které se používají hlavně pro měření výkonu oproti cílovým nebo předchozím rokům.