Vizualizace chybějících dat v RW/GGMICE

Při analýze dat chceme znát další kroky, jak najít chybějící hodnoty, protože většinu věcí v analýze určují různé faktory. Abychom vám s tím pomohli, budeme se zabývat vizualizací chybějících dat v R pomocí balíčku ggmice . Na celé video tohoto tutoriálu se můžete podívat na konci tohoto blogu .

"Co mám dělat s chybějícími hodnotami?" To je zásadní otázka, kterou si musíte položit, když analyzujete data. Všichni doufáme, že je lze snadno najít, protože jsou kódovány jako null nebo NA.

Podívejme se na některá obecná pravidla a další kroky. Dozvíme se, jak odpovědět na otázky, jako je kolik chybí dat? Jak velký je problém? Můžeme v datech najít nějaké vzory?

Existuje mnoho způsobů, jak toho dosáhnout, ale jako první průzkumný začátek použijeme vizualizaci chybějících dat v R.

Obsah

Kdy zahodit a kdy najít chybějící hodnoty

Pokud v tom, jak chybí, neexistuje žádný vzor a ovlivňuje to méně než 5 % pozorování, ať už je to ve sloupci nebo v sadě dat, můžete tyto chybějící hodnoty vypustit.

Pokud se však ukáže, že je rozšířenější a na základě vizualizací můžete najít nějaké významné vzory, možná budete muset s těmito daty něco udělat.

Takže místo toho, abychom je vypustili, můžeme je připsat, protože pravděpodobně existuje příběh o tom, proč tyto hodnoty ve vzoru chybí tak, jak jsou.

Vizualizace chybějících dat v RW/GGMICE

V tomto demu použijeme balíček, který bude imputovat chybějící hodnoty. Toto je nový balíček pro vizualizaci chybějících dat v R a jmenuje se ggmice .

Cílem je najít vzor a kolik chybí hodnoty, proto se podíváme na vzor grafu a poté matici prediktoru grafu .

MICE znamená multivariační imputaci řetězenými metodami . Nezabýváme se mechanikou, ale naučíme se, jak bude tento algoritmus imputovat naše data, pokud jej použijeme.

Další věc, kterou byste měli vědět o vizualizaci chybějících dat v R pomocí ggmice, je to, že má být skutečně kompatibilní s ggplot2 , takže jsme schopni vytvořit některé vizualizace na zadní straně , slavného vizualizačního balíčku. 

Vizualizace chybějících dat v RW/GGMICE

Kroky při vizualizaci chybějících dat v R s GGMICE

Pojďme do toho a nastartujeme. První věc, kterou musíme udělat, je importovat všechny balíčky, které potřebujeme, zadáním datových sad library (ggmice) , library (tidyverse) , která obsahuje ggplot2, a knihovna (Ecdat) .

Balíček knihovny (Ecdat) má spoustu dobrých datových sad k procvičování. Proto jej používáme a dovážíme.

Vizualizace chybějících dat v RW/GGMICE

Jednou z datových sad je help (MCAS) . Spusťte k tomu funkci nápovědy.

Jak vidíme, je to od společnosti Ecdat a je to soubor údajů o skóre testu. Tato dokumentace nápovědy popisuje každý ze sloupců a říká nám, odkud pochází.

Použijeme to, abychom zjistili, zda chybí data a jaký vzor tvoří, pokud nějaká existují.

Vizualizace chybějících dat v RW/GGMICE

Použijeme is.na (MCAS) a klikneme na Spustit . Jak vidíme, existuje spousta PRAVDIVÝCH a NEPRAVDIVÝCH. Můžeme je shrnout pomocí funkce colSums (is.na(MCAS)), protože FALSE a TRUE jsou v přestrojení nula a jedna. Toto je náš způsob, jak zkontrolovat, zda hodnota chybí nebo ne.

Vizualizace chybějících dat v RW/GGMICE

Jak je uvedeno níže, chybějící hodnoty se nacházejí ve třech sloupcích, jako je spc , totsc8 a avgsalary . Popis těchto sloupců můžeme vidět v sekci dokumentace nápovědy.

Vizualizace chybějících dat v RW/GGMICE

Také pomocí colSums (is.na(MCAS)) / nrow (MCAS) se počet řádků změní na procenta. Toto je jeden způsob, jak se na to dívat, ale není to nejjednodušší.

Vizualizace chybějících dat v RW/GGMICE

V tomto případě se podívejme, co pro nás ggmice může udělat. Použijeme funkci browseVignettes (package = 'ggmice') a poté klikneme na Spustit .

Vizualizace chybějících dat v RW/GGMICE

Pro tuto funkci byly nalezeny některé viněty, takže vyberte ggmice a klikněte na odkaz HTML , abyste viděli několik užitečných výukových programů, které by vám mohly pomoci.

Vizualizace chybějících dat v RW/GGMICE

Vizualizace chybějících dat v RW/GGMICE

Vraťme se ke skriptu a k předání datové sady použijeme funkci plot_pattern (MCAS) .

Vizualizace chybějících dat v RW/GGMICE

Chcete-li si to lépe představit, klikněte na tlačítko Zoom . Jak je znázorněno, ze 155 pozorování má spc 9 chybějících hodnot, 25 pro avgsalary a 40 pro totsc8 .

Pokusíme se zjistit, zda se některá z nich shoduje, kolik jich je a zda mají tendenci být ve shluku.

Vizualizace chybějících dat v RW/GGMICE

Abychom to prověřili, můžeme zkusit analogový způsob pomocí funkce zobrazení (MCAS) a poté kliknutím na Spustit .

Vizualizace chybějících dat v RW/GGMICE

Jedná se o jakýsi tabulkový prohlížeč, kde můžeme vidět všechny chybějící hodnoty. Můžeme to také rozbalit kliknutím na tlačítko Source Editor .

Vizualizace chybějících dat v RW/GGMICE

Podobně jako u , můžeme vidět celkové položky a NA jsou chybějící hodnoty. Je patrné, že celkový počet položek v pohledu (MCAS) je 220 a pouze 155 pro vzor_plot (MCAS), protože pravděpodobně existovaly úplné hodnoty, které nebyly vykresleny samy o sobě.

Také můžeme vidět, že mají tendenci se shlukovat na základě proměnných a řádků. V mnoha případech však chybí pouze jeden nebo druhý. Realita je taková, že je těžké udělat tento vizuální řádek po řádku, takže tady přichází na řadu vizualizace.

Vizualizace chybějících dat v RW/GGMICE

Imputování chybějících dat

Další věcí, kterou musíte udělat, je vrátit se k našemu skriptu, poté zadat nrow (MCAS) a poté sum(is.na(MCAS)$totsc8)) .

V tomto případě víme, že u 40 chybí hodnoty z 200 pozorování. Použijme R jako kalkulačku zadáním 40/200. Chybí nám tedy asi 20 % hodnot, což je hodně.

V ideálním případě chceme vědět, proč jich tolik chybí. Možná je to jen tím, jak byla data shromážděna, což je důvod, proč to můžeme přičíst.

Vizualizace chybějících dat v RW/GGMICE

Chcete-li to provést, naimportujte balíček knihovny (myší) . Toto je jedna z imputačních metod.

Vizualizace chybějících dat v RW/GGMICE

Pak použijme funkce MCAS_pred < –="" quickpred=""> a plot_pred(MCAS_pred) . Ujistěte se, že jste je uložili, klikněte na Spustit a klikněte na tlačítko Lupa .

Vizualizace chybějících dat v RW/GGMICE

Máme-li použít vícerozměrnou imputaci, tento algoritmus najde pozorování a datové body, které jsou podobné těm, které chybí, a pokusí se je doplnit.

Například sloupce spc . Ty budou užitečné pro předpovídání chybějících hodnot stejně jako u totsc8 a avgsalary . V tuto chvíli to neděláme, ale vidíme, jaké hodnoty a proměnné spolu souvisí, což by mohlo pomoci těmto hodnotám bránit.

Vizualizace chybějících dat v RW/GGMICE

Zkusme ještě jednu věc. Použijeme ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , poté klikněte na Spustit .

Toto je , kromě toho, že používáme ggmice. V zásadě jde o to, že můžeme vidět vztah mezi těmito dvěma proměnnými, které mají poměrně málo chybějících hodnot. Když jeden z nich chybí a druhý je dostupný, vidíme, kde tyto body jsou.

V této situaci jsou oba tyto pozorovány v jednom z těchto případů. Jeden chybí a druhý ne. Pokud oba chybí, nebude to na pozemku.

Vizualizace chybějících dat v RW/GGMICE




Závěr

Když pracujeme s chybějícími hodnotami, je lákavé použít algoritmus jako MICE, protože je velmi výkonný k imputaci hodnot. Je však lepší prozkoumat data pro sebe a pochopit, co se děje.

V ideálním případě, pokud máme mnoho chybějících dat, chceme zjistit proč a možná se můžeme pokusit získat další data nebo je můžeme připsat. Vždy je preferováno jít přímo ke zdroji.

Pokud nakonec budeme chtít připočítat chybějící hodnoty, můžeme s balíčkem tidyverse provést několik jednoduchých imputačních metod , jako je průměr nebo medián.

Balíček MICE je bezpochyby výkonný. U věcí, které jsou výpočetně velmi náročné, to může být přehnané, ale my se teď soustředíme jen na jeho vizualizační prvek.

Doufám, že se něco naučíte a klidně tento balíček využijete. Určitě to sdílejte a snažte se dostat slovo, protože je to pěkný balíček pro práci s chybějícími hodnotami, které jsou kompatibilní s ggplot2.

Vše nejlepší,

Jiří


Vyriešte výzvu na analýzu dát s akcelerátorom LuckyTemplates

Vyriešte výzvu na analýzu dát s akcelerátorom LuckyTemplates

Zdokonaľte svoje zručnosti v oblasti vývoja zostáv zapojením sa do výzvy v oblasti analýzy údajov. Accelerator vám môže pomôcť stať sa super používateľom LuckyTemplates!

Spuštění součtů v LuckyTemplates pomocí DAX

Spuštění součtů v LuckyTemplates pomocí DAX

Naučte se, jak vypočítat průběžné součty v LuckyTemplates pomocí DAX. Průběžné součty vám umožní nezabřednout do žádného jednotlivého výsledku.

LuckyTemplates Dax proměnné jsou konstantní: Co to znamená?

LuckyTemplates Dax proměnné jsou konstantní: Co to znamená?

Pochopte koncept proměnných v jazyce DAX v rámci LuckyTemplates a důsledky proměnných pro způsob výpočtu vašich mír.

LuckyTemplates Sloping Chart: Prehľad

LuckyTemplates Sloping Chart: Prehľad

Získajte viac informácií o vlastnom vizuáli nazývanom graf LuckyTemplates Slope, ktorý sa používa na zobrazenie nárastu/zníženia pre jednu alebo viacero metrík.

Farebné motívy LuckyTemplates pre jednotné vizualizácie

Farebné motívy LuckyTemplates pre jednotné vizualizácie

Objavte farebné motívy v LuckyTemplates. Sú nevyhnutné, aby vaše zostavy a vizualizácie vyzerali a fungovali bez problémov.

Výpočet priemeru v LuckyTemplates: Izolácia výsledkov cez týždeň alebo cez víkend pomocou DAX

Výpočet priemeru v LuckyTemplates: Izolácia výsledkov cez týždeň alebo cez víkend pomocou DAX

Výpočet priemeru v LuckyTemplates možno vykonať mnohými spôsobmi, aby ste získali presné informácie pre vaše obchodné správy.

Motiv LuckyTemplates | Standardní motiv LuckyTemplates Desktop

Motiv LuckyTemplates | Standardní motiv LuckyTemplates Desktop

Pojďme se ponořit do standardního motivu LuckyTemplates a prohlédnout si některé funkce zabudované do samotné aplikace LuckyTemplates Desktop.

Vizuál mapy LuckyTemplates: Ako vytvoriť a pridať vlastnú legendu v LuckyTemplates

Vizuál mapy LuckyTemplates: Ako vytvoriť a pridať vlastnú legendu v LuckyTemplates

V tomto návode sa naučíte, ako vytvoriť vlastnú legendu vo vizuáli mapy LuckyTemplates, aby ste zobrazili preferované farby a segmentáciu.

Obrázek na pozadí LuckyTemplates pro sestavy pomocí PPT

Obrázek na pozadí LuckyTemplates pro sestavy pomocí PPT

Naučte se, jak nastavit obrázek na pozadí LuckyTemplates pomocí PowerPointu. Toto je jedna z mých technik při vytváření sestav LuckyTemplates.

Model a analýza rozhodnutí o obstarávaní v LuckyTemplates

Model a analýza rozhodnutí o obstarávaní v LuckyTemplates

V tomto návode sa ponoríme do analýzy obstarávania v rámci organizácie pomocou interakčnej funkcie a sily dátového modelu.