Vyriešte výzvu na analýzu dát s akcelerátorom LuckyTemplates
Zdokonaľte svoje zručnosti v oblasti vývoja zostáv zapojením sa do výzvy v oblasti analýzy údajov. Accelerator vám môže pomôcť stať sa super používateľom LuckyTemplates!
Při analýze dat chceme znát další kroky, jak najít chybějící hodnoty, protože většinu věcí v analýze určují různé faktory. Abychom vám s tím pomohli, budeme se zabývat vizualizací chybějících dat v R pomocí balíčku ggmice . Na celé video tohoto tutoriálu se můžete podívat na konci tohoto blogu .
"Co mám dělat s chybějícími hodnotami?" To je zásadní otázka, kterou si musíte položit, když analyzujete data. Všichni doufáme, že je lze snadno najít, protože jsou kódovány jako null nebo NA.
Podívejme se na některá obecná pravidla a další kroky. Dozvíme se, jak odpovědět na otázky, jako je kolik chybí dat? Jak velký je problém? Můžeme v datech najít nějaké vzory?
Existuje mnoho způsobů, jak toho dosáhnout, ale jako první průzkumný začátek použijeme vizualizaci chybějících dat v R.
Obsah
Kdy zahodit a kdy najít chybějící hodnoty
Pokud v tom, jak chybí, neexistuje žádný vzor a ovlivňuje to méně než 5 % pozorování, ať už je to ve sloupci nebo v sadě dat, můžete tyto chybějící hodnoty vypustit.
Pokud se však ukáže, že je rozšířenější a na základě vizualizací můžete najít nějaké významné vzory, možná budete muset s těmito daty něco udělat.
Takže místo toho, abychom je vypustili, můžeme je připsat, protože pravděpodobně existuje příběh o tom, proč tyto hodnoty ve vzoru chybí tak, jak jsou.
V tomto demu použijeme balíček, který bude imputovat chybějící hodnoty. Toto je nový balíček pro vizualizaci chybějících dat v R a jmenuje se ggmice .
Cílem je najít vzor a kolik chybí hodnoty, proto se podíváme na vzor grafu a poté matici prediktoru grafu .
MICE znamená multivariační imputaci řetězenými metodami . Nezabýváme se mechanikou, ale naučíme se, jak bude tento algoritmus imputovat naše data, pokud jej použijeme.
Další věc, kterou byste měli vědět o vizualizaci chybějících dat v R pomocí ggmice, je to, že má být skutečně kompatibilní s ggplot2 , takže jsme schopni vytvořit některé vizualizace na zadní straně , slavného vizualizačního balíčku.
Kroky při vizualizaci chybějících dat v R s GGMICE
Pojďme do toho a nastartujeme. První věc, kterou musíme udělat, je importovat všechny balíčky, které potřebujeme, zadáním datových sad library (ggmice) , library (tidyverse) , která obsahuje ggplot2, a knihovna (Ecdat) .
Balíček knihovny (Ecdat) má spoustu dobrých datových sad k procvičování. Proto jej používáme a dovážíme.
Jednou z datových sad je help (MCAS) . Spusťte k tomu funkci nápovědy.
Jak vidíme, je to od společnosti Ecdat a je to soubor údajů o skóre testu. Tato dokumentace nápovědy popisuje každý ze sloupců a říká nám, odkud pochází.
Použijeme to, abychom zjistili, zda chybí data a jaký vzor tvoří, pokud nějaká existují.
Použijeme is.na (MCAS) a klikneme na Spustit . Jak vidíme, existuje spousta PRAVDIVÝCH a NEPRAVDIVÝCH. Můžeme je shrnout pomocí funkce colSums (is.na(MCAS)), protože FALSE a TRUE jsou v přestrojení nula a jedna. Toto je náš způsob, jak zkontrolovat, zda hodnota chybí nebo ne.
Jak je uvedeno níže, chybějící hodnoty se nacházejí ve třech sloupcích, jako je spc , totsc8 a avgsalary . Popis těchto sloupců můžeme vidět v sekci dokumentace nápovědy.
Také pomocí colSums (is.na(MCAS)) / nrow (MCAS) se počet řádků změní na procenta. Toto je jeden způsob, jak se na to dívat, ale není to nejjednodušší.
V tomto případě se podívejme, co pro nás ggmice může udělat. Použijeme funkci browseVignettes (package = 'ggmice') a poté klikneme na Spustit .
Pro tuto funkci byly nalezeny některé viněty, takže vyberte ggmice a klikněte na odkaz HTML , abyste viděli několik užitečných výukových programů, které by vám mohly pomoci.
Vraťme se ke skriptu a k předání datové sady použijeme funkci plot_pattern (MCAS) .
Chcete-li si to lépe představit, klikněte na tlačítko Zoom . Jak je znázorněno, ze 155 pozorování má spc 9 chybějících hodnot, 25 pro avgsalary a 40 pro totsc8 .
Pokusíme se zjistit, zda se některá z nich shoduje, kolik jich je a zda mají tendenci být ve shluku.
Abychom to prověřili, můžeme zkusit analogový způsob pomocí funkce zobrazení (MCAS) a poté kliknutím na Spustit .
Jedná se o jakýsi tabulkový prohlížeč, kde můžeme vidět všechny chybějící hodnoty. Můžeme to také rozbalit kliknutím na tlačítko Source Editor .
Podobně jako u , můžeme vidět celkové položky a NA jsou chybějící hodnoty. Je patrné, že celkový počet položek v pohledu (MCAS) je 220 a pouze 155 pro vzor_plot (MCAS), protože pravděpodobně existovaly úplné hodnoty, které nebyly vykresleny samy o sobě.
Také můžeme vidět, že mají tendenci se shlukovat na základě proměnných a řádků. V mnoha případech však chybí pouze jeden nebo druhý. Realita je taková, že je těžké udělat tento vizuální řádek po řádku, takže tady přichází na řadu vizualizace.
Imputování chybějících dat
Další věcí, kterou musíte udělat, je vrátit se k našemu skriptu, poté zadat nrow (MCAS) a poté sum(is.na(MCAS)$totsc8)) .
V tomto případě víme, že u 40 chybí hodnoty z 200 pozorování. Použijme R jako kalkulačku zadáním 40/200. Chybí nám tedy asi 20 % hodnot, což je hodně.
V ideálním případě chceme vědět, proč jich tolik chybí. Možná je to jen tím, jak byla data shromážděna, což je důvod, proč to můžeme přičíst.
Chcete-li to provést, naimportujte balíček knihovny (myší) . Toto je jedna z imputačních metod.
Pak použijme funkce MCAS_pred < –="" quickpred=""> a plot_pred(MCAS_pred) . Ujistěte se, že jste je uložili, klikněte na Spustit a klikněte na tlačítko Lupa .
Máme-li použít vícerozměrnou imputaci, tento algoritmus najde pozorování a datové body, které jsou podobné těm, které chybí, a pokusí se je doplnit.
Například sloupce spc . Ty budou užitečné pro předpovídání chybějících hodnot stejně jako u totsc8 a avgsalary . V tuto chvíli to neděláme, ale vidíme, jaké hodnoty a proměnné spolu souvisí, což by mohlo pomoci těmto hodnotám bránit.
Zkusme ještě jednu věc. Použijeme ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , poté klikněte na Spustit .
Toto je , kromě toho, že používáme ggmice. V zásadě jde o to, že můžeme vidět vztah mezi těmito dvěma proměnnými, které mají poměrně málo chybějících hodnot. Když jeden z nich chybí a druhý je dostupný, vidíme, kde tyto body jsou.
V této situaci jsou oba tyto pozorovány v jednom z těchto případů. Jeden chybí a druhý ne. Pokud oba chybí, nebude to na pozemku.
Závěr
Když pracujeme s chybějícími hodnotami, je lákavé použít algoritmus jako MICE, protože je velmi výkonný k imputaci hodnot. Je však lepší prozkoumat data pro sebe a pochopit, co se děje.
V ideálním případě, pokud máme mnoho chybějících dat, chceme zjistit proč a možná se můžeme pokusit získat další data nebo je můžeme připsat. Vždy je preferováno jít přímo ke zdroji.
Pokud nakonec budeme chtít připočítat chybějící hodnoty, můžeme s balíčkem tidyverse provést několik jednoduchých imputačních metod , jako je průměr nebo medián.
Balíček MICE je bezpochyby výkonný. U věcí, které jsou výpočetně velmi náročné, to může být přehnané, ale my se teď soustředíme jen na jeho vizualizační prvek.
Doufám, že se něco naučíte a klidně tento balíček využijete. Určitě to sdílejte a snažte se dostat slovo, protože je to pěkný balíček pro práci s chybějícími hodnotami, které jsou kompatibilní s ggplot2.
Vše nejlepší,
Jiří
Zdokonaľte svoje zručnosti v oblasti vývoja zostáv zapojením sa do výzvy v oblasti analýzy údajov. Accelerator vám môže pomôcť stať sa super používateľom LuckyTemplates!
Naučte se, jak vypočítat průběžné součty v LuckyTemplates pomocí DAX. Průběžné součty vám umožní nezabřednout do žádného jednotlivého výsledku.
Pochopte koncept proměnných v jazyce DAX v rámci LuckyTemplates a důsledky proměnných pro způsob výpočtu vašich mír.
Získajte viac informácií o vlastnom vizuáli nazývanom graf LuckyTemplates Slope, ktorý sa používa na zobrazenie nárastu/zníženia pre jednu alebo viacero metrík.
Objavte farebné motívy v LuckyTemplates. Sú nevyhnutné, aby vaše zostavy a vizualizácie vyzerali a fungovali bez problémov.
Výpočet priemeru v LuckyTemplates možno vykonať mnohými spôsobmi, aby ste získali presné informácie pre vaše obchodné správy.
Pojďme se ponořit do standardního motivu LuckyTemplates a prohlédnout si některé funkce zabudované do samotné aplikace LuckyTemplates Desktop.
V tomto návode sa naučíte, ako vytvoriť vlastnú legendu vo vizuáli mapy LuckyTemplates, aby ste zobrazili preferované farby a segmentáciu.
Naučte se, jak nastavit obrázek na pozadí LuckyTemplates pomocí PowerPointu. Toto je jedna z mých technik při vytváření sestav LuckyTemplates.
V tomto návode sa ponoríme do analýzy obstarávania v rámci organizácie pomocou interakčnej funkcie a sily dátového modelu.