Hiányzó adatok megjelenítése RW/GGMICE-ben

Az adatok elemzésekor tudni szeretnénk a hiányzó értékek megtalálásának következő lépéseit, mivel az elemzésben a legtöbb dolgot különböző tényezők határozzák meg. Ennek elősegítése érdekében megoldjuk a hiányzó adatok megjelenítését az R-ben a ggmice csomag segítségével . Az oktatóanyag teljes videóját a blog alján tekintheti meg .

"Mit tegyek a hiányzó értékekkel?" Ez egy alapvető kérdés, amelyet fel kell tenni az adatok elemzésekor. Mindannyian reméljük, hogy könnyen megtalálhatóak, mivel null-ként vagy NA-ként vannak kódolva.

Vessen egy pillantást néhány általános hüvelykujjszabályra és a következő lépésekre. Megtanuljuk, hogyan válaszoljunk olyan kérdésekre, mint például, hogy hány hiányzó adat van? Mekkora a probléma? Találhatunk-e mintákat az adatokban?

Ennek számos módja van, de első lépésként a hiányzó adatok R-ben történő megjelenítését fogjuk használni.

Tartalomjegyzék

Mikor kell ledobni és mikor kell megtalálni a hiányzó értékeket

Ha nincs minta a hiányuk tekintetében, és ez a megfigyelések kevesebb mint 5%-át érinti, akár az oszlopban, akár az adatkészletben van, akkor eldobhatja a hiányzó értékeket.

Ha azonban kiderül, hogy ez elterjedtebb, és a vizualizációk alapján jelentős mintákat találhat, akkor lehet, hogy tennie kell valamit ezekkel az adatokkal.

Tehát ahelyett, hogy elvetnénk őket, betudhatjuk ezeket, mert valószínűleg van egy történet arról, hogy ezek az értékek miért hiányoznak a mintából.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ebben a bemutatóban olyan csomagot fogunk használni, amely a hiányzó értékeket imputálja. Ez egy új csomag az R-ben hiányzó adatok megjelenítésére, és a neve ggmice .

Az ötlet az, hogy megtaláljuk a mintát és hány hiányzó értéket, ezért megvizsgáljuk a plot mintát , majd a plot prediktor mátrixot .

A MICE a láncolt módszerekkel végzett többváltozós imputáció rövidítése . Nem kezdünk bele a mechanikába, de meg fogjuk tanulni, hogy ez az algoritmus hogyan imputálja adatainkat, ha használjuk.

A hiányzó adatok R-ben történő megjelenítéséről a ggmice használatával egy másik tudnivaló, hogy az valóban ggplot2-kompatibilis , így néhány vizualizációt a híres vizualizációs csomag hátoldalára tudunk építeni. 

Hiányzó adatok megjelenítése RW/GGMICE-ben

Lépések a hiányzó adatok megjelenítéséhez az R w/ GGMICE-ben

Menjünk előre és induljunk el. Az első dolog, amit tennünk kell, az összes szükséges csomag importálása a könyvtár (ggmice) , a library (tidyverse) , amely magában foglalja a ggplot2 és a library (Ecdat) adatkészleteket.

A könyvtár (Ecdat) csomag sok jó adatkészletet tartalmaz, amelyeken gyakorolni kell. Ezért használjuk és importáljuk.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Az egyik adatkészlet a súgó (MCAS) . Futtassuk ezen a súgó funkciót.

Amint látjuk, ez az Ecdatból származik, és ez egy tesztpontszám adathalmaz. Ez a súgódokumentáció leírja az egyes oszlopokat, és elmondja nekünk, honnan származnak.

Ezt arra fogjuk használni, hogy megtudjuk, vannak-e hiányzó adatok, és milyen mintát alkotnak, ha vannak.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Használjuk az is.na-t (MCAS) , és kattintsunk a Futtatás gombra . Amint látjuk, van egy csomó IGAZ és HAMIS. Amit tehetünk, az az, hogy a colSums (is.na(MCAS)) függvény használatával összegezzük ezeket, mivel a FALSE és a TRUE értéke nulla, és álcázott egy. Így ellenőrizhetjük, hogy az érték hiányzik-e vagy sem.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Amint alább látható, a hiányzó értékek három oszlopban találhatók, például spc , totsc8 és avgsalary . Ezen oszlopok leírását a súgódokumentáció részben láthatjuk.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ezenkívül a colSums (is.na(MCAS)) / nrow (MCAS) használatával a sorok száma százalékokká alakul. Ez az egyik módja annak, hogy megnézzük, de nem a legegyszerűbb dolog.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ebben az esetben nézzük meg, mit tehet nekünk a ggmice. A browseVignettes (package = 'ggmice') függvényt használjuk , majd kattintsunk a Futtatás gombra .

Hiányzó adatok megjelenítése RW/GGMICE-ben

Találtunk néhány matricát ehhez a funkcióhoz, ezért válasszuk a ggmice-t , és kattintsunk a HTML hivatkozásra néhány hasznos útmutató megtekintéséhez, amelyek segíthetnek.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Hiányzó adatok megjelenítése RW/GGMICE-ben

Visszatérve a szkriptre, használjuk a plot_pattern (MCAS) függvényt az adathalmaz átadására.

Hiányzó adatok megjelenítése RW/GGMICE-ben

A jobb megjelenítés érdekében kattintson a Zoom gombra. Amint az ábrán látható, a 155 megfigyelésből az spc-nek 9 hiányzó értéke van, 25 az átlagos fizetésre és 40 a totsc8- ra .

Megpróbáljuk kideríteni, hogy ezek közül valamelyik egybeesik-e, hányan vannak, és hogy hajlamosak-e egy klaszterbe kerülni.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ennek keresztellenőrzéséhez kipróbálhatjuk az analóg módszert a view (MCAS) funkció használatával, majd a Futtatás gombra kattintva .

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ez egyfajta táblázatkezelő, ahol láthatjuk az összes hiányzó értéket. Ezt a Forrásszerkesztő gombra kattintva is bővíthetjük .

Hiányzó adatok megjelenítése RW/GGMICE-ben

Hasonlóan a -hoz, láthatjuk az összes bejegyzést, és az NA-k a hiányzó értékek. Észrevehető, hogy a nézetben (MCAS) az összes bejegyzés 220, a plot_pattern (MCAS) esetében pedig csak 155, mivel valószínűleg voltak olyan teljes értékek, amelyeket önmagában nem ábrázoltak.

Azt is láthatjuk, hogy általában a változók és sorok alapján csoportosulnak. Sok esetben azonban csak az egyik vagy a másik hiányzik. A valóság az, hogy nehéz ezt a vizuális képet soronként megcsinálni, ezért itt jön be a vizualizáció.

Hiányzó adatok megjelenítése RW/GGMICE-ben

A hiányzó adatok beszámítása

A következő teendő az, hogy visszatérünk a szkriptünkhöz, majd beírjuk, hogy nrow (MCAS) , majd sum(is.na(MCAS)$totsc8)) .

Ebben az esetben tudjuk, hogy 200 megfigyelésből 40 érték hiányzik. Használjuk R-t számológépként úgy, hogy 40/200-at teszünk. Ezért körülbelül 20% hiányzó értékünk van, ami nagyon sok.

Ideális esetben szeretnénk tudni, miért hiányoznak olyan sokan. Lehet, hogy az adatok összegyűjtésének módja az oka, ezért feltételezhetjük.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ehhez importáljuk a könyvtár (egerek) csomagot . Ez az egyik imputációs módszer.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ezután használjuk az MCAS_pred < –="" quickpred=""> és a plot_pred(MCAS_pred) függvényeket. Mentse el ezeket, kattintson a Futtatás gombra, majd a Nagyítás gombra.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ha többváltozós imputációt használunk, ez az algoritmus megkeresi a hiányzókhoz hasonló megfigyeléseket és adatpontokat, majd megpróbálja kitölteni azokat.

Például az spc oszlopok. Ezek hasznosak lesznek a hiányzó értékek előrejelzésében, ugyanúgy, mint a totsc8 és az avgsalary esetében . Jelenleg nem tesszük ezt, de azt látjuk, hogy milyen értékek és változók kapcsolódnak egymáshoz, amelyek hasznosak lehetnek az értékek akadályozásában.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Próbáljunk még egy dolgot. A ggmice-t fogjuk használni (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , majd kattintson a Futtatás gombra .

Ez egy , kivéve, hogy ggmice-t használunk. Alapvetően az ötlet az, hogy láthatjuk a kapcsolatot e két változó között, amelyeknek jó néhány hiányzó értéke van. Ha az egyik hiányzik, a másik pedig elérhető, akkor láthatjuk, hol vannak ezek a pontok.

Ebben a helyzetben mindkettő megfigyelhető ezen esetek egyikében. Az egyik hiányzik, a másik nem. Ha mindkettő hiányzik, az nem lesz benne a telken.

Hiányzó adatok megjelenítése RW/GGMICE-ben




Következtetés

Amikor hiányzó értékekkel dolgozunk, csábító egy olyan algoritmus, mint a MICE, mert nagyon hatékony az értékek beszámítása. Azonban jobb, ha saját maga fedezi fel az adatokat, és megérti, mi történik.

Ideális esetben, ha sok hiányzó adatunk van, ki akarjuk deríteni, hogy miért, és esetleg megpróbálhatunk több adatot beszerezni, vagy beszámíthatjuk. Mindig előnyben részesítjük közvetlenül a forráshoz való fordulást.

Ha végül a hiányzó értékeket akarjuk imputálni, néhány egyszerű imputációs módszert alkalmazhatunk a tidyverse csomaggal , például az átlagot vagy a mediánt.

Kétségtelen, hogy a MICE csomag erőteljes. Ez túlzás lehet azoknál a dolgoknál, amelyek nagyon számításigényesek, de most csak a vizualizációs elemre koncentrálunk.

Remélem tanulsz valamit, és nyugodtan használd ezt a csomagot. Feltétlenül oszd meg, és próbáld meg kihozni a szót, mert ez egy jó csomag a hiányzó, ggplot2-kompatibilis értékekkel való együttműködéshez.

Minden jót,

György


Oldja meg az adatelemzési kihívást a LuckyTemplates Accelerator segítségével

Oldja meg az adatelemzési kihívást a LuckyTemplates Accelerator segítségével

Fejlessze jelentéskészítési készségeit, ha csatlakozik egy adatelemzési kihíváshoz. Az Accelerator segítségével LuckyTemplates szuperfelhasználóvá válhatsz!

Összesítések futtatása a LuckyTemplates alkalmazásban a DAX segítségével

Összesítések futtatása a LuckyTemplates alkalmazásban a DAX segítségével

Ismerje meg, hogyan számíthatja ki a futó összegeket a LuckyTemplates programban a DAX segítségével. Az összesítések futtatása lehetővé teszi, hogy ne ragadjon le egyetlen egyéni eredménynél sem.

A LuckyTemplates Dax-változói állandóak: mit jelent ez?

A LuckyTemplates Dax-változói állandóak: mit jelent ez?

Ismerje meg a változók fogalmát a DAX-ban a LuckyTemplates-en belül, és a változók hatásait a mérőszámok kiszámítására.

LuckyTemplates lejtődiagram: Áttekintés

LuckyTemplates lejtődiagram: Áttekintés

Tudjon meg többet a LuckyTemplates Slope diagram nevű egyéni vizualizációról, amely egyetlen vagy több mérőszám növekedésének/csökkenésének megjelenítésére szolgál.

LuckyTemplates színes témák az egységes vizualizációkhoz

LuckyTemplates színes témák az egységes vizualizációkhoz

Fedezze fel a LuckyTemplates színtémáit. Ezek elengedhetetlenek ahhoz, hogy jelentései és vizualizációi zökkenőmentesen nézzenek ki és működjenek.

Átlag kiszámítása LuckyTemplatesben: Hétköznapi vagy hétvégi eredmények elkülönítése a DAX segítségével

Átlag kiszámítása LuckyTemplatesben: Hétköznapi vagy hétvégi eredmények elkülönítése a DAX segítségével

Az átlag kiszámítása a LuckyTemplates alkalmazásban számos módon elvégezhető, hogy pontos információkat kapjon üzleti jelentéseihez.

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

Nézzük meg a Standard LuckyTemplates Theming témakört, és tekintsünk át néhány olyan funkciót, amely magában a LuckyTemplates Desktop alkalmazásban található.

LuckyTemplates térkép megjelenítése: Hogyan hozzunk létre és adjunk hozzá egyéni jelmagyarázatot a LuckyTemplatesben

LuckyTemplates térkép megjelenítése: Hogyan hozzunk létre és adjunk hozzá egyéni jelmagyarázatot a LuckyTemplatesben

Ebből az oktatóanyagból megtudhatja, hogyan hozhat létre egyéni jelmagyarázatot a LuckyTemplates Map Visualban a kívánt színek és szegmentálás megjelenítéséhez.

LuckyTemplates háttérkép PPT-t használó jelentésekhez

LuckyTemplates háttérkép PPT-t használó jelentésekhez

Ismerje meg, hogyan állíthat be LuckyTemplates háttérképet a PowerPoint segítségével. Ez az egyik technikám a LuckyTemplates jelentéseim létrehozásához.

Beszerzési döntések modellje és elemzése a LuckyTemplatesben

Beszerzési döntések modellje és elemzése a LuckyTemplatesben

Ebben az oktatóanyagban egy szervezeten belüli beszerzési elemzésbe fogunk belemerülni egy interaktív funkció és az adatmodell erejének felhasználásával.