Hiányzó adatok megjelenítése RW/GGMICE-ben

Az adatok elemzésekor tudni szeretnénk a hiányzó értékek megtalálásának következő lépéseit, mivel az elemzésben a legtöbb dolgot különböző tényezők határozzák meg. Ennek elősegítése érdekében megoldjuk a hiányzó adatok megjelenítését az R-ben a ggmice csomag segítségével . Az oktatóanyag teljes videóját a blog alján tekintheti meg .

"Mit tegyek a hiányzó értékekkel?" Ez egy alapvető kérdés, amelyet fel kell tenni az adatok elemzésekor. Mindannyian reméljük, hogy könnyen megtalálhatóak, mivel null-ként vagy NA-ként vannak kódolva.

Vessen egy pillantást néhány általános hüvelykujjszabályra és a következő lépésekre. Megtanuljuk, hogyan válaszoljunk olyan kérdésekre, mint például, hogy hány hiányzó adat van? Mekkora a probléma? Találhatunk-e mintákat az adatokban?

Ennek számos módja van, de első lépésként a hiányzó adatok R-ben történő megjelenítését fogjuk használni.

Tartalomjegyzék

Mikor kell ledobni és mikor kell megtalálni a hiányzó értékeket
Lépések a hiányzó adatok megjelenítéséhez az R w/ GGMICE-ben
A hiányzó adatok beszámítása
Következtetés

Mikor kell ledobni és mikor kell megtalálni a hiányzó értékeket

Ha nincs minta a hiányuk tekintetében, és ez a megfigyelések kevesebb mint 5%-át érinti, akár az oszlopban, akár az adatkészletben van, akkor eldobhatja a hiányzó értékeket.

Ha azonban kiderül, hogy ez elterjedtebb, és a vizualizációk alapján jelentős mintákat találhat, akkor lehet, hogy tennie kell valamit ezekkel az adatokkal.

Tehát ahelyett, hogy elvetnénk őket, betudhatjuk ezeket, mert valószínűleg van egy történet arról, hogy ezek az értékek miért hiányoznak a mintából.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ebben a bemutatóban olyan csomagot fogunk használni, amely a hiányzó értékeket imputálja. Ez egy új csomag az R-ben hiányzó adatok megjelenítésére, és a neve ggmice .

Az ötlet az, hogy megtaláljuk a mintát és hány hiányzó értéket, ezért megvizsgáljuk a plot mintát , majd a plot prediktor mátrixot .

A MICE a láncolt módszerekkel végzett többváltozós imputáció rövidítése . Nem kezdünk bele a mechanikába, de meg fogjuk tanulni, hogy ez az algoritmus hogyan imputálja adatainkat, ha használjuk.

A hiányzó adatok R-ben történő megjelenítéséről a ggmice használatával egy másik tudnivaló, hogy az valóban ggplot2-kompatibilis , így néhány vizualizációt a híres vizualizációs csomag hátoldalára tudunk építeni.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Lépések a hiányzó adatok megjelenítéséhez az R w/ GGMICE-ben

Menjünk előre és induljunk el. Az első dolog, amit tennünk kell, az összes szükséges csomag importálása a könyvtár (ggmice) , a library (tidyverse) , amely magában foglalja a ggplot2 és a library (Ecdat) adatkészleteket.

A könyvtár (Ecdat) csomag sok jó adatkészletet tartalmaz, amelyeken gyakorolni kell. Ezért használjuk és importáljuk.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Az egyik adatkészlet a súgó (MCAS) . Futtassuk ezen a súgó funkciót.

Amint látjuk, ez az Ecdatból származik, és ez egy tesztpontszám adathalmaz. Ez a súgódokumentáció leírja az egyes oszlopokat, és elmondja nekünk, honnan származnak.

Ezt arra fogjuk használni, hogy megtudjuk, vannak-e hiányzó adatok, és milyen mintát alkotnak, ha vannak.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Használjuk az is.na-t (MCAS) , és kattintsunk a Futtatás gombra . Amint látjuk, van egy csomó IGAZ és HAMIS. Amit tehetünk, az az, hogy a colSums (is.na(MCAS)) függvény használatával összegezzük ezeket, mivel a FALSE és a TRUE értéke nulla, és álcázott egy. Így ellenőrizhetjük, hogy az érték hiányzik-e vagy sem.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Amint alább látható, a hiányzó értékek három oszlopban találhatók, például spc , totsc8 és avgsalary . Ezen oszlopok leírását a súgódokumentáció részben láthatjuk.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ezenkívül a colSums (is.na(MCAS)) / nrow (MCAS) használatával a sorok száma százalékokká alakul. Ez az egyik módja annak, hogy megnézzük, de nem a legegyszerűbb dolog.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ebben az esetben nézzük meg, mit tehet nekünk a ggmice. A browseVignettes (package = 'ggmice') függvényt használjuk , majd kattintsunk a Futtatás gombra .

Hiányzó adatok megjelenítése RW/GGMICE-ben

Találtunk néhány matricát ehhez a funkcióhoz, ezért válasszuk a ggmice-t , és kattintsunk a HTML hivatkozásra néhány hasznos útmutató megtekintéséhez, amelyek segíthetnek.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Hiányzó adatok megjelenítése RW/GGMICE-ben

Visszatérve a szkriptre, használjuk a plot_pattern (MCAS) függvényt az adathalmaz átadására.

Hiányzó adatok megjelenítése RW/GGMICE-ben

A jobb megjelenítés érdekében kattintson a Zoom gombra. Amint az ábrán látható, a 155 megfigyelésből az spc-nek 9 hiányzó értéke van, 25 az átlagos fizetésre és 40 a totsc8- ra .

Megpróbáljuk kideríteni, hogy ezek közül valamelyik egybeesik-e, hányan vannak, és hogy hajlamosak-e egy klaszterbe kerülni.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ennek keresztellenőrzéséhez kipróbálhatjuk az analóg módszert a view (MCAS) funkció használatával, majd a Futtatás gombra kattintva .

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ez egyfajta táblázatkezelő, ahol láthatjuk az összes hiányzó értéket. Ezt a Forrásszerkesztő gombra kattintva is bővíthetjük .

Hiányzó adatok megjelenítése RW/GGMICE-ben

Hasonlóan a -hoz, láthatjuk az összes bejegyzést, és az NA-k a hiányzó értékek. Észrevehető, hogy a nézetben (MCAS) az összes bejegyzés 220, a plot_pattern (MCAS) esetében pedig csak 155, mivel valószínűleg voltak olyan teljes értékek, amelyeket önmagában nem ábrázoltak.

Azt is láthatjuk, hogy általában a változók és sorok alapján csoportosulnak. Sok esetben azonban csak az egyik vagy a másik hiányzik. A valóság az, hogy nehéz ezt a vizuális képet soronként megcsinálni, ezért itt jön be a vizualizáció.

Hiányzó adatok megjelenítése RW/GGMICE-ben

A hiányzó adatok beszámítása

A következő teendő az, hogy visszatérünk a szkriptünkhöz, majd beírjuk, hogy nrow (MCAS) , majd sum(is.na(MCAS)$totsc8)) .

Ebben az esetben tudjuk, hogy 200 megfigyelésből 40 érték hiányzik. Használjuk R-t számológépként úgy, hogy 40/200-at teszünk. Ezért körülbelül 20% hiányzó értékünk van, ami nagyon sok.

Ideális esetben szeretnénk tudni, miért hiányoznak olyan sokan. Lehet, hogy az adatok összegyűjtésének módja az oka, ezért feltételezhetjük.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ehhez importáljuk a könyvtár (egerek) csomagot . Ez az egyik imputációs módszer.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ezután használjuk az MCAS_pred < –="" quickpred=""> és a plot_pred(MCAS_pred) függvényeket. Mentse el ezeket, kattintson a Futtatás gombra, majd a Nagyítás gombra.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Ha többváltozós imputációt használunk, ez az algoritmus megkeresi a hiányzókhoz hasonló megfigyeléseket és adatpontokat, majd megpróbálja kitölteni azokat.

Például az spc oszlopok. Ezek hasznosak lesznek a hiányzó értékek előrejelzésében, ugyanúgy, mint a totsc8 és az avgsalary esetében . Jelenleg nem tesszük ezt, de azt látjuk, hogy milyen értékek és változók kapcsolódnak egymáshoz, amelyek hasznosak lehetnek az értékek akadályozásában.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Próbáljunk még egy dolgot. A ggmice-t fogjuk használni (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , majd kattintson a Futtatás gombra .

Ez egy , kivéve, hogy ggmice-t használunk. Alapvetően az ötlet az, hogy láthatjuk a kapcsolatot e két változó között, amelyeknek jó néhány hiányzó értéke van. Ha az egyik hiányzik, a másik pedig elérhető, akkor láthatjuk, hol vannak ezek a pontok.

Ebben a helyzetben mindkettő megfigyelhető ezen esetek egyikében. Az egyik hiányzik, a másik nem. Ha mindkettő hiányzik, az nem lesz benne a telken.

Hiányzó adatok megjelenítése RW/GGMICE-ben

Következtetés

Amikor hiányzó értékekkel dolgozunk, csábító egy olyan algoritmus, mint a MICE, mert nagyon hatékony az értékek beszámítása. Azonban jobb, ha saját maga fedezi fel az adatokat, és megérti, mi történik.

Ideális esetben, ha sok hiányzó adatunk van, ki akarjuk deríteni, hogy miért, és esetleg megpróbálhatunk több adatot beszerezni, vagy beszámíthatjuk. Mindig előnyben részesítjük közvetlenül a forráshoz való fordulást.

Ha végül a hiányzó értékeket akarjuk imputálni, néhány egyszerű imputációs módszert alkalmazhatunk a tidyverse csomaggal , például az átlagot vagy a mediánt.

Kétségtelen, hogy a MICE csomag erőteljes. Ez túlzás lehet azoknál a dolgoknál, amelyek nagyon számításigényesek, de most csak a vizualizációs elemre koncentrálunk.

Remélem tanulsz valamit, és nyugodtan használd ezt a csomagot. Feltétlenül oszd meg, és próbáld meg kihozni a szót, mert ez egy jó csomag a hiányzó, ggplot2-kompatibilis értékekkel való együttműködéshez.

Minden jót,

György

Hagyj kommentárt

E-mail melléklet mentése SharePointba a Power Automate segítségével

E-mail melléklet mentése SharePointba a Power Automate segítségével

Ebből a blogból megtudhatja, hogyan mentheti automatikusan az e-mail mellékleteket a SharePointba, majd törölheti az e-maileket a Power Automate segítségével.

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Power Automate folyamatok létrehozása a semmiből

A Power Automate folyamatok létrehozása a semmiből

Ismerje meg, hogyan hozhat létre Power Automate folyamatokat a semmiből. Sablon használata helyett mi magunk hozzuk létre a kiváltó okokat és a műveleteket.

4 módszer a Pi használatára a Pythonban példákkal

4 módszer a Pi használatára a Pythonban példákkal

4 módszer a Pi használatára a Pythonban példákkal

Profit and Loss (P&L) kimutatások létrehozása a LuckyTemplates alkalmazásban

Profit and Loss (P&L) kimutatások létrehozása a LuckyTemplates alkalmazásban

Ebben az útmutatóban bemutatom, hogyan lehet Pénzügyi információk mátrixát létrehozni a Profit és veszteség (P&L) kimutatással a LuckyTemplates alkalmazásban.

Hogyan lehet dinamikusan egyesíteni az oszlopokat egy Power Query-táblázatban

Hogyan lehet dinamikusan egyesíteni az oszlopokat egy Power Query-táblázatban

Fedezze fel, hogyan lehet dinamikusan egyesíteni oszlopokat a Power Query Table.CombineColumns függvény segítségével.

SharePoint-fájlok hozzáadása a számítógéphez

SharePoint-fájlok hozzáadása a számítógéphez

Ismerje meg, hogyan adhatjuk hozzá és szinkronizálhatjuk SharePoint-fájljainkat az asztalon és a OneDrive-on.

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Tudja meg, miért fontos egy dedikált dátumtáblázat a LuckyTemplatesben, és ismerje meg ennek leggyorsabb és leghatékonyabb módját.

LuckyTemplates mobil jelentéskészítési tippek és technikák

LuckyTemplates mobil jelentéskészítési tippek és technikák

Ez a rövid oktatóanyag kiemeli a LuckyTemplates mobil jelentési funkcióját. Megmutatom, hogyan készíthet hatékony jelentéseket mobileszközökön.

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Ebben a LuckyTemplates bemutatóban olyan jelentéseket tekintünk át, amelyek professzionális szolgáltatáselemzést mutatnak be egy olyan cégtől, amely több szerződéssel és ügyfél-elkötelezettséggel rendelkezik.