Oldja meg az adatelemzési kihívást a LuckyTemplates Accelerator segítségével
Fejlessze jelentéskészítési készségeit, ha csatlakozik egy adatelemzési kihíváshoz. Az Accelerator segítségével LuckyTemplates szuperfelhasználóvá válhatsz!
Az adatok elemzésekor tudni szeretnénk a hiányzó értékek megtalálásának következő lépéseit, mivel az elemzésben a legtöbb dolgot különböző tényezők határozzák meg. Ennek elősegítése érdekében megoldjuk a hiányzó adatok megjelenítését az R-ben a ggmice csomag segítségével . Az oktatóanyag teljes videóját a blog alján tekintheti meg .
"Mit tegyek a hiányzó értékekkel?" Ez egy alapvető kérdés, amelyet fel kell tenni az adatok elemzésekor. Mindannyian reméljük, hogy könnyen megtalálhatóak, mivel null-ként vagy NA-ként vannak kódolva.
Vessen egy pillantást néhány általános hüvelykujjszabályra és a következő lépésekre. Megtanuljuk, hogyan válaszoljunk olyan kérdésekre, mint például, hogy hány hiányzó adat van? Mekkora a probléma? Találhatunk-e mintákat az adatokban?
Ennek számos módja van, de első lépésként a hiányzó adatok R-ben történő megjelenítését fogjuk használni.
Tartalomjegyzék
Mikor kell ledobni és mikor kell megtalálni a hiányzó értékeket
Ha nincs minta a hiányuk tekintetében, és ez a megfigyelések kevesebb mint 5%-át érinti, akár az oszlopban, akár az adatkészletben van, akkor eldobhatja a hiányzó értékeket.
Ha azonban kiderül, hogy ez elterjedtebb, és a vizualizációk alapján jelentős mintákat találhat, akkor lehet, hogy tennie kell valamit ezekkel az adatokkal.
Tehát ahelyett, hogy elvetnénk őket, betudhatjuk ezeket, mert valószínűleg van egy történet arról, hogy ezek az értékek miért hiányoznak a mintából.
Ebben a bemutatóban olyan csomagot fogunk használni, amely a hiányzó értékeket imputálja. Ez egy új csomag az R-ben hiányzó adatok megjelenítésére, és a neve ggmice .
Az ötlet az, hogy megtaláljuk a mintát és hány hiányzó értéket, ezért megvizsgáljuk a plot mintát , majd a plot prediktor mátrixot .
A MICE a láncolt módszerekkel végzett többváltozós imputáció rövidítése . Nem kezdünk bele a mechanikába, de meg fogjuk tanulni, hogy ez az algoritmus hogyan imputálja adatainkat, ha használjuk.
A hiányzó adatok R-ben történő megjelenítéséről a ggmice használatával egy másik tudnivaló, hogy az valóban ggplot2-kompatibilis , így néhány vizualizációt a híres vizualizációs csomag hátoldalára tudunk építeni.
Lépések a hiányzó adatok megjelenítéséhez az R w/ GGMICE-ben
Menjünk előre és induljunk el. Az első dolog, amit tennünk kell, az összes szükséges csomag importálása a könyvtár (ggmice) , a library (tidyverse) , amely magában foglalja a ggplot2 és a library (Ecdat) adatkészleteket.
A könyvtár (Ecdat) csomag sok jó adatkészletet tartalmaz, amelyeken gyakorolni kell. Ezért használjuk és importáljuk.
Az egyik adatkészlet a súgó (MCAS) . Futtassuk ezen a súgó funkciót.
Amint látjuk, ez az Ecdatból származik, és ez egy tesztpontszám adathalmaz. Ez a súgódokumentáció leírja az egyes oszlopokat, és elmondja nekünk, honnan származnak.
Ezt arra fogjuk használni, hogy megtudjuk, vannak-e hiányzó adatok, és milyen mintát alkotnak, ha vannak.
Használjuk az is.na-t (MCAS) , és kattintsunk a Futtatás gombra . Amint látjuk, van egy csomó IGAZ és HAMIS. Amit tehetünk, az az, hogy a colSums (is.na(MCAS)) függvény használatával összegezzük ezeket, mivel a FALSE és a TRUE értéke nulla, és álcázott egy. Így ellenőrizhetjük, hogy az érték hiányzik-e vagy sem.
Amint alább látható, a hiányzó értékek három oszlopban találhatók, például spc , totsc8 és avgsalary . Ezen oszlopok leírását a súgódokumentáció részben láthatjuk.
Ezenkívül a colSums (is.na(MCAS)) / nrow (MCAS) használatával a sorok száma százalékokká alakul. Ez az egyik módja annak, hogy megnézzük, de nem a legegyszerűbb dolog.
Ebben az esetben nézzük meg, mit tehet nekünk a ggmice. A browseVignettes (package = 'ggmice') függvényt használjuk , majd kattintsunk a Futtatás gombra .
Találtunk néhány matricát ehhez a funkcióhoz, ezért válasszuk a ggmice-t , és kattintsunk a HTML hivatkozásra néhány hasznos útmutató megtekintéséhez, amelyek segíthetnek.
Visszatérve a szkriptre, használjuk a plot_pattern (MCAS) függvényt az adathalmaz átadására.
A jobb megjelenítés érdekében kattintson a Zoom gombra. Amint az ábrán látható, a 155 megfigyelésből az spc-nek 9 hiányzó értéke van, 25 az átlagos fizetésre és 40 a totsc8- ra .
Megpróbáljuk kideríteni, hogy ezek közül valamelyik egybeesik-e, hányan vannak, és hogy hajlamosak-e egy klaszterbe kerülni.
Ennek keresztellenőrzéséhez kipróbálhatjuk az analóg módszert a view (MCAS) funkció használatával, majd a Futtatás gombra kattintva .
Ez egyfajta táblázatkezelő, ahol láthatjuk az összes hiányzó értéket. Ezt a Forrásszerkesztő gombra kattintva is bővíthetjük .
Hasonlóan a -hoz, láthatjuk az összes bejegyzést, és az NA-k a hiányzó értékek. Észrevehető, hogy a nézetben (MCAS) az összes bejegyzés 220, a plot_pattern (MCAS) esetében pedig csak 155, mivel valószínűleg voltak olyan teljes értékek, amelyeket önmagában nem ábrázoltak.
Azt is láthatjuk, hogy általában a változók és sorok alapján csoportosulnak. Sok esetben azonban csak az egyik vagy a másik hiányzik. A valóság az, hogy nehéz ezt a vizuális képet soronként megcsinálni, ezért itt jön be a vizualizáció.
A hiányzó adatok beszámítása
A következő teendő az, hogy visszatérünk a szkriptünkhöz, majd beírjuk, hogy nrow (MCAS) , majd sum(is.na(MCAS)$totsc8)) .
Ebben az esetben tudjuk, hogy 200 megfigyelésből 40 érték hiányzik. Használjuk R-t számológépként úgy, hogy 40/200-at teszünk. Ezért körülbelül 20% hiányzó értékünk van, ami nagyon sok.
Ideális esetben szeretnénk tudni, miért hiányoznak olyan sokan. Lehet, hogy az adatok összegyűjtésének módja az oka, ezért feltételezhetjük.
Ehhez importáljuk a könyvtár (egerek) csomagot . Ez az egyik imputációs módszer.
Ezután használjuk az MCAS_pred < –="" quickpred=""> és a plot_pred(MCAS_pred) függvényeket. Mentse el ezeket, kattintson a Futtatás gombra, majd a Nagyítás gombra.
Ha többváltozós imputációt használunk, ez az algoritmus megkeresi a hiányzókhoz hasonló megfigyeléseket és adatpontokat, majd megpróbálja kitölteni azokat.
Például az spc oszlopok. Ezek hasznosak lesznek a hiányzó értékek előrejelzésében, ugyanúgy, mint a totsc8 és az avgsalary esetében . Jelenleg nem tesszük ezt, de azt látjuk, hogy milyen értékek és változók kapcsolódnak egymáshoz, amelyek hasznosak lehetnek az értékek akadályozásában.
Próbáljunk még egy dolgot. A ggmice-t fogjuk használni (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , majd kattintson a Futtatás gombra .
Ez egy , kivéve, hogy ggmice-t használunk. Alapvetően az ötlet az, hogy láthatjuk a kapcsolatot e két változó között, amelyeknek jó néhány hiányzó értéke van. Ha az egyik hiányzik, a másik pedig elérhető, akkor láthatjuk, hol vannak ezek a pontok.
Ebben a helyzetben mindkettő megfigyelhető ezen esetek egyikében. Az egyik hiányzik, a másik nem. Ha mindkettő hiányzik, az nem lesz benne a telken.
Következtetés
Amikor hiányzó értékekkel dolgozunk, csábító egy olyan algoritmus, mint a MICE, mert nagyon hatékony az értékek beszámítása. Azonban jobb, ha saját maga fedezi fel az adatokat, és megérti, mi történik.
Ideális esetben, ha sok hiányzó adatunk van, ki akarjuk deríteni, hogy miért, és esetleg megpróbálhatunk több adatot beszerezni, vagy beszámíthatjuk. Mindig előnyben részesítjük közvetlenül a forráshoz való fordulást.
Ha végül a hiányzó értékeket akarjuk imputálni, néhány egyszerű imputációs módszert alkalmazhatunk a tidyverse csomaggal , például az átlagot vagy a mediánt.
Kétségtelen, hogy a MICE csomag erőteljes. Ez túlzás lehet azoknál a dolgoknál, amelyek nagyon számításigényesek, de most csak a vizualizációs elemre koncentrálunk.
Remélem tanulsz valamit, és nyugodtan használd ezt a csomagot. Feltétlenül oszd meg, és próbáld meg kihozni a szót, mert ez egy jó csomag a hiányzó, ggplot2-kompatibilis értékekkel való együttműködéshez.
Minden jót,
György
Fejlessze jelentéskészítési készségeit, ha csatlakozik egy adatelemzési kihíváshoz. Az Accelerator segítségével LuckyTemplates szuperfelhasználóvá válhatsz!
Ismerje meg, hogyan számíthatja ki a futó összegeket a LuckyTemplates programban a DAX segítségével. Az összesítések futtatása lehetővé teszi, hogy ne ragadjon le egyetlen egyéni eredménynél sem.
Ismerje meg a változók fogalmát a DAX-ban a LuckyTemplates-en belül, és a változók hatásait a mérőszámok kiszámítására.
Tudjon meg többet a LuckyTemplates Slope diagram nevű egyéni vizualizációról, amely egyetlen vagy több mérőszám növekedésének/csökkenésének megjelenítésére szolgál.
Fedezze fel a LuckyTemplates színtémáit. Ezek elengedhetetlenek ahhoz, hogy jelentései és vizualizációi zökkenőmentesen nézzenek ki és működjenek.
Az átlag kiszámítása a LuckyTemplates alkalmazásban számos módon elvégezhető, hogy pontos információkat kapjon üzleti jelentéseihez.
Nézzük meg a Standard LuckyTemplates Theming témakört, és tekintsünk át néhány olyan funkciót, amely magában a LuckyTemplates Desktop alkalmazásban található.
Ebből az oktatóanyagból megtudhatja, hogyan hozhat létre egyéni jelmagyarázatot a LuckyTemplates Map Visualban a kívánt színek és szegmentálás megjelenítéséhez.
Ismerje meg, hogyan állíthat be LuckyTemplates háttérképet a PowerPoint segítségével. Ez az egyik technikám a LuckyTemplates jelentéseim létrehozásához.
Ebben az oktatóanyagban egy szervezeten belüli beszerzési elemzésbe fogunk belemerülni egy interaktív funkció és az adatmodell erejének felhasználásával.