Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban
Tudja meg, miért fontos egy dedikált dátumtáblázat a LuckyTemplatesben, és ismerje meg ennek leggyorsabb és leghatékonyabb módját.
Az adatok elemzésekor tudni szeretnénk a hiányzó értékek megtalálásának következő lépéseit, mivel az elemzésben a legtöbb dolgot különböző tényezők határozzák meg. Ennek elősegítése érdekében megoldjuk a hiányzó adatok megjelenítését az R-ben a ggmice csomag segítségével . Az oktatóanyag teljes videóját a blog alján tekintheti meg .
"Mit tegyek a hiányzó értékekkel?" Ez egy alapvető kérdés, amelyet fel kell tenni az adatok elemzésekor. Mindannyian reméljük, hogy könnyen megtalálhatóak, mivel null-ként vagy NA-ként vannak kódolva.
Vessen egy pillantást néhány általános hüvelykujjszabályra és a következő lépésekre. Megtanuljuk, hogyan válaszoljunk olyan kérdésekre, mint például, hogy hány hiányzó adat van? Mekkora a probléma? Találhatunk-e mintákat az adatokban?
Ennek számos módja van, de első lépésként a hiányzó adatok R-ben történő megjelenítését fogjuk használni.
Tartalomjegyzék
Mikor kell ledobni és mikor kell megtalálni a hiányzó értékeket
Ha nincs minta a hiányuk tekintetében, és ez a megfigyelések kevesebb mint 5%-át érinti, akár az oszlopban, akár az adatkészletben van, akkor eldobhatja a hiányzó értékeket.
Ha azonban kiderül, hogy ez elterjedtebb, és a vizualizációk alapján jelentős mintákat találhat, akkor lehet, hogy tennie kell valamit ezekkel az adatokkal.
Tehát ahelyett, hogy elvetnénk őket, betudhatjuk ezeket, mert valószínűleg van egy történet arról, hogy ezek az értékek miért hiányoznak a mintából.
Ebben a bemutatóban olyan csomagot fogunk használni, amely a hiányzó értékeket imputálja. Ez egy új csomag az R-ben hiányzó adatok megjelenítésére, és a neve ggmice .
Az ötlet az, hogy megtaláljuk a mintát és hány hiányzó értéket, ezért megvizsgáljuk a plot mintát , majd a plot prediktor mátrixot .
A MICE a láncolt módszerekkel végzett többváltozós imputáció rövidítése . Nem kezdünk bele a mechanikába, de meg fogjuk tanulni, hogy ez az algoritmus hogyan imputálja adatainkat, ha használjuk.
A hiányzó adatok R-ben történő megjelenítéséről a ggmice használatával egy másik tudnivaló, hogy az valóban ggplot2-kompatibilis , így néhány vizualizációt a híres vizualizációs csomag hátoldalára tudunk építeni.
Lépések a hiányzó adatok megjelenítéséhez az R w/ GGMICE-ben
Menjünk előre és induljunk el. Az első dolog, amit tennünk kell, az összes szükséges csomag importálása a könyvtár (ggmice) , a library (tidyverse) , amely magában foglalja a ggplot2 és a library (Ecdat) adatkészleteket.
A könyvtár (Ecdat) csomag sok jó adatkészletet tartalmaz, amelyeken gyakorolni kell. Ezért használjuk és importáljuk.
Az egyik adatkészlet a súgó (MCAS) . Futtassuk ezen a súgó funkciót.
Amint látjuk, ez az Ecdatból származik, és ez egy tesztpontszám adathalmaz. Ez a súgódokumentáció leírja az egyes oszlopokat, és elmondja nekünk, honnan származnak.
Ezt arra fogjuk használni, hogy megtudjuk, vannak-e hiányzó adatok, és milyen mintát alkotnak, ha vannak.
Használjuk az is.na-t (MCAS) , és kattintsunk a Futtatás gombra . Amint látjuk, van egy csomó IGAZ és HAMIS. Amit tehetünk, az az, hogy a colSums (is.na(MCAS)) függvény használatával összegezzük ezeket, mivel a FALSE és a TRUE értéke nulla, és álcázott egy. Így ellenőrizhetjük, hogy az érték hiányzik-e vagy sem.
Amint alább látható, a hiányzó értékek három oszlopban találhatók, például spc , totsc8 és avgsalary . Ezen oszlopok leírását a súgódokumentáció részben láthatjuk.
Ezenkívül a colSums (is.na(MCAS)) / nrow (MCAS) használatával a sorok száma százalékokká alakul. Ez az egyik módja annak, hogy megnézzük, de nem a legegyszerűbb dolog.
Ebben az esetben nézzük meg, mit tehet nekünk a ggmice. A browseVignettes (package = 'ggmice') függvényt használjuk , majd kattintsunk a Futtatás gombra .
Találtunk néhány matricát ehhez a funkcióhoz, ezért válasszuk a ggmice-t , és kattintsunk a HTML hivatkozásra néhány hasznos útmutató megtekintéséhez, amelyek segíthetnek.
Visszatérve a szkriptre, használjuk a plot_pattern (MCAS) függvényt az adathalmaz átadására.
A jobb megjelenítés érdekében kattintson a Zoom gombra. Amint az ábrán látható, a 155 megfigyelésből az spc-nek 9 hiányzó értéke van, 25 az átlagos fizetésre és 40 a totsc8- ra .
Megpróbáljuk kideríteni, hogy ezek közül valamelyik egybeesik-e, hányan vannak, és hogy hajlamosak-e egy klaszterbe kerülni.
Ennek keresztellenőrzéséhez kipróbálhatjuk az analóg módszert a view (MCAS) funkció használatával, majd a Futtatás gombra kattintva .
Ez egyfajta táblázatkezelő, ahol láthatjuk az összes hiányzó értéket. Ezt a Forrásszerkesztő gombra kattintva is bővíthetjük .
Hasonlóan a -hoz, láthatjuk az összes bejegyzést, és az NA-k a hiányzó értékek. Észrevehető, hogy a nézetben (MCAS) az összes bejegyzés 220, a plot_pattern (MCAS) esetében pedig csak 155, mivel valószínűleg voltak olyan teljes értékek, amelyeket önmagában nem ábrázoltak.
Azt is láthatjuk, hogy általában a változók és sorok alapján csoportosulnak. Sok esetben azonban csak az egyik vagy a másik hiányzik. A valóság az, hogy nehéz ezt a vizuális képet soronként megcsinálni, ezért itt jön be a vizualizáció.
A hiányzó adatok beszámítása
A következő teendő az, hogy visszatérünk a szkriptünkhöz, majd beírjuk, hogy nrow (MCAS) , majd sum(is.na(MCAS)$totsc8)) .
Ebben az esetben tudjuk, hogy 200 megfigyelésből 40 érték hiányzik. Használjuk R-t számológépként úgy, hogy 40/200-at teszünk. Ezért körülbelül 20% hiányzó értékünk van, ami nagyon sok.
Ideális esetben szeretnénk tudni, miért hiányoznak olyan sokan. Lehet, hogy az adatok összegyűjtésének módja az oka, ezért feltételezhetjük.
Ehhez importáljuk a könyvtár (egerek) csomagot . Ez az egyik imputációs módszer.
Ezután használjuk az MCAS_pred < –="" quickpred=""> és a plot_pred(MCAS_pred) függvényeket. Mentse el ezeket, kattintson a Futtatás gombra, majd a Nagyítás gombra.
Ha többváltozós imputációt használunk, ez az algoritmus megkeresi a hiányzókhoz hasonló megfigyeléseket és adatpontokat, majd megpróbálja kitölteni azokat.
Például az spc oszlopok. Ezek hasznosak lesznek a hiányzó értékek előrejelzésében, ugyanúgy, mint a totsc8 és az avgsalary esetében . Jelenleg nem tesszük ezt, de azt látjuk, hogy milyen értékek és változók kapcsolódnak egymáshoz, amelyek hasznosak lehetnek az értékek akadályozásában.
Próbáljunk még egy dolgot. A ggmice-t fogjuk használni (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , majd kattintson a Futtatás gombra .
Ez egy , kivéve, hogy ggmice-t használunk. Alapvetően az ötlet az, hogy láthatjuk a kapcsolatot e két változó között, amelyeknek jó néhány hiányzó értéke van. Ha az egyik hiányzik, a másik pedig elérhető, akkor láthatjuk, hol vannak ezek a pontok.
Ebben a helyzetben mindkettő megfigyelhető ezen esetek egyikében. Az egyik hiányzik, a másik nem. Ha mindkettő hiányzik, az nem lesz benne a telken.
Következtetés
Amikor hiányzó értékekkel dolgozunk, csábító egy olyan algoritmus, mint a MICE, mert nagyon hatékony az értékek beszámítása. Azonban jobb, ha saját maga fedezi fel az adatokat, és megérti, mi történik.
Ideális esetben, ha sok hiányzó adatunk van, ki akarjuk deríteni, hogy miért, és esetleg megpróbálhatunk több adatot beszerezni, vagy beszámíthatjuk. Mindig előnyben részesítjük közvetlenül a forráshoz való fordulást.
Ha végül a hiányzó értékeket akarjuk imputálni, néhány egyszerű imputációs módszert alkalmazhatunk a tidyverse csomaggal , például az átlagot vagy a mediánt.
Kétségtelen, hogy a MICE csomag erőteljes. Ez túlzás lehet azoknál a dolgoknál, amelyek nagyon számításigényesek, de most csak a vizualizációs elemre koncentrálunk.
Remélem tanulsz valamit, és nyugodtan használd ezt a csomagot. Feltétlenül oszd meg, és próbáld meg kihozni a szót, mert ez egy jó csomag a hiányzó, ggplot2-kompatibilis értékekkel való együttműködéshez.
Minden jót,
György
Tudja meg, miért fontos egy dedikált dátumtáblázat a LuckyTemplatesben, és ismerje meg ennek leggyorsabb és leghatékonyabb módját.
Ez a rövid oktatóanyag kiemeli a LuckyTemplates mobil jelentési funkcióját. Megmutatom, hogyan készíthet hatékony jelentéseket mobileszközökön.
Ebben a LuckyTemplates bemutatóban olyan jelentéseket tekintünk át, amelyek professzionális szolgáltatáselemzést mutatnak be egy olyan cégtől, amely több szerződéssel és ügyfél-elkötelezettséggel rendelkezik.
Tekintse át a Power Apps és a Power Automate legfontosabb frissítéseit, valamint azok előnyeit és következményeit a Microsoft Power Platform számára.
Fedezzen fel néhány gyakori SQL-függvényt, amelyeket használhatunk, például a karakterláncot, a dátumot és néhány speciális függvényt az adatok feldolgozásához vagy manipulálásához.
Ebből az oktatóanyagból megtudhatja, hogyan hozhatja létre a tökéletes LuckyTemplates sablont, amely az Ön igényeinek és preferenciáinak megfelelően van konfigurálva.
Ebben a blogban bemutatjuk, hogyan lehet a mezőparamétereket kis többszörösekkel rétegezni, hogy hihetetlenül hasznos betekintést és látványelemeket hozzon létre.
Ebből a blogból megtudhatja, hogyan használhatja a LuckyTemplates rangsorolási és egyéni csoportosítási funkcióit a mintaadatok szegmentálására és kritériumok szerinti rangsorolására.
Ebben az oktatóanyagban egy konkrét technikát fogok bemutatni, hogyan jelenítheti meg a kumulatív összeget csak egy adott dátumig a LuckyTemplates vizualizációjában.
Ismerje meg, hogyan hozhat létre és testreszabhat Bullet diagramokat a LuckyTemplates alkalmazásban, amelyeket főként a teljesítmény mérésére használnak a célhoz vagy az előző évekhez képest.