E-mail melléklet mentése SharePointba a Power Automate segítségével
Ebből a blogból megtudhatja, hogyan mentheti automatikusan az e-mail mellékleteket a SharePointba, majd törölheti az e-maileket a Power Automate segítségével.
Az adatok elemzésekor tudni szeretnénk a hiányzó értékek megtalálásának következő lépéseit, mivel az elemzésben a legtöbb dolgot különböző tényezők határozzák meg. Ennek elősegítése érdekében megoldjuk a hiányzó adatok megjelenítését az R-ben a ggmice csomag segítségével . Az oktatóanyag teljes videóját a blog alján tekintheti meg .
"Mit tegyek a hiányzó értékekkel?" Ez egy alapvető kérdés, amelyet fel kell tenni az adatok elemzésekor. Mindannyian reméljük, hogy könnyen megtalálhatóak, mivel null-ként vagy NA-ként vannak kódolva.
Vessen egy pillantást néhány általános hüvelykujjszabályra és a következő lépésekre. Megtanuljuk, hogyan válaszoljunk olyan kérdésekre, mint például, hogy hány hiányzó adat van? Mekkora a probléma? Találhatunk-e mintákat az adatokban?
Ennek számos módja van, de első lépésként a hiányzó adatok R-ben történő megjelenítését fogjuk használni.
Tartalomjegyzék
Mikor kell ledobni és mikor kell megtalálni a hiányzó értékeket
Ha nincs minta a hiányuk tekintetében, és ez a megfigyelések kevesebb mint 5%-át érinti, akár az oszlopban, akár az adatkészletben van, akkor eldobhatja a hiányzó értékeket.
Ha azonban kiderül, hogy ez elterjedtebb, és a vizualizációk alapján jelentős mintákat találhat, akkor lehet, hogy tennie kell valamit ezekkel az adatokkal.
Tehát ahelyett, hogy elvetnénk őket, betudhatjuk ezeket, mert valószínűleg van egy történet arról, hogy ezek az értékek miért hiányoznak a mintából.
Ebben a bemutatóban olyan csomagot fogunk használni, amely a hiányzó értékeket imputálja. Ez egy új csomag az R-ben hiányzó adatok megjelenítésére, és a neve ggmice .
Az ötlet az, hogy megtaláljuk a mintát és hány hiányzó értéket, ezért megvizsgáljuk a plot mintát , majd a plot prediktor mátrixot .
A MICE a láncolt módszerekkel végzett többváltozós imputáció rövidítése . Nem kezdünk bele a mechanikába, de meg fogjuk tanulni, hogy ez az algoritmus hogyan imputálja adatainkat, ha használjuk.
A hiányzó adatok R-ben történő megjelenítéséről a ggmice használatával egy másik tudnivaló, hogy az valóban ggplot2-kompatibilis , így néhány vizualizációt a híres vizualizációs csomag hátoldalára tudunk építeni.
Lépések a hiányzó adatok megjelenítéséhez az R w/ GGMICE-ben
Menjünk előre és induljunk el. Az első dolog, amit tennünk kell, az összes szükséges csomag importálása a könyvtár (ggmice) , a library (tidyverse) , amely magában foglalja a ggplot2 és a library (Ecdat) adatkészleteket.
A könyvtár (Ecdat) csomag sok jó adatkészletet tartalmaz, amelyeken gyakorolni kell. Ezért használjuk és importáljuk.
Az egyik adatkészlet a súgó (MCAS) . Futtassuk ezen a súgó funkciót.
Amint látjuk, ez az Ecdatból származik, és ez egy tesztpontszám adathalmaz. Ez a súgódokumentáció leírja az egyes oszlopokat, és elmondja nekünk, honnan származnak.
Ezt arra fogjuk használni, hogy megtudjuk, vannak-e hiányzó adatok, és milyen mintát alkotnak, ha vannak.
Használjuk az is.na-t (MCAS) , és kattintsunk a Futtatás gombra . Amint látjuk, van egy csomó IGAZ és HAMIS. Amit tehetünk, az az, hogy a colSums (is.na(MCAS)) függvény használatával összegezzük ezeket, mivel a FALSE és a TRUE értéke nulla, és álcázott egy. Így ellenőrizhetjük, hogy az érték hiányzik-e vagy sem.
Amint alább látható, a hiányzó értékek három oszlopban találhatók, például spc , totsc8 és avgsalary . Ezen oszlopok leírását a súgódokumentáció részben láthatjuk.
Ezenkívül a colSums (is.na(MCAS)) / nrow (MCAS) használatával a sorok száma százalékokká alakul. Ez az egyik módja annak, hogy megnézzük, de nem a legegyszerűbb dolog.
Ebben az esetben nézzük meg, mit tehet nekünk a ggmice. A browseVignettes (package = 'ggmice') függvényt használjuk , majd kattintsunk a Futtatás gombra .
Találtunk néhány matricát ehhez a funkcióhoz, ezért válasszuk a ggmice-t , és kattintsunk a HTML hivatkozásra néhány hasznos útmutató megtekintéséhez, amelyek segíthetnek.
Visszatérve a szkriptre, használjuk a plot_pattern (MCAS) függvényt az adathalmaz átadására.
A jobb megjelenítés érdekében kattintson a Zoom gombra. Amint az ábrán látható, a 155 megfigyelésből az spc-nek 9 hiányzó értéke van, 25 az átlagos fizetésre és 40 a totsc8- ra .
Megpróbáljuk kideríteni, hogy ezek közül valamelyik egybeesik-e, hányan vannak, és hogy hajlamosak-e egy klaszterbe kerülni.
Ennek keresztellenőrzéséhez kipróbálhatjuk az analóg módszert a view (MCAS) funkció használatával, majd a Futtatás gombra kattintva .
Ez egyfajta táblázatkezelő, ahol láthatjuk az összes hiányzó értéket. Ezt a Forrásszerkesztő gombra kattintva is bővíthetjük .
Hasonlóan a -hoz, láthatjuk az összes bejegyzést, és az NA-k a hiányzó értékek. Észrevehető, hogy a nézetben (MCAS) az összes bejegyzés 220, a plot_pattern (MCAS) esetében pedig csak 155, mivel valószínűleg voltak olyan teljes értékek, amelyeket önmagában nem ábrázoltak.
Azt is láthatjuk, hogy általában a változók és sorok alapján csoportosulnak. Sok esetben azonban csak az egyik vagy a másik hiányzik. A valóság az, hogy nehéz ezt a vizuális képet soronként megcsinálni, ezért itt jön be a vizualizáció.
A hiányzó adatok beszámítása
A következő teendő az, hogy visszatérünk a szkriptünkhöz, majd beírjuk, hogy nrow (MCAS) , majd sum(is.na(MCAS)$totsc8)) .
Ebben az esetben tudjuk, hogy 200 megfigyelésből 40 érték hiányzik. Használjuk R-t számológépként úgy, hogy 40/200-at teszünk. Ezért körülbelül 20% hiányzó értékünk van, ami nagyon sok.
Ideális esetben szeretnénk tudni, miért hiányoznak olyan sokan. Lehet, hogy az adatok összegyűjtésének módja az oka, ezért feltételezhetjük.
Ehhez importáljuk a könyvtár (egerek) csomagot . Ez az egyik imputációs módszer.
Ezután használjuk az MCAS_pred < –="" quickpred=""> és a plot_pred(MCAS_pred) függvényeket. Mentse el ezeket, kattintson a Futtatás gombra, majd a Nagyítás gombra.
Ha többváltozós imputációt használunk, ez az algoritmus megkeresi a hiányzókhoz hasonló megfigyeléseket és adatpontokat, majd megpróbálja kitölteni azokat.
Például az spc oszlopok. Ezek hasznosak lesznek a hiányzó értékek előrejelzésében, ugyanúgy, mint a totsc8 és az avgsalary esetében . Jelenleg nem tesszük ezt, de azt látjuk, hogy milyen értékek és változók kapcsolódnak egymáshoz, amelyek hasznosak lehetnek az értékek akadályozásában.
Próbáljunk még egy dolgot. A ggmice-t fogjuk használni (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , majd kattintson a Futtatás gombra .
Ez egy , kivéve, hogy ggmice-t használunk. Alapvetően az ötlet az, hogy láthatjuk a kapcsolatot e két változó között, amelyeknek jó néhány hiányzó értéke van. Ha az egyik hiányzik, a másik pedig elérhető, akkor láthatjuk, hol vannak ezek a pontok.
Ebben a helyzetben mindkettő megfigyelhető ezen esetek egyikében. Az egyik hiányzik, a másik nem. Ha mindkettő hiányzik, az nem lesz benne a telken.
Következtetés
Amikor hiányzó értékekkel dolgozunk, csábító egy olyan algoritmus, mint a MICE, mert nagyon hatékony az értékek beszámítása. Azonban jobb, ha saját maga fedezi fel az adatokat, és megérti, mi történik.
Ideális esetben, ha sok hiányzó adatunk van, ki akarjuk deríteni, hogy miért, és esetleg megpróbálhatunk több adatot beszerezni, vagy beszámíthatjuk. Mindig előnyben részesítjük közvetlenül a forráshoz való fordulást.
Ha végül a hiányzó értékeket akarjuk imputálni, néhány egyszerű imputációs módszert alkalmazhatunk a tidyverse csomaggal , például az átlagot vagy a mediánt.
Kétségtelen, hogy a MICE csomag erőteljes. Ez túlzás lehet azoknál a dolgoknál, amelyek nagyon számításigényesek, de most csak a vizualizációs elemre koncentrálunk.
Remélem tanulsz valamit, és nyugodtan használd ezt a csomagot. Feltétlenül oszd meg, és próbáld meg kihozni a szót, mert ez egy jó csomag a hiányzó, ggplot2-kompatibilis értékekkel való együttműködéshez.
Minden jót,
György
Ebből a blogból megtudhatja, hogyan mentheti automatikusan az e-mail mellékleteket a SharePointba, majd törölheti az e-maileket a Power Automate segítségével.
A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023
Ismerje meg, hogyan hozhat létre <strong>Power Automate</strong> folyamatokat a semmiből. Sablon használata helyett mi magunk hozzuk létre a kiváltó okokat és a műveleteket.
4 módszer a Pi használatára a Pythonban példákkal
Ebben az útmutatóban bemutatom, hogyan lehet Pénzügyi információk mátrixát létrehozni a Profit és veszteség (P&L) kimutatással a LuckyTemplates alkalmazásban.
Fedezze fel, hogyan lehet dinamikusan egyesíteni oszlopokat a Power Query Table.CombineColumns függvény segítségével.
Ismerje meg, hogyan adhatjuk hozzá és szinkronizálhatjuk SharePoint-fájljainkat az asztalon és a OneDrive-on.
Tudja meg, miért fontos egy dedikált dátumtáblázat a LuckyTemplatesben, és ismerje meg ennek leggyorsabb és leghatékonyabb módját.
Ez a rövid oktatóanyag kiemeli a LuckyTemplates mobil jelentési funkcióját. Megmutatom, hogyan készíthet hatékony jelentéseket mobileszközökön.
Ebben a LuckyTemplates bemutatóban olyan jelentéseket tekintünk át, amelyek professzionális szolgáltatáselemzést mutatnak be egy olyan cégtől, amely több szerződéssel és ügyfél-elkötelezettséggel rendelkezik.