Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Dataa analysoitaessa haluamme tietää seuraavat vaiheet puuttuvien arvojen löytämiseksi, koska useimmat analytiikan asiat määräytyvät eri tekijöiden mukaan. Auttaaksemme sinua tässä, käsittelemme R:n puuttuvien tietojen visualisointia ggmice -paketin avulla . Voit katsoa tämän opetusohjelman koko videon tämän blogin alaosasta .

"Mitä teen puuttuville arvoille?" Tämä on olennainen kysymys, joka on kysyttävä, kun analysoit tietoja. Toivomme kaikki, että ne on helppo löytää, koska ne on koodattu nolla- tai NA:ksi.

Tarkastellaan joitain yleisiä nyrkkisääntöjä ja seuraavia vaiheita. Opimme vastaamaan kysymyksiin, kuten kuinka monta puuttuvaa dataa on? Kuinka suuri ongelma on? Löytyykö tiedoista kaavoja?

On monia tapoja tehdä tämä, mutta aiomme käyttää puuttuvien tietojen visualisointia R:ssä ensimmäisenä tutkimuksen aloituksena.

Sisällysluettelo

Milloin pudottaa ja milloin löytää puuttuvat arvot

Jos niiden puuttumisessa ei ole kaavaa ja se vaikuttaa alle 5 prosenttiin havainnoista riippumatta siitä, onko se sarakkeessa tai tietojoukossa, voit jättää puuttuvat arvot pois.

Jos kuitenkin käy ilmi, että se on yleisempää ja voit löytää merkittäviä kuvioita visualisoinneista, sinun on ehkä tehtävä jotain näille tiedoille.

Joten sen sijaan, että hylkäämme ne, voimme laskea ne, koska siellä on todennäköisesti tarina siitä, miksi nuo arvot puuttuvat kuviosta sellaisenaan.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Tässä esittelyssä käytämme pakettia, joka laskee puuttuvat arvot. Tämä on uusi paketti R:n puuttuvien tietojen visualisoimiseksi ja sitä kutsutaan nimellä ggmice .

Ajatuksena on löytää kuvio ja kuinka monta puuttuvaa arvoa on, joten tarkastelemme kuvaajakuviota ja sitten kaavion ennustajamatriisia .

MICE tarkoittaa monimuuttujien imputointia ketjutetuilla menetelmillä . Emme perehdy mekaniikkaan, mutta opimme kuinka tämä algoritmi laskee tietomme, jos käytämme sitä.

Toinen asia, joka on tiedettävä puuttuvien tietojen visualisoinnista R:ssä ggmicen avulla, on se, että se on todella tarkoitettu ggplot2-yhteensopivaksi , joten voimme rakentaa visualisointeja kuuluisan visualisointipaketin taakse. 

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Vaiheet puuttuvien tietojen visualisoimiseksi R:ssä GGMICE:n avulla

Mennään eteenpäin ja käynnistetään. Ensimmäinen asia, joka meidän on tehtävä, on tuoda kaikki tarvitsemamme paketit kirjoittamalla kirjasto (ggmice) , kirjasto (tidyverse) , joka sisältää ggplot2- ja kirjasto (Ecdat) -tietojoukot.

Kirjasto (Ecdat) -paketissa on paljon hyviä tietojoukkoja harjoitteluun. Siksi käytämme ja tuomme sitä maahan.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Yksi tietojoukoista on ohje (MCAS) . Suoritetaan ohjetoiminto tähän.

Kuten näemme, tämä on Ecdatista, ja se on testitulostietojoukko. Tässä ohjedokumentaatiossa kuvataan jokainen sarake ja kerrotaan, mistä se on peräisin.

Aiomme käyttää tätä oppiaksemme puuttuuko dataa ja minkä kuvion ne muodostavat, jos niitä on.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Käytetään is.na:ta (MCAS) ja napsauta Suorita . Kuten näemme, on olemassa joukko TOSIA ja EPÄTOSI. Voimme tehdä nämä summat käyttämällä colSums (is.na(MCAS))- funktiota, koska FALSE ja TRUE ovat nolla ja yksi peiteltynä. Tämä on tapamme tarkistaa, puuttuuko arvo vai ei.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Kuten alla näkyy, puuttuvat arvot löytyvät kolmesta sarakkeesta, kuten spc , totsc8 ja avgsalary . Näemme näiden sarakkeiden kuvauksen ohjedokumentaatio-osiossa.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Myös käyttämällä colSums (is.na(MCAS)) / nrow (MCAS) rivien lukumäärä muuttuu prosentteiksi. Tämä on yksi tapa tarkastella sitä, mutta ei helpoin tapa.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Tässä tapauksessa katsotaan, mitä ggmice voi tehdä hyväksemme. Käytämme browseVignettes (paketti = 'ggmice') -toimintoa ja napsauta sitten Suorita .

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Tälle toiminnolle on löydetty joitain vinjettejä, joten valitaan ggmice ja napsautamme HTML- linkkiä nähdäksesi hyödyllisiä opetusohjelmia, joista voi olla apua.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Palataksemme komentosarjaan, käytetään plot_pattern (MCAS) -funktiota tietojoukon välittämiseen.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Jos haluat nähdä sen paremmin, napsauta Zoomaa -painiketta. Kuten on kuvattu, 155 havainnosta spc:stä puuttuu 9 arvoa, 25 keskipalkkalle ja 40 totsc8: lle .

Yritämme selvittää, onko jokin näistä sama, kuinka monta niitä on ja ovatko ne yleensä klusterissa.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Tämän tarkistamiseksi voimme kokeilla analogista tapaa käyttämällä view (MCAS) -toimintoa ja napsauttamalla sitten Suorita .

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Tämä on eräänlainen taulukkolaskentaohjelma, jossa voimme nähdä kaikki puuttuvat arvot. Voimme myös laajentaa tätä napsauttamalla Lähdeeditori -painiketta.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Kuten , voimme nähdä kokonaismerkinnät ja NA:t ovat puuttuvia arvoja. On huomattava, että näkymän (MCAS) kokonaismerkinnät ovat 220 ja plot_pattern (MCAS) vain 155, koska siellä oli todennäköisesti täydellisiä arvoja, joita ei piirretty sellaisenaan.

Voimme myös nähdä, että niillä on taipumus klusteroitua yhteen muuttujien ja rivien perusteella. Kuitenkin monissa tapauksissa vain toinen tai toinen puuttuu. Tosiasia on, että on vaikeaa tehdä tätä visuaalista rivi riviltä, ​​joten tässä on visualisointi mukana.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Puuttuvien tietojen laskeminen

Seuraavaksi palaa komentosarjaamme, kirjoita sitten nrow (MCAS) ja sitten sum(is.na(MCAS)$totsc8)) .

Tässä tapauksessa tiedämme, että 40 puuttuu arvoja 200 havainnosta. Käytetään R:tä laskimena laittamalla 40/200. Siksi meillä on noin 20 % puuttuvia arvoja, mikä on paljon.

Ihannetapauksessa haluamme tietää, miksi niin monet ovat kadoksissa. Ehkä se johtuu vain siitä, miten tiedot kerättiin, minkä vuoksi voimme olettaa tämän.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Tätä varten tuodaan kirjasto (hiiret) -paketti . Tämä on yksi imputointimenetelmistä.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Käytetään sitten funktioita MCAS_pred < –="" quickpred=""> ja plot_pred(MCAS_pred) . Muista tallentaa nämä, napsauta Suorita ja napsauta Zoomaa -painiketta.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Jos aiomme käyttää monimuuttujaimputointia, tämä algoritmi löytää havaintoja ja tietopisteitä, jotka ovat samanlaisia ​​kuin puuttuvat, ja yrittää sitten täyttää ne.

Esimerkiksi spc- sarakkeet. Näistä on apua puuttuvien arvojen ennustamisessa samoin totsc8:n ja avgsalaryn kanssa . Tässä vaiheessa emme tee sitä, mutta näemme, mitkä arvot ja muuttujat liittyvät toisiinsa, mikä saattaa auttaa estämään näitä arvoja.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä

Kokeillaan vielä yhtä asiaa. Aiomme käyttää ggmicea (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) ja napsauta sitten Suorita .

Tämä on , paitsi että käytämme ggmiceä. Periaatteessa ajatuksena on, että voimme nähdä näiden kahden muuttujan välisen suhteen, joista puuttuu melko vähän arvoja. Kun yksi niistä puuttuu ja toinen on saatavilla, voimme nähdä, missä ne pisteet ovat.

Tässä tilanteessa molemmat näistä havaitaan yhdessä näistä tapauksista. Toinen puuttuu ja toinen ei. Jos molemmat puuttuvat, se ei tule olemaan juonessa.

Puuttuvien tietojen visualisointi RW/GGMICE:ssä




Johtopäätös

Kun työskentelemme puuttuvien arvojen kanssa, on houkuttelevaa käyttää MICE:n kaltaista algoritmia, koska se on erittäin tehokas arvojen laskemiseen. On kuitenkin parempi tutkia tietoja itse ja ymmärtää, mitä tapahtuu.

Ihannetapauksessa, jos meillä on paljon puuttuvaa dataa, haluamme selvittää syyn ja ehkä voimme yrittää saada lisää tietoja tai voimme laskea sen. Suoraan lähteeseen meneminen on aina parempi.

Jos lopulta haluamme imputoida puuttuvat arvot, voimme tehdä joitain yksinkertaisia ​​imputointimenetelmiä tidyverse-paketilla , kuten keskiarvo tai mediaani.

Epäilemättä MICE-paketti on tehokas. Se voi olla ylivoimaista asioissa, jotka ovat erittäin laskennallisesti intensiivisiä, mutta keskitymme tällä hetkellä vain sen visualisointielementtiin.

Toivottavasti opit jotain ja voit vapaasti käyttää tätä pakettia. Muista jakaa se ja yrittää saada sana julkisuuteen, koska se on mukava paketti puuttuvien arvojen kanssa, jotka ovat ggplot2-yhteensopivia.

Kaikki parhaat,

George


Päivämäärätaulukon luominen LuckyTemplatesissa

Päivämäärätaulukon luominen LuckyTemplatesissa

Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.

LuckyTemplates mobiiliraportointivinkkejä ja -tekniikoita

LuckyTemplates mobiiliraportointivinkkejä ja -tekniikoita

Tämä lyhyt opetusohjelma korostaa LuckyTemplates-mobiiliraportointiominaisuutta. Näytän sinulle, kuinka voit kehittää raportteja tehokkaasti mobiililaitteille.

Ammattimainen palveluanalyysiraportit LuckyTemplatesissa

Ammattimainen palveluanalyysiraportit LuckyTemplatesissa

Tässä LuckyTemplates Showcase -esittelyssä käymme läpi raportteja, jotka näyttävät ammattitaitoisen palveluanalytiikan yritykseltä, jolla on useita sopimuksia ja asiakkaiden sitoumuksia.

Microsoft Power Platform -päivitykset | Microsoft Ignite 2021

Microsoft Power Platform -päivitykset | Microsoft Ignite 2021

Käy läpi tärkeimmät Power Appsin ja Power Automaten päivitykset sekä niiden edut ja vaikutukset Microsoft Power Platformiin.

Yleiset SQL-funktiot: Yleiskatsaus

Yleiset SQL-funktiot: Yleiskatsaus

Tutustu joihinkin yleisiin SQL-toimintoihin, joita voimme käyttää, kuten merkkijono, päivämäärä ja joitain lisätoimintoja tietojen käsittelyyn tai käsittelyyn.

LuckyTemplates-mallin luominen: opas ja vinkkejä

LuckyTemplates-mallin luominen: opas ja vinkkejä

Tässä opetusohjelmassa opit luomaan täydellisen LuckyTemplates-mallin, joka on määritetty tarpeidesi ja mieltymystesi mukaan.

Kenttäparametrit ja pienet kertoimet LuckyTemplatesissa

Kenttäparametrit ja pienet kertoimet LuckyTemplatesissa

Tässä blogissa esittelemme, kuinka kerrostat kenttäparametreja pienillä kerroilla uskomattoman hyödyllisten näkemysten ja visuaalien luomiseksi.

LuckyTemplates-sijoitus ja mukautettu ryhmittely

LuckyTemplates-sijoitus ja mukautettu ryhmittely

Tässä blogissa opit käyttämään LuckyTemplates-sijoitus- ja mukautettuja ryhmittelyominaisuuksia näytetietojen segmentoimiseen ja luokitteluun kriteerien mukaan.

LuckyTemplatesissa näytetään vain tiettyyn päivämäärään asti kumulatiivinen kokonaissumma

LuckyTemplatesissa näytetään vain tiettyyn päivämäärään asti kumulatiivinen kokonaissumma

Tässä opetusohjelmassa käsittelen tiettyä tekniikkaa, jolla voit näyttää kumulatiivisen kokonaissumman LuckyTemplates-visuaaleissasi vain tiettyyn päivämäärään asti.

Bullet Charts: Kehittyneet mukautetut visuaalit LuckyTemplatesille

Bullet Charts: Kehittyneet mukautetut visuaalit LuckyTemplatesille

Opi luomaan ja mukauttamaan Bullet-kaavioita LuckyTemplatesissa, joita käytetään pääasiassa suorituskyvyn mittaamiseen suhteessa tavoitteeseen tai edellisiin vuosiin.