Päivämäärätaulukon luominen LuckyTemplatesissa
Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.
Dataa analysoitaessa haluamme tietää seuraavat vaiheet puuttuvien arvojen löytämiseksi, koska useimmat analytiikan asiat määräytyvät eri tekijöiden mukaan. Auttaaksemme sinua tässä, käsittelemme R:n puuttuvien tietojen visualisointia ggmice -paketin avulla . Voit katsoa tämän opetusohjelman koko videon tämän blogin alaosasta .
"Mitä teen puuttuville arvoille?" Tämä on olennainen kysymys, joka on kysyttävä, kun analysoit tietoja. Toivomme kaikki, että ne on helppo löytää, koska ne on koodattu nolla- tai NA:ksi.
Tarkastellaan joitain yleisiä nyrkkisääntöjä ja seuraavia vaiheita. Opimme vastaamaan kysymyksiin, kuten kuinka monta puuttuvaa dataa on? Kuinka suuri ongelma on? Löytyykö tiedoista kaavoja?
On monia tapoja tehdä tämä, mutta aiomme käyttää puuttuvien tietojen visualisointia R:ssä ensimmäisenä tutkimuksen aloituksena.
Sisällysluettelo
Milloin pudottaa ja milloin löytää puuttuvat arvot
Jos niiden puuttumisessa ei ole kaavaa ja se vaikuttaa alle 5 prosenttiin havainnoista riippumatta siitä, onko se sarakkeessa tai tietojoukossa, voit jättää puuttuvat arvot pois.
Jos kuitenkin käy ilmi, että se on yleisempää ja voit löytää merkittäviä kuvioita visualisoinneista, sinun on ehkä tehtävä jotain näille tiedoille.
Joten sen sijaan, että hylkäämme ne, voimme laskea ne, koska siellä on todennäköisesti tarina siitä, miksi nuo arvot puuttuvat kuviosta sellaisenaan.
Tässä esittelyssä käytämme pakettia, joka laskee puuttuvat arvot. Tämä on uusi paketti R:n puuttuvien tietojen visualisoimiseksi ja sitä kutsutaan nimellä ggmice .
Ajatuksena on löytää kuvio ja kuinka monta puuttuvaa arvoa on, joten tarkastelemme kuvaajakuviota ja sitten kaavion ennustajamatriisia .
MICE tarkoittaa monimuuttujien imputointia ketjutetuilla menetelmillä . Emme perehdy mekaniikkaan, mutta opimme kuinka tämä algoritmi laskee tietomme, jos käytämme sitä.
Toinen asia, joka on tiedettävä puuttuvien tietojen visualisoinnista R:ssä ggmicen avulla, on se, että se on todella tarkoitettu ggplot2-yhteensopivaksi , joten voimme rakentaa visualisointeja kuuluisan visualisointipaketin taakse.
Vaiheet puuttuvien tietojen visualisoimiseksi R:ssä GGMICE:n avulla
Mennään eteenpäin ja käynnistetään. Ensimmäinen asia, joka meidän on tehtävä, on tuoda kaikki tarvitsemamme paketit kirjoittamalla kirjasto (ggmice) , kirjasto (tidyverse) , joka sisältää ggplot2- ja kirjasto (Ecdat) -tietojoukot.
Kirjasto (Ecdat) -paketissa on paljon hyviä tietojoukkoja harjoitteluun. Siksi käytämme ja tuomme sitä maahan.
Yksi tietojoukoista on ohje (MCAS) . Suoritetaan ohjetoiminto tähän.
Kuten näemme, tämä on Ecdatista, ja se on testitulostietojoukko. Tässä ohjedokumentaatiossa kuvataan jokainen sarake ja kerrotaan, mistä se on peräisin.
Aiomme käyttää tätä oppiaksemme puuttuuko dataa ja minkä kuvion ne muodostavat, jos niitä on.
Käytetään is.na:ta (MCAS) ja napsauta Suorita . Kuten näemme, on olemassa joukko TOSIA ja EPÄTOSI. Voimme tehdä nämä summat käyttämällä colSums (is.na(MCAS))- funktiota, koska FALSE ja TRUE ovat nolla ja yksi peiteltynä. Tämä on tapamme tarkistaa, puuttuuko arvo vai ei.
Kuten alla näkyy, puuttuvat arvot löytyvät kolmesta sarakkeesta, kuten spc , totsc8 ja avgsalary . Näemme näiden sarakkeiden kuvauksen ohjedokumentaatio-osiossa.
Myös käyttämällä colSums (is.na(MCAS)) / nrow (MCAS) rivien lukumäärä muuttuu prosentteiksi. Tämä on yksi tapa tarkastella sitä, mutta ei helpoin tapa.
Tässä tapauksessa katsotaan, mitä ggmice voi tehdä hyväksemme. Käytämme browseVignettes (paketti = 'ggmice') -toimintoa ja napsauta sitten Suorita .
Tälle toiminnolle on löydetty joitain vinjettejä, joten valitaan ggmice ja napsautamme HTML- linkkiä nähdäksesi hyödyllisiä opetusohjelmia, joista voi olla apua.
Palataksemme komentosarjaan, käytetään plot_pattern (MCAS) -funktiota tietojoukon välittämiseen.
Jos haluat nähdä sen paremmin, napsauta Zoomaa -painiketta. Kuten on kuvattu, 155 havainnosta spc:stä puuttuu 9 arvoa, 25 keskipalkkalle ja 40 totsc8: lle .
Yritämme selvittää, onko jokin näistä sama, kuinka monta niitä on ja ovatko ne yleensä klusterissa.
Tämän tarkistamiseksi voimme kokeilla analogista tapaa käyttämällä view (MCAS) -toimintoa ja napsauttamalla sitten Suorita .
Tämä on eräänlainen taulukkolaskentaohjelma, jossa voimme nähdä kaikki puuttuvat arvot. Voimme myös laajentaa tätä napsauttamalla Lähdeeditori -painiketta.
Kuten , voimme nähdä kokonaismerkinnät ja NA:t ovat puuttuvia arvoja. On huomattava, että näkymän (MCAS) kokonaismerkinnät ovat 220 ja plot_pattern (MCAS) vain 155, koska siellä oli todennäköisesti täydellisiä arvoja, joita ei piirretty sellaisenaan.
Voimme myös nähdä, että niillä on taipumus klusteroitua yhteen muuttujien ja rivien perusteella. Kuitenkin monissa tapauksissa vain toinen tai toinen puuttuu. Tosiasia on, että on vaikeaa tehdä tätä visuaalista rivi riviltä, joten tässä on visualisointi mukana.
Puuttuvien tietojen laskeminen
Seuraavaksi palaa komentosarjaamme, kirjoita sitten nrow (MCAS) ja sitten sum(is.na(MCAS)$totsc8)) .
Tässä tapauksessa tiedämme, että 40 puuttuu arvoja 200 havainnosta. Käytetään R:tä laskimena laittamalla 40/200. Siksi meillä on noin 20 % puuttuvia arvoja, mikä on paljon.
Ihannetapauksessa haluamme tietää, miksi niin monet ovat kadoksissa. Ehkä se johtuu vain siitä, miten tiedot kerättiin, minkä vuoksi voimme olettaa tämän.
Tätä varten tuodaan kirjasto (hiiret) -paketti . Tämä on yksi imputointimenetelmistä.
Käytetään sitten funktioita MCAS_pred < –="" quickpred=""> ja plot_pred(MCAS_pred) . Muista tallentaa nämä, napsauta Suorita ja napsauta Zoomaa -painiketta.
Jos aiomme käyttää monimuuttujaimputointia, tämä algoritmi löytää havaintoja ja tietopisteitä, jotka ovat samanlaisia kuin puuttuvat, ja yrittää sitten täyttää ne.
Esimerkiksi spc- sarakkeet. Näistä on apua puuttuvien arvojen ennustamisessa samoin totsc8:n ja avgsalaryn kanssa . Tässä vaiheessa emme tee sitä, mutta näemme, mitkä arvot ja muuttujat liittyvät toisiinsa, mikä saattaa auttaa estämään näitä arvoja.
Kokeillaan vielä yhtä asiaa. Aiomme käyttää ggmicea (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) ja napsauta sitten Suorita .
Tämä on , paitsi että käytämme ggmiceä. Periaatteessa ajatuksena on, että voimme nähdä näiden kahden muuttujan välisen suhteen, joista puuttuu melko vähän arvoja. Kun yksi niistä puuttuu ja toinen on saatavilla, voimme nähdä, missä ne pisteet ovat.
Tässä tilanteessa molemmat näistä havaitaan yhdessä näistä tapauksista. Toinen puuttuu ja toinen ei. Jos molemmat puuttuvat, se ei tule olemaan juonessa.
Johtopäätös
Kun työskentelemme puuttuvien arvojen kanssa, on houkuttelevaa käyttää MICE:n kaltaista algoritmia, koska se on erittäin tehokas arvojen laskemiseen. On kuitenkin parempi tutkia tietoja itse ja ymmärtää, mitä tapahtuu.
Ihannetapauksessa, jos meillä on paljon puuttuvaa dataa, haluamme selvittää syyn ja ehkä voimme yrittää saada lisää tietoja tai voimme laskea sen. Suoraan lähteeseen meneminen on aina parempi.
Jos lopulta haluamme imputoida puuttuvat arvot, voimme tehdä joitain yksinkertaisia imputointimenetelmiä tidyverse-paketilla , kuten keskiarvo tai mediaani.
Epäilemättä MICE-paketti on tehokas. Se voi olla ylivoimaista asioissa, jotka ovat erittäin laskennallisesti intensiivisiä, mutta keskitymme tällä hetkellä vain sen visualisointielementtiin.
Toivottavasti opit jotain ja voit vapaasti käyttää tätä pakettia. Muista jakaa se ja yrittää saada sana julkisuuteen, koska se on mukava paketti puuttuvien arvojen kanssa, jotka ovat ggplot2-yhteensopivia.
Kaikki parhaat,
George
Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.
Tämä lyhyt opetusohjelma korostaa LuckyTemplates-mobiiliraportointiominaisuutta. Näytän sinulle, kuinka voit kehittää raportteja tehokkaasti mobiililaitteille.
Tässä LuckyTemplates Showcase -esittelyssä käymme läpi raportteja, jotka näyttävät ammattitaitoisen palveluanalytiikan yritykseltä, jolla on useita sopimuksia ja asiakkaiden sitoumuksia.
Käy läpi tärkeimmät Power Appsin ja Power Automaten päivitykset sekä niiden edut ja vaikutukset Microsoft Power Platformiin.
Tutustu joihinkin yleisiin SQL-toimintoihin, joita voimme käyttää, kuten merkkijono, päivämäärä ja joitain lisätoimintoja tietojen käsittelyyn tai käsittelyyn.
Tässä opetusohjelmassa opit luomaan täydellisen LuckyTemplates-mallin, joka on määritetty tarpeidesi ja mieltymystesi mukaan.
Tässä blogissa esittelemme, kuinka kerrostat kenttäparametreja pienillä kerroilla uskomattoman hyödyllisten näkemysten ja visuaalien luomiseksi.
Tässä blogissa opit käyttämään LuckyTemplates-sijoitus- ja mukautettuja ryhmittelyominaisuuksia näytetietojen segmentoimiseen ja luokitteluun kriteerien mukaan.
Tässä opetusohjelmassa käsittelen tiettyä tekniikkaa, jolla voit näyttää kumulatiivisen kokonaissumman LuckyTemplates-visuaaleissasi vain tiettyyn päivämäärään asti.
Opi luomaan ja mukauttamaan Bullet-kaavioita LuckyTemplatesissa, joita käytetään pääasiassa suorituskyvyn mittaamiseen suhteessa tavoitteeseen tai edellisiin vuosiin.