Visualiserer manglende data i RW/GGMICE

Når vi analyserer data, ønsker vi å vite de neste trinnene for å finne de manglende verdiene, fordi det meste i analyse bestemmes av forskjellige faktorer. For å hjelpe deg med dette, vil vi takle visualisering av manglende data i R ved å bruke ggmice -pakken. Du kan se hele videoen av denne opplæringen nederst på denne bloggen .

"Hva gjør jeg med manglende verdier?" Dette er et viktig spørsmål å stille når du analyserer data. Vi håper alle at de er enkle å finne siden de er kodet som null eller NA.

Vi tar en titt på noen generelle tommelfingerregler og neste trinn. Vi lærer hvordan du svarer på spørsmål som for eksempel hvor mange manglende data er det? Hvor stort er problemet? Kan vi finne noen mønstre i dataene?

Det er mange måter å gjøre dette på, men vi kommer til å bruke visualisering av manglende data i R som den første utforskende starten.

Innholdsfortegnelse

Når du skal droppe og når du skal finne manglende verdier

Hvis det ikke er noe mønster i hvordan de mangler og det påvirker mindre enn 5 % av observasjonene, enten det er i kolonnen eller datasettet, kan du droppe de manglende verdiene.

Men hvis det viser seg at det er mer utbredt og du kan finne noen betydelige mønstre basert på visualiseringene, må du kanskje gjøre noe med disse dataene.

Så i stedet for å droppe dem, kan vi tilskrive disse fordi det sannsynligvis er en historie om hvorfor disse verdiene mangler i mønsteret som de er.

Visualiserer manglende data i RW/GGMICE

I denne demoen vil vi bruke en pakke som vil imputere de manglende verdiene. Dette er en ny pakke for å visualisere manglende data i R og den kalles ggmice .

Ideen er å finne mønsteret og hvor mange manglende verdier, derfor vil vi se på plottmønsteret og deretter plottprediktormatrisen .

MICE står for multivariat imputasjon ved kjedede metoder . Vi kommer ikke inn i mekanikken, men vi vil lære hvordan denne algoritmen vil tilskrive dataene våre hvis vi bruker den.

En annen ting å vite om å visualisere manglende data i R ved å bruke ggmice er at det egentlig er ment å være ggplot2-kompatibelt , så vi kan bygge noen visualiseringer på baksiden av , den berømte visualiseringspakken. 

Visualiserer manglende data i RW/GGMICE

Trinn for å visualisere manglende data i R med GGMICE

La oss gå videre og starte opp. Det første vi må gjøre er å importere alle pakkene vi trenger ved å skrive inn bibliotek (ggmice) , library (tidyverse) som inkluderer ggplot2 og bibliotek (Ecdat) datasett.

Biblioteket (Ecdat)-pakken har mange gode datasett å øve på. Det er derfor vi bruker og importerer det.

Visualiserer manglende data i RW/GGMICE

Et av datasettene er hjelp (MCAS) . La oss kjøre hjelpefunksjonen på dette.

Som vi kan se, er dette fra Ecdat, og det er et sett med testresultater. Denne hjelpedokumentasjonen beskriver hver av kolonnene og forteller oss om hvor den kom fra.

Vi skal bruke dette til å finne ut om det mangler data og hvilket mønster de danner hvis det er noen.

Visualiserer manglende data i RW/GGMICE

La oss bruke is.na (MCAS) og klikk Kjør . Som vi kan se, er det en haug med SANN og USANN. Det vi kan gjøre er å summere disse ved å bruke funksjonen colSums (is.na(MCAS)), fordi FALSE og TRUE er null og én i forkledning. Dette er vår måte å sjekke om verdien mangler eller ikke.

Visualiserer manglende data i RW/GGMICE

Som vist nedenfor finnes de manglende verdiene i tre kolonner som spc , totsc8 og avgsalary . Vi kan se beskrivelsen av disse kolonnene i hjelpedokumentasjonsdelen.

Visualiserer manglende data i RW/GGMICE

Ved å bruke colSums (is.na(MCAS)) / nrow (MCAS) vil antall rader også bli til prosenter. Dette er en måte å se det på, men ikke den enkleste tingen å gjøre.

Visualiserer manglende data i RW/GGMICE

I dette tilfellet, la oss se på hva ggmice kan gjøre for oss. Vi bruker funksjonen browseVignettes (pakke = 'ggmice') , og klikker deretter Kjør .

Visualiserer manglende data i RW/GGMICE

Det er noen vignetter funnet for denne funksjonen, så la oss velge ggmice og klikke på HTML- lenken for å se noen nyttige veiledninger som kan hjelpe.

Visualiserer manglende data i RW/GGMICE

Visualiserer manglende data i RW/GGMICE

Gå tilbake til skriptet, la oss bruke plot_pattern (MCAS) funksjonen for å sende datasettet.

Visualiserer manglende data i RW/GGMICE

For å visualisere det bedre, klikk på Zoom- knappen. Som illustrert, av 155 observasjoner, har spc 9 manglende verdier, 25 for gjennomsnittslønn og 40 for totsc8 .

Vi skal prøve å finne ut om noen av disse er sammenfallende, hvor mange er det, og om de har en tendens til å være i en klynge.

Visualiserer manglende data i RW/GGMICE

For å krysssjekke dette kan vi prøve den analoge måten ved å bruke visningsfunksjonen (MCAS) og deretter klikke Kjør .

Visualiserer manglende data i RW/GGMICE

Dette er en slags regnearkvisning der vi kan se alle de manglende verdiene. Vi kan også utvide dette ved å klikke på kilderedigeringsknappen .

Visualiserer manglende data i RW/GGMICE

I likhet med , kan vi se de totale oppføringene og NA-ene er de manglende verdiene. Merkbart at det totale antallet oppføringer på visningen (MCAS) er 220, og bare 155 for plot_pattern (MCAS) fordi det sannsynligvis var fullstendige verdier som ikke ble plottet i seg selv.

Vi kan også se at de har en tendens til å klynge seg sammen basert på variablene og radene. Men i mange tilfeller mangler bare den ene eller den andre. Realiteten er at det er vanskelig å gjøre denne visuelle rad for rad, så det er her visualiseringen kommer inn.

Visualiserer manglende data i RW/GGMICE

Imputere de manglende dataene

Den neste tingen å gjøre er å gå tilbake til skriptet vårt, deretter skrive inn nrow (MCAS) og deretter sum(is.na(MCAS)$totsc8)) .

I dette tilfellet vet vi at 40 mangler verdier av 200 observasjoner. La oss bruke R som kalkulator ved å sette 40/200. Derfor har vi omtrent 20 % manglende verdier, noe som er mye.

Ideelt sett ønsker vi å vite hvorfor så mange mangler. Kanskje det bare er hvordan dataene ble samlet inn som er grunnen til at vi kan tilskrive dette.

Visualiserer manglende data i RW/GGMICE

For å gjøre det, la oss importere biblioteket (mus)-pakken . Dette er en av imputeringsmetodene.

Visualiserer manglende data i RW/GGMICE

La oss deretter bruke funksjonene MCAS_pred < –="" quickpred=""> og plot_pred(MCAS_pred) . Sørg for å lagre disse, klikk Kjør og klikk på Zoom- knappen.

Visualiserer manglende data i RW/GGMICE

Hvis vi skal bruke multivariat imputasjon, vil denne algoritmen finne observasjoner og datapunkter som ligner på de som mangler, og deretter prøve å fylle ut disse.

For eksempel spc- kolonnene. Disse vil være nyttige for å forutsi de manglende verdiene på samme måte som totsc8 og avgsalary . På dette tidspunktet gjør vi det ikke, men vi ser hvilke verdier og variabler som kan være nyttige for å hindre disse verdiene.

Visualiserer manglende data i RW/GGMICE

La oss prøve en ting til. Vi skal bruke ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , og klikk deretter Kjør .

Dette er en , bortsett fra at vi bruker ggmice. I utgangspunktet er ideen at vi kan se forholdet mellom disse to variablene som har ganske mange manglende verdier. Når en av dem mangler og den andre er tilgjengelig, kan vi se hvor disse punktene er.

I denne situasjonen er begge disse observert i ett av disse tilfellene. Den ene mangler og den andre er ikke. Hvis begge mangler, kommer det ikke til å være på tomten.

Visualiserer manglende data i RW/GGMICE




Konklusjon

Når vi jobber med manglende verdier, er det fristende å bruke en algoritme som MICE fordi den er veldig kraftig å imputere verdier. Det er imidlertid bedre å utforske dataene selv og forstå hva som skjer.

Ideelt sett, hvis vi har mange manglende data, ønsker vi å finne ut hvorfor, og kanskje vi kan prøve å få litt mer data, eller vi kan tilskrive det. Å gå rett til kilden er alltid foretrukket.

Hvis vi ender opp med å ønske å imputere de manglende verdiene, kan vi gjøre noen enkle imputeringsmetoder med tidyverse-pakken som gjennomsnittet eller medianen.

Uten tvil er MICE-pakken kraftig. Det kan være overkill for ting som er svært beregningsintensive, men vi er fokusert akkurat nå på visualiseringselementet i det.

Jeg håper du lærer noe og bruk gjerne denne pakken. Sørg for å dele det og prøv å få ordet ut fordi det er en fin pakke å jobbe med manglende verdier som er ggplot2-kompatible.

Beste ønsker,

George


Løs en dataanalyseutfordring med LuckyTemplates Accelerator

Løs en dataanalyseutfordring med LuckyTemplates Accelerator

Utvid rapportutviklingsferdighetene dine ved å bli med i en dataanalyseutfordring. Akseleratoren kan hjelpe deg å bli en LuckyTemplates-superbruker!

Løpende totaler i LuckyTemplates ved hjelp av DAX

Løpende totaler i LuckyTemplates ved hjelp av DAX

Lær hvordan du beregner løpende totaler i LuckyTemplates ved hjelp av DAX. Løpende totaler lar deg ikke bli fanget opp i et individuelt resultat.

LuckyTemplates Dax-variabler er konstante: Hva betyr dette?

LuckyTemplates Dax-variabler er konstante: Hva betyr dette?

Forstå konseptet med variabler i DAX i LuckyTemplates og implikasjonene av variabler for hvordan målene dine beregnes.

LuckyTemplates Slope Chart: En oversikt

LuckyTemplates Slope Chart: En oversikt

Lær mer om det tilpassede visuelle bildet kalt LuckyTemplates Slope-diagram, som brukes til å vise økning/reduksjon for en enkelt eller flere beregninger.

LuckyTemplates fargetemaer for enhetlige visualiseringer

LuckyTemplates fargetemaer for enhetlige visualiseringer

Oppdag fargetemaene i LuckyTemplates. Disse er avgjørende for at rapportene og visualiseringene dine skal se ut og fungere sømløst.

Beregne gjennomsnitt i LuckyTemplates: Isolere ukedag- eller helgeresultater ved hjelp av DAX

Beregne gjennomsnitt i LuckyTemplates: Isolere ukedag- eller helgeresultater ved hjelp av DAX

Å beregne et gjennomsnitt i LuckyTemplates kan gjøres på mange måter for å gi deg nøyaktig informasjon for bedriftsrapportene dine.

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

La oss fordype oss i Standard LuckyTemplates-tema, og gjennomgå noen av funksjonene som er innebygd i selve LuckyTemplates Desktop-applikasjonen.

LuckyTemplates Map Visual: Hvordan lage og legge til en egendefinert legende i LuckyTemplates

LuckyTemplates Map Visual: Hvordan lage og legge til en egendefinert legende i LuckyTemplates

I denne opplæringen lærer du hvordan du bygger en egendefinert legende i en LuckyTemplates Map Visual for å vise dine foretrukne farger og segmentering.

LuckyTemplates bakgrunnsbilde for rapporter som bruker PPT

LuckyTemplates bakgrunnsbilde for rapporter som bruker PPT

Lær hvordan du setter opp et LuckyTemplates-bakgrunnsbilde ved hjelp av PowerPoint. Dette er en av teknikkene mine for å lage mine LuckyTemplates-rapporter.

Anskaffelsesbeslutningsmodell og analyse i LuckyTemplates

Anskaffelsesbeslutningsmodell og analyse i LuckyTemplates

I denne opplæringen skal vi dykke ned i noen innkjøpsanalyser i en organisasjon, ved å bruke en interaksjonsfunksjon og kraften til datamodellen.