Visualisera saknade data i RW/GGMICE

När vi analyserar data vill vi veta nästa steg om hur man hittar de saknade värdena eftersom det mesta inom analys bestäms av olika faktorer. För att hjälpa dig med detta kommer vi att ta itu med att visualisera saknad data i R med hjälp av ggmice -paketet. Du kan se hela videon av denna handledning längst ner på den här bloggen .

"Vad gör jag åt att sakna värden?" Detta är en viktig fråga att ställa när du analyserar data. Vi hoppas alla att de är lätta att hitta eftersom de är kodade som nollor eller NA.

Vi ska ta en titt på några allmänna tumregler och nästa steg. Vi lär oss hur man svarar på frågor som till exempel hur många data saknas? Hur stort är problemet? Kan vi hitta några mönster i datan?

Det finns många sätt att göra detta på men vi kommer att använda visualisering av saknad data i R som den första utforskande starten.

Innehållsförteckning

När du ska släppa och när du ska hitta saknade värden

Om det inte finns något mönster i hur de saknas och det påverkar mindre än 5 % av observationerna, oavsett om det är i kolumnen eller datasetet, kan du släppa de saknade värdena.

Men om det visar sig att det är mer utbrett och du kan hitta några betydande mönster baserat på visualiseringarna, kan du behöva göra något med den datan.

Så istället för att släppa dem kan vi tillskriva dessa eftersom det förmodligen finns en historia om varför dessa värden saknas i mönstret som de är.

Visualisera saknade data i RW/GGMICE

I den här demon kommer vi att använda ett paket som kommer att tillskriva de saknade värdena. Detta är ett nytt paket för att visualisera saknad data i R och det kallas ggmice .

Tanken är att hitta mönstret och hur många värden som saknas, därför kommer vi att titta på plottmönstret och sedan plottprediktormatrisen .

MICE står för multivariate imputation by chained methods . Vi kommer inte in på mekaniken men vi kommer att lära oss hur denna algoritm kommer att imputera vår data om vi använder den.

En annan sak att veta om att visualisera saknad data i R med ggmice är att det verkligen är tänkt att vara ggplot2-kompatibelt , så vi kan bygga några visualiseringar på baksidan av , det berömda visualiseringspaketet. 

Visualisera saknade data i RW/GGMICE

Steg för att visualisera saknade data i R med GGMICE

Låt oss gå vidare och starta upp. Det första vi behöver göra är att importera alla paket som vi behöver genom att skriva in library (ggmice) , library (tidyverse) som inkluderar ggplot2 och library (Ecdat) datauppsättningar.

Biblioteket (Ecdat)-paketet har många bra datamängder att öva på. Det är därför vi använder och importerar det.

Visualisera saknade data i RW/GGMICE

En av datamängderna är hjälp (MCAS) . Låt oss köra hjälpfunktionen på detta.

Som vi kan se är detta från Ecdat, och det är en datauppsättning för testresultat. Denna hjälpdokumentation beskriver var och en av kolumnerna och berättar om var den kom ifrån.

Vi kommer att använda detta för att lära oss om det saknas data och vilket mönster de bildar om det finns några.

Visualisera saknade data i RW/GGMICE

Låt oss använda is.na (MCAS) och klicka på Kör . Som vi kan se finns det ett gäng SANT och FALSKT. Vad vi kan göra är att summera dessa genom att använda funktionen colSums (is.na(MCAS)) eftersom FALSE och TRUE är noll och en förklädd. Detta är vårt sätt att kontrollera om värdet saknas eller inte.

Visualisera saknade data i RW/GGMICE

Som visas nedan finns de saknade värdena i tre kolumner som spc , totsc8 och avgsalary . Vi kan se beskrivningen av dessa kolumner i avsnittet med hjälpdokumentation.

Visualisera saknade data i RW/GGMICE

Dessutom, genom att använda colSums (is.na(MCAS)) / nrow (MCAS) kommer antalet rader att omvandlas till procent. Detta är ett sätt att se på det, men inte det lättaste att göra.

Visualisera saknade data i RW/GGMICE

I det här fallet, låt oss titta på vad ggmice kan göra för oss. Vi använder funktionen browseVignettes (paket = 'ggmice') och klickar sedan på Kör .

Visualisera saknade data i RW/GGMICE

Det finns några vinjetter för den här funktionen, så låt oss välja ggmice och klicka på HTML- länken för att se några användbara handledningar som kan hjälpa.

Visualisera saknade data i RW/GGMICE

Visualisera saknade data i RW/GGMICE

Gå tillbaka till skriptet, låt oss använda funktionen plot_pattern (MCAS) för att skicka datamängden.

Visualisera saknade data i RW/GGMICE

Klicka på Zoom- knappen för att visualisera det bättre. Som illustreras, av 155 observationer har spc 9 saknade värden, 25 för avgsalary och 40 för totsc8 .

Vi ska försöka ta reda på om någon av dessa sammanfaller, hur många som finns och om de tenderar att vara i ett kluster.

Visualisera saknade data i RW/GGMICE

För att korskontrollera detta kan vi prova det analoga sättet genom att använda visningsfunktionen ( MCAS) och sedan klicka på Kör .

Visualisera saknade data i RW/GGMICE

Det här är en slags kalkylbladsvisare där vi kan se alla saknade värden. Vi kan också utöka detta genom att klicka på knappen Källredigerare .

Visualisera saknade data i RW/GGMICE

I likhet med , kan vi se de totala posterna och NA är de saknade värdena. Märkbart är det totala antalet poster i vyn (MCAS) 220 och endast 155 för plot_pattern (MCAS) eftersom det förmodligen fanns fullständiga värden som inte plottades i sig.

Vi kan också se att de tenderar att klunga ihop sig baserat på variablerna och raderna. Men i många fall saknas bara det ena eller det andra. Verkligheten är att det är svårt att göra denna visuella rad för rad, så det är här visualiseringen kommer in.

Visualisera saknade data i RW/GGMICE

Tillräkna de saknade uppgifterna

Nästa sak att göra är att gå tillbaka till vårt skript, skriv sedan in nrow (MCAS) och sedan sum(is.na(MCAS)$totsc8)) .

I det här fallet vet vi att 40 saknar värden av 200 observationer. Låt oss använda R som en kalkylator genom att sätta 40/200. Därför har vi ca 20% saknade värden, vilket är mycket.

Helst vill vi veta varför så många saknas. Kanske är det bara hur informationen samlades in och det är därför vi kan tillskriva detta.

Visualisera saknade data i RW/GGMICE

För att göra det, låt oss importera bibliotekspaketet (möss) . Detta är en av imputeringsmetoderna.

Visualisera saknade data i RW/GGMICE

Låt oss sedan använda funktionerna MCAS_pred < –="" quickpred=""> och plot_pred(MCAS_pred) . Se till att spara dessa, klicka på Kör och klicka på Zoom- knappen.

Visualisera saknade data i RW/GGMICE

Om vi ​​ska använda multivariat imputation kommer denna algoritm att hitta observationer och datapunkter som liknar de som saknas och sedan försöka fylla i dessa.

Till exempel spc- kolumnerna. Dessa kommer att vara användbara för att förutsäga de saknade värdena på samma sätt som totsc8 och avgsalary . Vid det här laget gör vi det inte, men vi ser vilka värden och variabler som är relaterade som kan vara till hjälp för att hindra dessa värden.

Visualisera saknade data i RW/GGMICE

Låt oss prova en sak till. Vi kommer att använda ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) och klicka sedan på Kör .

Detta är en , förutom att vi använder ggmice. I grund och botten är tanken att vi kan se sambandet mellan dessa två variabler som har en hel del saknade värden. När en av dem saknas och den andra är tillgänglig kan vi se var dessa poäng finns.

I denna situation observeras båda dessa i ett av dessa fall. Den ena saknas och den andra inte. Om båda saknas kommer det inte att finnas på tomten.

Visualisera saknade data i RW/GGMICE




Slutsats

När vi arbetar med saknade värden är det frestande att använda en algoritm som MICE eftersom den är väldigt kraftfull att imputera värden. Det är dock bättre att utforska informationen själv och förstå vad som händer.

Helst, om vi har mycket saknad data, vill vi ta reda på varför och kanske kan vi försöka få lite mer data eller så kan vi imputera det. Att gå direkt till källan är alltid att föredra.

Om vi ​​slutar med att vilja imputera de saknade värdena, kan vi göra några enkla imputeringsmetoder med tidyverse-paketet som medelvärdet eller medianen.

Utan tvekan är MICE-paketet kraftfullt. Det kan vara överdrivet för saker som är mycket beräkningsintensiva, men vi fokuserar just nu på bara visualiseringselementet i det.

Jag hoppas att du lär dig något och använd gärna detta paket. Se till att dela det och försök få ut ordet eftersom det är ett trevligt paket att arbeta med saknade värden som är ggplot2-kompatibla.

Med vänliga hälsningar,

George


Lös en dataanalysutmaning med LuckyTemplates Accelerator

Lös en dataanalysutmaning med LuckyTemplates Accelerator

Finslipa dina färdigheter i rapportutveckling genom att gå med i en dataanalysutmaning. Acceleratorn kan hjälpa dig att bli en LuckyTemplates superanvändare!

Löpande summor i LuckyTemplates med DAX

Löpande summor i LuckyTemplates med DAX

Lär dig hur du beräknar löpande summor i LuckyTemplates med DAX. Löpande summor låter dig inte fastna i ett individuellt resultat.

LuckyTemplates Dax-variabler är konstanta: Vad betyder detta?

LuckyTemplates Dax-variabler är konstanta: Vad betyder detta?

Förstå konceptet med variabler i DAX inom LuckyTemplates och konsekvenserna av variabler för hur dina mått beräknas.

LuckyTemplates Slope Chart: En översikt

LuckyTemplates Slope Chart: En översikt

Lär dig mer om den anpassade visual som kallas LuckyTemplates Slope-diagram, som används för att visa ökning/minskning för en enstaka eller flera mätvärden.

LuckyTemplates färgteman för enhetliga visualiseringar

LuckyTemplates färgteman för enhetliga visualiseringar

Upptäck färgteman i LuckyTemplates. Dessa är viktiga för att dina rapporter och visualiseringar ska se ut och fungera sömlöst.

Beräkna medelvärde i LuckyTemplates: Isolera veckodags- eller helgresultat med DAX

Beräkna medelvärde i LuckyTemplates: Isolera veckodags- eller helgresultat med DAX

Att beräkna ett genomsnitt i LuckyTemplates kan göras på många sätt för att ge dig exakt information för dina affärsrapporter.

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

Låt oss fördjupa oss i Standard LuckyTemplates-teman och granska några av funktionerna som är inbyggda i själva LuckyTemplates Desktop-applikationen.

LuckyTemplates Map Visual: Hur man skapar och lägger till en anpassad legend i LuckyTemplates

LuckyTemplates Map Visual: Hur man skapar och lägger till en anpassad legend i LuckyTemplates

I den här handledningen lär du dig hur du bygger en anpassad förklaring i en LuckyTemplates Map Visual för att visa dina föredragna färger och segmentering.

LuckyTemplates bakgrundsbild för rapporter som använder PPT

LuckyTemplates bakgrundsbild för rapporter som använder PPT

Lär dig hur du ställer in en LuckyTemplates-bakgrundsbild med PowerPoint. Detta är en av mina tekniker för att skapa mina LuckyTemplates-rapporter.

Upphandlingsbeslutsmodell och analys i LuckyTemplates

Upphandlingsbeslutsmodell och analys i LuckyTemplates

I den här handledningen kommer vi att dyka in i en del inköpsanalyser inom en organisation, med hjälp av en interagerande funktion och kraften i datamodellen.