Visualisera saknade data i RW/GGMICE

När vi analyserar data vill vi veta nästa steg om hur man hittar de saknade värdena eftersom det mesta inom analys bestäms av olika faktorer. För att hjälpa dig med detta kommer vi att ta itu med att visualisera saknad data i R med hjälp av ggmice -paketet. Du kan se hela videon av denna handledning längst ner på den här bloggen .

"Vad gör jag åt att sakna värden?" Detta är en viktig fråga att ställa när du analyserar data. Vi hoppas alla att de är lätta att hitta eftersom de är kodade som nollor eller NA.

Vi ska ta en titt på några allmänna tumregler och nästa steg. Vi lär oss hur man svarar på frågor som till exempel hur många data saknas? Hur stort är problemet? Kan vi hitta några mönster i datan?

Det finns många sätt att göra detta på men vi kommer att använda visualisering av saknad data i R som den första utforskande starten.

Innehållsförteckning

När du ska släppa och när du ska hitta saknade värden
Steg för att visualisera saknade data i R med GGMICE
Tillräkna de saknade uppgifterna
Slutsats

När du ska släppa och när du ska hitta saknade värden

Om det inte finns något mönster i hur de saknas och det påverkar mindre än 5 % av observationerna, oavsett om det är i kolumnen eller datasetet, kan du släppa de saknade värdena.

Men om det visar sig att det är mer utbrett och du kan hitta några betydande mönster baserat på visualiseringarna, kan du behöva göra något med den datan.

Så istället för att släppa dem kan vi tillskriva dessa eftersom det förmodligen finns en historia om varför dessa värden saknas i mönstret som de är.

Visualisera saknade data i RW/GGMICE

I den här demon kommer vi att använda ett paket som kommer att tillskriva de saknade värdena. Detta är ett nytt paket för att visualisera saknad data i R och det kallas ggmice .

Tanken är att hitta mönstret och hur många värden som saknas, därför kommer vi att titta på plottmönstret och sedan plottprediktormatrisen .

MICE står för multivariate imputation by chained methods . Vi kommer inte in på mekaniken men vi kommer att lära oss hur denna algoritm kommer att imputera vår data om vi använder den.

En annan sak att veta om att visualisera saknad data i R med ggmice är att det verkligen är tänkt att vara ggplot2-kompatibelt , så vi kan bygga några visualiseringar på baksidan av , det berömda visualiseringspaketet.

Visualisera saknade data i RW/GGMICE

Steg för att visualisera saknade data i R med GGMICE

Låt oss gå vidare och starta upp. Det första vi behöver göra är att importera alla paket som vi behöver genom att skriva in library (ggmice) , library (tidyverse) som inkluderar ggplot2 och library (Ecdat) datauppsättningar.

Biblioteket (Ecdat)-paketet har många bra datamängder att öva på. Det är därför vi använder och importerar det.

Visualisera saknade data i RW/GGMICE

En av datamängderna är hjälp (MCAS) . Låt oss köra hjälpfunktionen på detta.

Som vi kan se är detta från Ecdat, och det är en datauppsättning för testresultat. Denna hjälpdokumentation beskriver var och en av kolumnerna och berättar om var den kom ifrån.

Vi kommer att använda detta för att lära oss om det saknas data och vilket mönster de bildar om det finns några.

Visualisera saknade data i RW/GGMICE

Låt oss använda is.na (MCAS) och klicka på Kör . Som vi kan se finns det ett gäng SANT och FALSKT. Vad vi kan göra är att summera dessa genom att använda funktionen colSums (is.na(MCAS)) eftersom FALSE och TRUE är noll och en förklädd. Detta är vårt sätt att kontrollera om värdet saknas eller inte.

Visualisera saknade data i RW/GGMICE

Som visas nedan finns de saknade värdena i tre kolumner som spc , totsc8 och avgsalary . Vi kan se beskrivningen av dessa kolumner i avsnittet med hjälpdokumentation.

Visualisera saknade data i RW/GGMICE

Dessutom, genom att använda colSums (is.na(MCAS)) / nrow (MCAS) kommer antalet rader att omvandlas till procent. Detta är ett sätt att se på det, men inte det lättaste att göra.

Visualisera saknade data i RW/GGMICE

I det här fallet, låt oss titta på vad ggmice kan göra för oss. Vi använder funktionen browseVignettes (paket = 'ggmice') och klickar sedan på Kör .

Visualisera saknade data i RW/GGMICE

Det finns några vinjetter för den här funktionen, så låt oss välja ggmice och klicka på HTML- länken för att se några användbara handledningar som kan hjälpa.

Visualisera saknade data i RW/GGMICE

Visualisera saknade data i RW/GGMICE

Gå tillbaka till skriptet, låt oss använda funktionen plot_pattern (MCAS) för att skicka datamängden.

Visualisera saknade data i RW/GGMICE

Klicka på Zoom- knappen för att visualisera det bättre. Som illustreras, av 155 observationer har spc 9 saknade värden, 25 för avgsalary och 40 för totsc8 .

Vi ska försöka ta reda på om någon av dessa sammanfaller, hur många som finns och om de tenderar att vara i ett kluster.

Visualisera saknade data i RW/GGMICE

För att korskontrollera detta kan vi prova det analoga sättet genom att använda visningsfunktionen ( MCAS) och sedan klicka på Kör .

Visualisera saknade data i RW/GGMICE

Det här är en slags kalkylbladsvisare där vi kan se alla saknade värden. Vi kan också utöka detta genom att klicka på knappen Källredigerare .

Visualisera saknade data i RW/GGMICE

I likhet med , kan vi se de totala posterna och NA är de saknade värdena. Märkbart är det totala antalet poster i vyn (MCAS) 220 och endast 155 för plot_pattern (MCAS) eftersom det förmodligen fanns fullständiga värden som inte plottades i sig.

Vi kan också se att de tenderar att klunga ihop sig baserat på variablerna och raderna. Men i många fall saknas bara det ena eller det andra. Verkligheten är att det är svårt att göra denna visuella rad för rad, så det är här visualiseringen kommer in.

Visualisera saknade data i RW/GGMICE

Tillräkna de saknade uppgifterna

Nästa sak att göra är att gå tillbaka till vårt skript, skriv sedan in nrow (MCAS) och sedan sum(is.na(MCAS)$totsc8)) .

I det här fallet vet vi att 40 saknar värden av 200 observationer. Låt oss använda R som en kalkylator genom att sätta 40/200. Därför har vi ca 20% saknade värden, vilket är mycket.

Helst vill vi veta varför så många saknas. Kanske är det bara hur informationen samlades in och det är därför vi kan tillskriva detta.

Visualisera saknade data i RW/GGMICE

För att göra det, låt oss importera bibliotekspaketet (möss) . Detta är en av imputeringsmetoderna.

Visualisera saknade data i RW/GGMICE

Låt oss sedan använda funktionerna MCAS_pred < –="" quickpred=""> och plot_pred(MCAS_pred) . Se till att spara dessa, klicka på Kör och klicka på Zoom- knappen.

Visualisera saknade data i RW/GGMICE

Om vi ska använda multivariat imputation kommer denna algoritm att hitta observationer och datapunkter som liknar de som saknas och sedan försöka fylla i dessa.

Till exempel spc- kolumnerna. Dessa kommer att vara användbara för att förutsäga de saknade värdena på samma sätt som totsc8 och avgsalary . Vid det här laget gör vi det inte, men vi ser vilka värden och variabler som är relaterade som kan vara till hjälp för att hindra dessa värden.

Visualisera saknade data i RW/GGMICE

Låt oss prova en sak till. Vi kommer att använda ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) och klicka sedan på Kör .

Detta är en , förutom att vi använder ggmice. I grund och botten är tanken att vi kan se sambandet mellan dessa två variabler som har en hel del saknade värden. När en av dem saknas och den andra är tillgänglig kan vi se var dessa poäng finns.

I denna situation observeras båda dessa i ett av dessa fall. Den ena saknas och den andra inte. Om båda saknas kommer det inte att finnas på tomten.

Visualisera saknade data i RW/GGMICE

Slutsats

När vi arbetar med saknade värden är det frestande att använda en algoritm som MICE eftersom den är väldigt kraftfull att imputera värden. Det är dock bättre att utforska informationen själv och förstå vad som händer.

Helst, om vi har mycket saknad data, vill vi ta reda på varför och kanske kan vi försöka få lite mer data eller så kan vi imputera det. Att gå direkt till källan är alltid att föredra.

Om vi slutar med att vilja imputera de saknade värdena, kan vi göra några enkla imputeringsmetoder med tidyverse-paketet som medelvärdet eller medianen.

Utan tvekan är MICE-paketet kraftfullt. Det kan vara överdrivet för saker som är mycket beräkningsintensiva, men vi fokuserar just nu på bara visualiseringselementet i det.

Jag hoppas att du lär dig något och använd gärna detta paket. Se till att dela det och försök få ut ordet eftersom det är ett trevligt paket att arbeta med saknade värden som är ggplot2-kompatibla.

Med vänliga hälsningar,

George

Lämna en kommentar

Skapa en datumtabell i LuckyTemplates

Skapa en datumtabell i LuckyTemplates

Ta reda på varför det är viktigt att ha en dedikerad datumtabell i LuckyTemplates och lär dig det snabbaste och mest effektiva sättet att göra det.

LuckyTemplates mobilrapporteringstips och tekniker

LuckyTemplates mobilrapporteringstips och tekniker

Denna korta handledning belyser LuckyTemplates mobilrapporteringsfunktion. Jag ska visa dig hur du kan utveckla rapporter effektivt för mobila enheter.

Professional Service Analytics-rapporter i LuckyTemplates

Professional Service Analytics-rapporter i LuckyTemplates

I denna LuckyTemplates Showcase går vi igenom rapporter som visar professionell serviceanalys från ett företag som har flera kontrakt och kundengagemang.

Vanliga SQL-funktioner: En översikt

Vanliga SQL-funktioner: En översikt

Upptäck några vanliga SQL-funktioner som vi kan använda som sträng, datum och några avancerade funktioner för att bearbeta eller manipulera data.

Microsoft Power Platform-uppdateringar | Microsoft Ignite 2021

Microsoft Power Platform-uppdateringar | Microsoft Ignite 2021

Gå igenom de viktigaste uppdateringarna för Power Apps och Power Automate och deras fördelar och konsekvenser för Microsoft Power Platform.

Fältparametrar och små multiplar i LuckyTemplates

Fältparametrar och små multiplar i LuckyTemplates

I den här bloggen kommer vi att visa hur man lager fältparametrar med små multiplar för att skapa otroligt användbara insikter och bilder.

LuckyTemplates Skapa mall: Guide och tips

LuckyTemplates Skapa mall: Guide och tips

I den här handledningen kommer du att lära dig hur du skapar din perfekta LuckyTemplates-mall som är konfigurerad efter dina behov och preferenser.

LuckyTemplates Rank och anpassad gruppering

LuckyTemplates Rank och anpassad gruppering

I den här bloggen kommer du att lära dig hur du använder LuckyTemplates ranknings- och anpassade grupperingsfunktioner för att segmentera en exempeldata och rangordna den enligt kriterier.

Punktdiagram: Avancerade anpassade bilder för LuckyTemplates

Punktdiagram: Avancerade anpassade bilder för LuckyTemplates

Lär dig hur du skapar och anpassar punktdiagram i LuckyTemplates, som huvudsakligen används för att mäta prestanda mot mål eller tidigare år.

Visar kumulativ total endast upp till ett visst datum i LuckyTemplates

Visar kumulativ total endast upp till ett visst datum i LuckyTemplates

I den här handledningen kommer jag att täcka en specifik teknik kring hur man visar Kumulativ total endast upp till ett specifikt datum i dina bilder i LuckyTemplates.