Visualisering af manglende data i RW/GGMICE

Når vi analyserer data, vil vi gerne vide de næste trin til, hvordan man finder de manglende værdier, fordi det meste i analytics er bestemt af forskellige faktorer. For at hjælpe dig med dette, vil vi tackle visualisering af manglende data i R ved hjælp af ggmice -pakken. Du kan se den fulde video af denne tutorial nederst på denne blog .

"Hvad gør jeg ved manglende værdier?" Dette er et vigtigt spørgsmål at stille, når du analyserer data. Vi håber alle, at de er nemme at finde, da de er kodet som nuller eller NA'er.

Vi tager et kig på nogle generelle tommelfingerregler og næste trin. Vi lærer, hvordan man besvarer spørgsmål som f.eks. hvor mange manglende data er der? Hvor stort er problemet? Kan vi finde nogle mønstre i dataene?

Der er mange måder at gøre dette på, men vi vil bruge visualisering af manglende data i R som den første udforskende start.

Indholdsfortegnelse

Hvornår skal man droppe, og hvornår man finder manglende værdier
Trin til visualisering af manglende data i R med GGMICE
Imputering af de manglende data
Konklusion

Hvornår skal man droppe, og hvornår man finder manglende værdier

Hvis der ikke er noget mønster i, hvordan de mangler, og det påvirker mindre end 5 % af observationerne, uanset om det er i kolonnen eller datasættet, så kan du droppe de manglende værdier.

Men hvis det viser sig, at det er mere udbredt, og du kan finde nogle væsentlige mønstre baseret på visualiseringerne, så skal du muligvis gøre noget med disse data.

Så i stedet for at droppe dem, kan vi tilregne dem, fordi der sandsynligvis er en historie om, hvorfor disse værdier mangler i mønsteret, som de er.

Visualisering af manglende data i RW/GGMICE

I denne demo vil vi bruge en pakke, der vil imputere de manglende værdier. Dette er en ny pakke til visualisering af manglende data i R, og den hedder ggmice .

Ideen er at finde mønsteret og hvor mange manglende værdier, derfor vil vi se på plotmønsteret og derefter plotprædiktormatricen .

MICE står for multivariat imputation ved kædede metoder . Vi kommer ikke ind i mekanikken, men vi vil lære, hvordan denne algoritme vil imputere vores data, hvis vi bruger dem.

En anden ting at vide om visualisering af manglende data i R ved hjælp af ggmice er, at det virkelig er meningen, at det skal være ggplot2-kompatibelt , så vi er i stand til at bygge nogle visualiseringer på bagsiden af , den berømte visualiseringspakke.

Visualisering af manglende data i RW/GGMICE

Trin til visualisering af manglende data i R med GGMICE

Lad os gå videre og starte op. Den første ting, vi skal gøre, er at importere alle de pakker, vi har brug for, ved at indtaste bibliotek (ggmice) , bibliotek (tidyverse) , som inkluderer ggplot2, og bibliotek (Ecdat) datasæt.

Biblioteket (Ecdat)-pakken har en masse gode datasæt at øve sig på. Det er derfor, vi bruger og importerer det.

Visualisering af manglende data i RW/GGMICE

Et af datasættene er hjælp (MCAS) . Lad os køre hjælpefunktionen på dette.

Som vi kan se, er dette fra Ecdat, og det er et testresultatdatasæt. Denne hjælpedokumentation beskriver hver af kolonnerne og fortæller os, hvor den kom fra.

Vi vil bruge dette til at lære, om der mangler data, og hvilket mønster de danner, hvis der er nogen.

Visualisering af manglende data i RW/GGMICE

Lad os bruge is.na (MCAS) og klik på Kør . Som vi kan se, er der en masse SAND og FALSK. Det, vi kan gøre, er at opsummere disse ved at bruge funktionen colSums (is.na(MCAS)), fordi FALSE og TRUE er nul og én i forklædning. Dette er vores måde at kontrollere, om værdien mangler eller ej.

Visualisering af manglende data i RW/GGMICE

Som vist nedenfor findes de manglende værdier i tre kolonner såsom spc , totsc8 og avgsalary . Vi kan se beskrivelsen af disse kolonner i hjælpedokumentationsafsnittet.

Visualisering af manglende data i RW/GGMICE

Ved at bruge colSums (is.na(MCAS)) / nrow (MCAS) vil antallet af rækker også blive til procenter. Dette er en måde at se det på, men ikke den nemmeste ting at gøre.

Visualisering af manglende data i RW/GGMICE

Lad os i dette tilfælde se på, hvad ggmice kan gøre for os. Vi bruger funktionen browseVignettes (pakke = 'ggmice') og klik derefter på Kør .

Visualisering af manglende data i RW/GGMICE

Der er fundet nogle vignetter til denne funktion, så lad os vælge ggmice og klikke på HTML- linket for at se nogle nyttige selvstudier, der kan hjælpe.

Visualisering af manglende data i RW/GGMICE

Visualisering af manglende data i RW/GGMICE

Går tilbage til scriptet, lad os bruge funktionen plot_pattern (MCAS) til at videregive datasættet.

Visualisering af manglende data i RW/GGMICE

For at visualisere det bedre, klik på Zoom- knappen. Som illustreret har spc ud af 155 observationer 9 manglende værdier, 25 for gennemsnitsløn og 40 for totsc8 .

Vi vil forsøge at finde ud af, om nogen af disse er sammenfaldende, hvor mange der er, og om de har tendens til at være i en klynge.

Visualisering af manglende data i RW/GGMICE

For at krydstjekke dette kan vi prøve den analoge måde ved at bruge visningsfunktionen (MCAS) og derefter klikke på Kør .

Visualisering af manglende data i RW/GGMICE

Dette er en slags regnearksfremviser, hvor vi kan se alle de manglende værdier. Vi kan også udvide dette ved at klikke på knappen Kildeeditor .

Visualisering af manglende data i RW/GGMICE

I lighed med , kan vi se de samlede posteringer, og NA'erne er de manglende værdier. Det er bemærkelsesværdigt, at de samlede indgange på visningen (MCAS) er 220 og kun 155 for plot_pattern (MCAS), fordi der sandsynligvis var komplette værdier, der ikke var plottet i sig selv.

Vi kan også se, at de har en tendens til at klynge sig sammen baseret på variablerne og rækkerne. Men i mange tilfælde mangler kun det ene eller det andet. Virkeligheden er, at det er svært at gøre denne visuelle række for række, så det er her, visualiseringen kommer ind.

Visualisering af manglende data i RW/GGMICE

Imputering af de manglende data

Den næste ting at gøre er at gå tilbage til vores script, derefter indtaste nrow (MCAS) og derefter sum(is.na(MCAS)$totsc8)) .

I dette tilfælde ved vi, at 40 mangler værdier ud af 200 observationer. Lad os bruge R som lommeregner ved at sætte 40/200. Derfor mangler vi omkring 20 % værdier, hvilket er meget.

Ideelt set vil vi gerne vide, hvorfor så mange mangler. Måske er det bare, hvordan dataene blev indsamlet, hvorfor vi kan imputere dette.

Visualisering af manglende data i RW/GGMICE

For at gøre det, lad os importere bibliotekspakken (mus) . Dette er en af imputationsmetoderne.

Visualisering af manglende data i RW/GGMICE

Lad os derefter bruge funktionerne MCAS_pred < –="" quickpred=""> og plot_pred(MCAS_pred) . Sørg for at gemme disse, klik på Kør og klik på knappen Zoom .

Visualisering af manglende data i RW/GGMICE

Hvis vi skal bruge multivariat imputation, vil denne algoritme finde observationer og datapunkter, der ligner dem, der mangler, og derefter forsøge at udfylde dem.

For eksempel spc- kolonnerne. Disse vil være nyttige til at forudsige de manglende værdier på samme måde som totsc8 og avgsalary . På dette tidspunkt gør vi det ikke, men vi ser, hvilke værdier og variabler der er relaterede, der kan være nyttige for at hindre disse værdier.

Visualisering af manglende data i RW/GGMICE

Lad os prøve en ting mere. Vi skal bruge ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , og klik derefter på Kør .

Dette er en , bortset fra at vi bruger ggmice. Grundlæggende er ideen, at vi kan se sammenhængen mellem disse to variable, der har en del manglende værdier. Når en af dem mangler, og den anden er tilgængelig, kan vi se, hvor disse punkter er.

I denne situation observeres begge disse i et af disse tilfælde. Den ene mangler, og den anden er ikke. Hvis begge mangler, kommer det ikke med på plottet.

Visualisering af manglende data i RW/GGMICE

Konklusion

Når vi arbejder med manglende værdier, er det fristende at bruge en algoritme som MICE, fordi den er meget kraftfuld til at imputere værdier. Det er dog bedre selv at udforske dataene og forstå, hvad der foregår.

Ideelt set, hvis vi har mange manglende data, vil vi gerne finde ud af hvorfor, og måske kan vi prøve at få nogle flere data, eller vi kan imputere dem. Det foretrækkes altid at gå direkte til kilden.

Hvis vi ender med at ville imputere de manglende værdier, kan vi lave nogle simple imputeringsmetoder med tidyverse-pakken, såsom middelværdien eller medianen.

Uden tvivl er MICE-pakken kraftfuld. Det kan være overkill for ting, der er meget beregningsintensive, men vi fokuserer lige nu på kun visualiseringselementet af det.

Jeg håber, du lærer noget, og du er velkommen til at bruge denne pakke. Sørg for at dele det og prøv at få ordet ud, fordi det er en god pakke at arbejde med manglende værdier, der er ggplot2-kompatible.

Alt det bedste,

George

Efterlad en kommentar

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.

Oprettelse af en datotabel i LuckyTemplates

Oprettelse af en datotabel i LuckyTemplates

Find ud af, hvorfor det er vigtigt at have en dedikeret datotabel i LuckyTemplates, og lær den hurtigste og mest effektive måde at gøre det på.

LuckyTemplates Mobile Reporting Tips og teknikker

LuckyTemplates Mobile Reporting Tips og teknikker

Denne korte vejledning fremhæver LuckyTemplates mobilrapporteringsfunktion. Jeg vil vise dig, hvordan du kan udvikle rapporter effektivt til mobilenheder.

Professionelle serviceanalyserapporter i LuckyTemplates

Professionelle serviceanalyserapporter i LuckyTemplates

I denne LuckyTemplates Showcase gennemgår vi rapporter, der viser professionel serviceanalyse fra et firma, der har flere kontrakter og kundeengagementer.

Almindelige SQL-funktioner: En oversigt

Almindelige SQL-funktioner: En oversigt

Opdag nogle almindelige SQL-funktioner, som vi kan bruge, såsom streng, dato og nogle avancerede funktioner til at behandle eller manipulere data.

Microsoft Power Platform-opdateringer | Microsoft Ignite 2021

Microsoft Power Platform-opdateringer | Microsoft Ignite 2021

Gå gennem de vigtigste opdateringer til Power Apps og Power Automate og deres fordele og implikationer for Microsoft Power Platform.

Feltparametre og små multipler i LuckyTemplates

Feltparametre og små multipler i LuckyTemplates

I denne blog vil vi demonstrere, hvordan man lagdelte feltparametre med små multipler for at skabe utrolig nyttig indsigt og visuals.

LuckyTemplates skabelonoprettelse: Guide og tips

LuckyTemplates skabelonoprettelse: Guide og tips

I denne tutorial lærer du, hvordan du opretter din perfekte LuckyTemplates-skabelon, der er konfigureret til dine behov og præferencer.

LuckyTemplates-rangering og brugerdefineret gruppering

LuckyTemplates-rangering og brugerdefineret gruppering

I denne blog vil du lære, hvordan du bruger LuckyTemplates rangerings- og brugerdefinerede grupperingsfunktioner til at segmentere et eksempeldata og rangordne det efter kriterier.

Punktdiagrammer: Avancerede brugerdefinerede billeder til Lucky Templates

Punktdiagrammer: Avancerede brugerdefinerede billeder til Lucky Templates

Lær, hvordan du opretter og tilpasser Bullet-diagrammer i LuckyTemplates, som hovedsageligt bruges til at måle ydeevne i forhold til mål eller tidligere år.