Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion
Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.
Når vi analyserer data, vil vi gerne vide de næste trin til, hvordan man finder de manglende værdier, fordi det meste i analytics er bestemt af forskellige faktorer. For at hjælpe dig med dette, vil vi tackle visualisering af manglende data i R ved hjælp af ggmice -pakken. Du kan se den fulde video af denne tutorial nederst på denne blog .
"Hvad gør jeg ved manglende værdier?" Dette er et vigtigt spørgsmål at stille, når du analyserer data. Vi håber alle, at de er nemme at finde, da de er kodet som nuller eller NA'er.
Vi tager et kig på nogle generelle tommelfingerregler og næste trin. Vi lærer, hvordan man besvarer spørgsmål som f.eks. hvor mange manglende data er der? Hvor stort er problemet? Kan vi finde nogle mønstre i dataene?
Der er mange måder at gøre dette på, men vi vil bruge visualisering af manglende data i R som den første udforskende start.
Indholdsfortegnelse
Hvornår skal man droppe, og hvornår man finder manglende værdier
Hvis der ikke er noget mønster i, hvordan de mangler, og det påvirker mindre end 5 % af observationerne, uanset om det er i kolonnen eller datasættet, så kan du droppe de manglende værdier.
Men hvis det viser sig, at det er mere udbredt, og du kan finde nogle væsentlige mønstre baseret på visualiseringerne, så skal du muligvis gøre noget med disse data.
Så i stedet for at droppe dem, kan vi tilregne dem, fordi der sandsynligvis er en historie om, hvorfor disse værdier mangler i mønsteret, som de er.
I denne demo vil vi bruge en pakke, der vil imputere de manglende værdier. Dette er en ny pakke til visualisering af manglende data i R, og den hedder ggmice .
Ideen er at finde mønsteret og hvor mange manglende værdier, derfor vil vi se på plotmønsteret og derefter plotprædiktormatricen .
MICE står for multivariat imputation ved kædede metoder . Vi kommer ikke ind i mekanikken, men vi vil lære, hvordan denne algoritme vil imputere vores data, hvis vi bruger dem.
En anden ting at vide om visualisering af manglende data i R ved hjælp af ggmice er, at det virkelig er meningen, at det skal være ggplot2-kompatibelt , så vi er i stand til at bygge nogle visualiseringer på bagsiden af , den berømte visualiseringspakke.
Trin til visualisering af manglende data i R med GGMICE
Lad os gå videre og starte op. Den første ting, vi skal gøre, er at importere alle de pakker, vi har brug for, ved at indtaste bibliotek (ggmice) , bibliotek (tidyverse) , som inkluderer ggplot2, og bibliotek (Ecdat) datasæt.
Biblioteket (Ecdat)-pakken har en masse gode datasæt at øve sig på. Det er derfor, vi bruger og importerer det.
Et af datasættene er hjælp (MCAS) . Lad os køre hjælpefunktionen på dette.
Som vi kan se, er dette fra Ecdat, og det er et testresultatdatasæt. Denne hjælpedokumentation beskriver hver af kolonnerne og fortæller os, hvor den kom fra.
Vi vil bruge dette til at lære, om der mangler data, og hvilket mønster de danner, hvis der er nogen.
Lad os bruge is.na (MCAS) og klik på Kør . Som vi kan se, er der en masse SAND og FALSK. Det, vi kan gøre, er at opsummere disse ved at bruge funktionen colSums (is.na(MCAS)), fordi FALSE og TRUE er nul og én i forklædning. Dette er vores måde at kontrollere, om værdien mangler eller ej.
Som vist nedenfor findes de manglende værdier i tre kolonner såsom spc , totsc8 og avgsalary . Vi kan se beskrivelsen af disse kolonner i hjælpedokumentationsafsnittet.
Ved at bruge colSums (is.na(MCAS)) / nrow (MCAS) vil antallet af rækker også blive til procenter. Dette er en måde at se det på, men ikke den nemmeste ting at gøre.
Lad os i dette tilfælde se på, hvad ggmice kan gøre for os. Vi bruger funktionen browseVignettes (pakke = 'ggmice') og klik derefter på Kør .
Der er fundet nogle vignetter til denne funktion, så lad os vælge ggmice og klikke på HTML- linket for at se nogle nyttige selvstudier, der kan hjælpe.
Går tilbage til scriptet, lad os bruge funktionen plot_pattern (MCAS) til at videregive datasættet.
For at visualisere det bedre, klik på Zoom- knappen. Som illustreret har spc ud af 155 observationer 9 manglende værdier, 25 for gennemsnitsløn og 40 for totsc8 .
Vi vil forsøge at finde ud af, om nogen af disse er sammenfaldende, hvor mange der er, og om de har tendens til at være i en klynge.
For at krydstjekke dette kan vi prøve den analoge måde ved at bruge visningsfunktionen (MCAS) og derefter klikke på Kør .
Dette er en slags regnearksfremviser, hvor vi kan se alle de manglende værdier. Vi kan også udvide dette ved at klikke på knappen Kildeeditor .
I lighed med , kan vi se de samlede posteringer, og NA'erne er de manglende værdier. Det er bemærkelsesværdigt, at de samlede indgange på visningen (MCAS) er 220 og kun 155 for plot_pattern (MCAS), fordi der sandsynligvis var komplette værdier, der ikke var plottet i sig selv.
Vi kan også se, at de har en tendens til at klynge sig sammen baseret på variablerne og rækkerne. Men i mange tilfælde mangler kun det ene eller det andet. Virkeligheden er, at det er svært at gøre denne visuelle række for række, så det er her, visualiseringen kommer ind.
Imputering af de manglende data
Den næste ting at gøre er at gå tilbage til vores script, derefter indtaste nrow (MCAS) og derefter sum(is.na(MCAS)$totsc8)) .
I dette tilfælde ved vi, at 40 mangler værdier ud af 200 observationer. Lad os bruge R som lommeregner ved at sætte 40/200. Derfor mangler vi omkring 20 % værdier, hvilket er meget.
Ideelt set vil vi gerne vide, hvorfor så mange mangler. Måske er det bare, hvordan dataene blev indsamlet, hvorfor vi kan imputere dette.
For at gøre det, lad os importere bibliotekspakken (mus) . Dette er en af imputationsmetoderne.
Lad os derefter bruge funktionerne MCAS_pred < –="" quickpred=""> og plot_pred(MCAS_pred) . Sørg for at gemme disse, klik på Kør og klik på knappen Zoom .
Hvis vi skal bruge multivariat imputation, vil denne algoritme finde observationer og datapunkter, der ligner dem, der mangler, og derefter forsøge at udfylde dem.
For eksempel spc- kolonnerne. Disse vil være nyttige til at forudsige de manglende værdier på samme måde som totsc8 og avgsalary . På dette tidspunkt gør vi det ikke, men vi ser, hvilke værdier og variabler der er relaterede, der kan være nyttige for at hindre disse værdier.
Lad os prøve en ting mere. Vi skal bruge ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , og klik derefter på Kør .
Dette er en , bortset fra at vi bruger ggmice. Grundlæggende er ideen, at vi kan se sammenhængen mellem disse to variable, der har en del manglende værdier. Når en af dem mangler, og den anden er tilgængelig, kan vi se, hvor disse punkter er.
I denne situation observeres begge disse i et af disse tilfælde. Den ene mangler, og den anden er ikke. Hvis begge mangler, kommer det ikke med på plottet.
Konklusion
Når vi arbejder med manglende værdier, er det fristende at bruge en algoritme som MICE, fordi den er meget kraftfuld til at imputere værdier. Det er dog bedre selv at udforske dataene og forstå, hvad der foregår.
Ideelt set, hvis vi har mange manglende data, vil vi gerne finde ud af hvorfor, og måske kan vi prøve at få nogle flere data, eller vi kan imputere dem. Det foretrækkes altid at gå direkte til kilden.
Hvis vi ender med at ville imputere de manglende værdier, kan vi lave nogle simple imputeringsmetoder med tidyverse-pakken, såsom middelværdien eller medianen.
Uden tvivl er MICE-pakken kraftfuld. Det kan være overkill for ting, der er meget beregningsintensive, men vi fokuserer lige nu på kun visualiseringselementet af det.
Jeg håber, du lærer noget, og du er velkommen til at bruge denne pakke. Sørg for at dele det og prøv at få ordet ud, fordi det er en god pakke at arbejde med manglende værdier, der er ggplot2-kompatible.
Alt det bedste,
George
Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.
Find ud af, hvorfor det er vigtigt at have en dedikeret datotabel i LuckyTemplates, og lær den hurtigste og mest effektive måde at gøre det på.
Denne korte vejledning fremhæver LuckyTemplates mobilrapporteringsfunktion. Jeg vil vise dig, hvordan du kan udvikle rapporter effektivt til mobilenheder.
I denne LuckyTemplates Showcase gennemgår vi rapporter, der viser professionel serviceanalyse fra et firma, der har flere kontrakter og kundeengagementer.
Gå gennem de vigtigste opdateringer til Power Apps og Power Automate og deres fordele og implikationer for Microsoft Power Platform.
Opdag nogle almindelige SQL-funktioner, som vi kan bruge, såsom streng, dato og nogle avancerede funktioner til at behandle eller manipulere data.
I denne tutorial lærer du, hvordan du opretter din perfekte LuckyTemplates-skabelon, der er konfigureret til dine behov og præferencer.
I denne blog vil vi demonstrere, hvordan man lagdelte feltparametre med små multipler for at skabe utrolig nyttig indsigt og visuals.
I denne blog vil du lære, hvordan du bruger LuckyTemplates rangerings- og brugerdefinerede grupperingsfunktioner til at segmentere et eksempeldata og rangordne det efter kriterier.
I denne tutorial vil jeg dække en specifik teknik omkring, hvordan du kun viser Kumulativ Total op til en bestemt dato i dine visuals i LuckyTemplates.