Hantera saknade data i Python med hjälp av interpolationsmetoden

Interpolation är en metod för att generera punkter mellan givna punkter. I den här handledningen ska jag visa hur du kan använda Interpolation för att hantera saknade data i Python. Du kan se hela videon av denna handledning längst ner på den här bloggen.

I Python är interpolation en teknik som oftast används för att imputera saknade värden i dataramen eller serien medan data förbehandlas. Jag ska visa hur du kan använda den här metoden för att uppskatta saknade datapunkter i din data med hjälp av LuckyTemplates.

Om vi tittar på vår ursprungliga data här nedan, som är representerad i den översta grafen, kan vi se att det finns många hål eller saknade data som vi inte kan rita eftersom det inte finns något där. Men i den nedre grafen kan vi se att vi har gjort en uppskattning för att ta reda på hur dessa data kan se ut. De faktiska uppgifterna representeras i ljusblått, medan de interpolerade uppgifterna är i mörkblått.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Det finns ett par olika typer av uppskattningar vi kommer att göra. Vi kommer att göra en linjär interpolation, en närmaste interpolation och sedan en viktad tidsinterpolation. Var och en av dessa kommer att ge oss lite olika resultat.

Exemplet ovan använder den vägda tidsinterpolationen, som ser nästan likadan ut som den linjära interpolationen, med undantaget att denna viktas utifrån dagarna. Linear uppskattade data baserat på lutningen mellan dessa två datapunkter. Nearest Interpolation har en plattare typ av uppskattning, som du kan se nedan, där vi tittade på det närmaste värdet och kunde uppskatta vad som finns mellan dessa två.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Så låt oss hoppa över till en Jupyter-anteckningsbok och ta in den.

Innehållsförteckning

Hur man använder interpolation för att hantera saknade data i Python
Slutsats

Hur man använder interpolation för att hantera saknade data i Python

Du kan använda Script Editor för att skriva ut allt, men det är enklare. Du får mer feedback i din Jupyter-anteckningsbok. Så låt oss dokumentera vad vi gör. När vi kopierar och klistrar in detta i vår Python Script Editor blir det väldigt rent och tydligt.

Låt oss importera de bibliotek vi vill ha, och vi kommer att importera pandor och spara dem som en variabel PD. Vi kommer att importera Numpy och spara den som variabeln NP. Pandas är ett datamanipuleringsbibliotek, medan Numpy tillåter oss att göra datamanipulation också och ger oss lite linjär algebra.

Vi vill ta in vår datauppsättning, och vi kommer att spara den som en variabel df . Och vi kommer bara att använda Pandas-variabeln ( pd ) och använda read.csv -funktionen. Sedan ska vi kopiera och klistra in där den filen finns på vår PC. Min finns i min arbetskatalog, så allt jag behöver göra är att skriva machines.csv och kapsla in det inom parentes.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Och låt oss ta en titt på vår datauppsättning bara genom att använda variabeln df. Du kan se att detta går från den 1:a 2022, hela vägen till den 25:e. Det är på varandra följande dagar ända till den 15:e, och sedan saknas det fyra dagar den 19:e, och sedan saknas det tre dagar när vi kommer till den 22:e, och två dagar som saknas den 25:e.

Dagarna som hoppas över saknar inte data. Det är bara inte data i vår datauppsättning. Det vi kommer att ta itu med är data som saknas, som du ser representerade med dessa NaN- värden eller inga.

Nu när vi har vår datauppsättning i, låt oss använda våra olika typer av tolkning och spara dem som olika kolumner. Vi kan se att vi har objekt , som representeras av en text, och vi har också en float .

Hantera saknade data i Python med hjälp av interpolationsmetoden

Jag kommer att isolera kolumnen Datum genom att använda parentesnotation. Sedan kommer jag att använda lika för att tilldela detta. Jag ska använda pd -variabeln och sedan använder jag bara funktionen to_datetime. Och sedan stänger jag av den funktionen med parentesen och lägger till i kolumnen Datum.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Vi kan se att nu har vi Datum som rätt datatyp.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Vi har ett index här, vilket indikeras av siffrorna 1 till 18. När vi gör linjärt kommer det att använda dessa siffror för att skapa en linjär koppling mellan de befintliga datapunkterna. Men vi vill också kunna använda en Time-weighted Interpolation, som tittar på tiden och ger oss resultaten baserat på de faktiska dagarna. Vi vill ställa in datumkolumnen som index, så att vi kan använda den.

Jag ska använda min dataram-variabel (df) och göra set_index. Vi måste skicka in en parameter som heter inplace för att se till att den skickas in permanent. Så jag kommer att använda inplace är lika med sant, och sedan ska jag trycka på shift och enter. Och med det kan du se att det numeriska indexet försvann, och vi har ett Datetime-index.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Nu kan vi börja bygga de kolumner som vi vill ha. Låt oss bygga en kolumn där vi interpolerar den närmaste datapunkten, som kommer att fylla dessa saknade värden med det närmaste värdet. Vi vill skapa en kolumn som heter users_nearest , och vi vill tilldela den till en Användare- kolumn.

Vi vill skapa en kolumn som heter user_nearest , och vi vill tilldela den till en användarkolumn. Och nu när vi har den kolumnen isolerad kan vi använda funktion och vi kan trycka på shift-tab för att se vilka parametrar den här funktionen tar. Det finns många olika typer av metoder.

Du kan se att standarden är linjär, och om du vill att den ska se alla olika metoder finns det information i detta. Du kan öppna detta hela vägen upp och det finns mycket information här som kommer att ge dig mycket insikt. Men det är alltid bättre att gå ner till Pandas webbplats och bara se vad alla olika typer av interpolationer är.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Nu ska vi skicka in metoden som vi vill ha, och vi kommer att använda metoden Nearest Interpolation. Allt vi behöver göra är att köra detta, och du kan se att en kolumn skapas. Om vi tittar på just den linjen kan vi se det som ett saknat värde. Och du kan se att det har interpolerats där det har tagit det närmaste värdet och lagt till det här. Som du kan se saknar vi inga värden längre för just den raden.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Nu, låt oss kopiera detta två gånger, och låt oss ändra namnet på dessa kolumner till user_linear och user_time . Vi kommer också att ändra metoderna för att matcha våra rubriker. Vi kan skifta och gå in, och du kan se att vi har skapat tre kolumner baserade på olika typer av interpolationsmetoder.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Därefter vill jag skapa en mer speciell kolumn som låter oss indikera vilka av dessa som är tomma, som en flagga i vår data. Vi kommer att använda Numpy för det.

Så, vi kommer bara att skapa en ny kolumn som heter df , och sedan kommer vi att kalla den flagga. Vi kommer att tilldela det med det likhetstecknet. Sedan kommer vi att använda np , som är vår Numpy-variabel. Och sedan kommer vi att använda where -funktionen, som är en villkorlig funktion. Vi sätter villkoret och sedan får vi ett exempel på sant och falskt. Vi använder dubbel lika, vilket är lika i Python. När det är sant vill vi säga Missing Data . Det andra alternativet är Data .

Hantera saknade data i Python med hjälp av interpolationsmetoden

Vi kan använda den flaggan i vår bild. När vi är i din anteckningsbok, gå över för att transformera och tryck på kör Python-skript. Nu finns det ett par olika steg. Vi måste få detta att fungera inommiljö.

Vi har alla våra koder här och vi måste lägga till några fler steg. Ett, när vi har att göra med datum-tid, måste vi lägga till en felparameter som säger att om vi har några fel kan du tvinga eller försöka ändra det. Så jag kommer att sätta här fel lika , och sedan parentes tvång . Därefter måste vi omtilldela datasetvariabeln som df.

Hantera saknade data i Python med hjälp av interpolationsmetoden

När vi klickar på OK, får vi ett nytt fel, och det här är vad vi behöver göra för att fixa detta. Om vi går igenom våra steg behöver vi inte ha vårt datum formaterat. Vi låter Python arbeta med datumen eftersom datum är unika för varje plattform. Det första vi behöver göra är att bli av med Changed Type .

Hantera saknade data i Python med hjälp av interpolationsmetoden

Vi har inte kolumnen Datum eftersom datumet är indexet. Så vi går tillbaka till vårt Python-skript och sedan återställer vi bara vårt index, df.reset_index . Vi säger att vi vill återställa den till kolumnen Datum förbigå inom den parentesen, och sedan vill vi göra inplace = true .

Hantera saknade data i Python med hjälp av interpolationsmetoden

Och nu har vi datumet och alla våra andra datatyper är klara.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Om vi lägger det i en visualisering så ser det ut så här i tre olika interpolationsmetoder vid hantering av saknad data i Python.

Hantera saknade data i Python med hjälp av interpolationsmetoden

Slutsats

Du har i den här handledningen lärt dig tre metoder för interpolation för att hantera saknad data i. Vi har diskuterat metoderna för linjär, närmaste och viktad tidsinterpolation.

Jag hoppas att du tycker att detta är användbart och tillämpar det i ditt eget arbete. Du kan titta på hela videohandledningen nedan för mer information och kolla in länkarna nedan för mer relaterat innehåll om hantering av saknad data i Python.

Med vänliga hälsningar!

Gaelim

Lämna en kommentar

Skapa en datumtabell i LuckyTemplates

Ta reda på varför det är viktigt att ha en dedikerad datumtabell i LuckyTemplates och lär dig det snabbaste och mest effektiva sättet att göra det.

LuckyTemplates mobilrapporteringstips och tekniker

Denna korta handledning belyser LuckyTemplates mobilrapporteringsfunktion. Jag ska visa dig hur du kan utveckla rapporter effektivt för mobila enheter.

Professional Service Analytics-rapporter i LuckyTemplates

I denna LuckyTemplates Showcase går vi igenom rapporter som visar professionell serviceanalys från ett företag som har flera kontrakt och kundengagemang.

Vanliga SQL-funktioner: En översikt

Upptäck några vanliga SQL-funktioner som vi kan använda som sträng, datum och några avancerade funktioner för att bearbeta eller manipulera data.

Microsoft Power Platform-uppdateringar | Microsoft Ignite 2021

Gå igenom de viktigaste uppdateringarna för Power Apps och Power Automate och deras fördelar och konsekvenser för Microsoft Power Platform.

Fältparametrar och små multiplar i LuckyTemplates

I den här bloggen kommer vi att visa hur man lager fältparametrar med små multiplar för att skapa otroligt användbara insikter och bilder.

LuckyTemplates Skapa mall: Guide och tips

I den här handledningen kommer du att lära dig hur du skapar din perfekta LuckyTemplates-mall som är konfigurerad efter dina behov och preferenser.

LuckyTemplates Rank och anpassad gruppering

I den här bloggen kommer du att lära dig hur du använder LuckyTemplates ranknings- och anpassade grupperingsfunktioner för att segmentera en exempeldata och rangordna den enligt kriterier.

Punktdiagram: Avancerade anpassade bilder för LuckyTemplates

Lär dig hur du skapar och anpassar punktdiagram i LuckyTemplates, som huvudsakligen används för att mäta prestanda mot mål eller tidigare år.

Visar kumulativ total endast upp till ett visst datum i LuckyTemplates

I den här handledningen kommer jag att täcka en specifik teknik kring hur man visar Kumulativ total endast upp till ett specifikt datum i dina bilder i LuckyTemplates.