Hur artificiell intelligens hanterar saknade data

För att svara rätt på en given fråga måste du ha all fakta. Du kan gissa svaret på en fråga utan all fakta, men då är svaret lika sannolikt fel som korrekt. Ofta sägs någon som fattar ett beslut, i huvudsak svara på en fråga, utan alla fakta, dra till en slutsats. När du analyserar data har du förmodligen dragit fler slutsatser än du tror på grund av att data saknas. En datapost, en post i en datauppsättning (som är all data), består av fält som innehåller fakta som används för att besvara en fråga. Varje fält innehåller en enda typ av data som adresserar ett enda faktum. Om det fältet är tomt har du inte den information du behöver för att svara på frågan med den specifika dataposten.

Som en del av processen för att hantera saknad data måste du veta att data saknas. Att identifiera att din datauppsättning saknar information kan faktiskt vara ganska svårt eftersom det kräver att du tittar på datan på en låg nivå - något som de flesta inte är beredda att göra och är tidskrävande även om du har den kompetens som krävs. Ofta är din första ledtråd om att data saknas de absurda svaren som dina frågor får från algoritmen och tillhörande datauppsättning. När algoritmen är den rätta att använda måste datauppsättningen vara fel.

Ett problem kan uppstå när datainsamlingsprocessen inte inkluderar all data som behövs för att svara på en viss fråga. Ibland är det bättre att faktiskt släppa ett faktum istället för att använda ett avsevärt skadat faktum. Om du upptäcker att ett visst fält i en datamängd saknar 90 procent eller mer av dess data, blir fältet oanvändbart och du måste ta bort det från datamängden (eller hitta något sätt att få tag på all denna data).

Mindre skadade fält kan sakna data på ett av två sätt. Slumpmässigt saknade data är ofta resultatet av mänskliga eller sensoriska fel. Det inträffar när dataposter i hela datasetet saknar poster. Ibland kan ett enkelt fel orsaka skadan. Sekventiellt saknade data inträffar under någon typ av generaliserat fel. Ett helt segment av dataposterna i datasetet saknar den information som krävs, vilket gör att den resulterande analysen kan bli ganska skev.

Att åtgärda slumpmässigt saknad data är enklast. Du kan använda ett enkelt median- eller medelvärde som ersättning. Nej, datasetet är inte helt korrekt, men det kommer sannolikt att fungera tillräckligt bra för att få ett rimligt svar. I vissa fall använde dataforskare en speciell algoritm för att beräkna det saknade värdet, vilket kan göra datasetet mer exakt på bekostnad av beräkningstid.

Sekventiellt saknade data är betydligt svårare, för att inte säga omöjligt, att fixa eftersom du saknar omgivande data att basera någon form av gissning på. Om du kan hitta orsaken till den saknade informationen kan du ibland rekonstruera den. Men när rekonstruktion blir omöjlig kan du välja att ignorera fältet. Tyvärr kommer vissa svar att kräva det fältet, vilket betyder att du kan behöva ignorera den specifika sekvensen av dataposter – vilket kan orsaka felaktig utdata.


Snagit 2018 Recension Vad är nytt sedan version 13

Snagit 2018 Recension Vad är nytt sedan version 13

TechSmith Snagit är vårt favoritprogram för skärmdumpar och bildredigering. Kolla in de nya funktionerna i Snagit 2018!

8 onlineverktyg för att rita diagram och flödesscheman

8 onlineverktyg för att rita diagram och flödesscheman

Behöver du skapa diagram eller flödesscheman och vill inte installera extra programvara? Här är en lista över diagramverktyg online.

Kan Spotify inte spela den aktuella låten? Hur man fixar

Kan Spotify inte spela den aktuella låten? Hur man fixar

Att ha ett hus fullt av trådlöst uppkopplade enheter och streamingtjänster som Spotify är fantastiskt tills saker och ting inte fungerar och du hittar intressanta lösningar.

Vad är en NVMe M.2 SSD och hur snabb är den?

Vad är en NVMe M.2 SSD och hur snabb är den?

NVMe M.2 SSD är det senaste inom datorhårddiskteknik. Vad är det och hur snabbt är det jämfört med äldre hårddiskar och Solid State Drives (SSD)?

Sonos vs AirPlay: Varför jag valde AirPlay för Whole House Audio

Sonos vs AirPlay: Varför jag valde AirPlay för Whole House Audio

Sonos är den bästa lösningen för strömmande ljud från 400 $ för två högtalare. Men med rätt inställning kan AirPlay vara gratis. Låt oss granska detaljerna.

Google Backup and Sync App ersätter foton och Drive

Google Backup and Sync App ersätter foton och Drive

Google Backup and Sync är en ny app som synkroniserar till Foton och Drive. Läs vidare för att se hur det går mot OneDrive, Dropbox, Backblaze och Crashplan.

Cord Cutting: Recension av MyIPTV med SOPlayer

Cord Cutting: Recension av MyIPTV med SOPlayer

MyIPTV är en kabelklippningstjänst som använder SOPlayer-appen för flera plattformar och tillhandahåller tv, filmer och andra former av media för en betald

Logitech Upplyst Living-Room Keyboard K830

Logitech Upplyst Living-Room Keyboard K830

Logitech släppte nyligen sitt Illuminated Living-Room Keyboard K830 som är tänkt som en följeslagare för hemunderhållning. Här är vår recension av enheten.

CloudHQ uppdaterad: Snabbare synkronisering, redigera Dropbox-filer från Google Docs

CloudHQ uppdaterad: Snabbare synkronisering, redigera Dropbox-filer från Google Docs

Här är en titt på uppdateringen som nyligen släppts till CloudHQ och hur den fungerar. Läs vidare för att hitta mer.

Vad är OnePlus 6T Android-telefon?

Vad är OnePlus 6T Android-telefon?

OnePlus 6T är en Android-telefon av högsta kvalitet som säljs till rabatterat pris jämfört med Apple iPhone, Google Pixel 3 eller Samsung Galaxy S9.