Hvordan kunstig intelligens håndterer manglende data

For å svare riktig på et gitt spørsmål, må du ha alle fakta. Du kan gjette svaret på et spørsmål uten alle fakta, men da er svaret like sannsynlig feil som riktig. Ofte sies at noen som tar en avgjørelse, egentlig svarer på et spørsmål, uten alle fakta, trekker til en konklusjon. Når du analyserer data, har du sannsynligvis hoppet til flere konklusjoner enn du tror på grunn av manglende data. En datapost, én oppføring i et datasett (som er alle dataene), består av felter som inneholder fakta som brukes til å svare på et spørsmål. Hvert felt inneholder en enkelt type data som adresserer et enkelt faktum. Hvis det feltet er tomt, har du ikke dataene du trenger for å svare på spørsmålet ved å bruke den aktuelle dataposten.

Som en del av prosessen med å håndtere manglende data, må du vite at dataene mangler. Å identifisere at datasettet mangler informasjon kan faktisk være ganske vanskelig fordi det krever at du ser på dataene på et lavt nivå – noe folk flest ikke er forberedt på og er tidkrevende selv om du har de nødvendige ferdighetene. Ofte er din første anelse om at data mangler de absurde svarene som spørsmålene dine får fra algoritmen og tilhørende datasett. Når algoritmen er den rette å bruke, må datasettet være feil.

Et problem kan oppstå når datainnsamlingsprosessen ikke inkluderer alle dataene som trengs for å svare på et bestemt spørsmål. Noen ganger er det bedre å faktisk droppe et faktum i stedet for å bruke et betydelig skadet faktum. Hvis du finner ut at et bestemt felt i et datasett mangler 90 prosent eller mer av dataene, blir feltet ubrukelig, og du må slippe det fra datasettet (eller finne en måte å få tak i alle disse dataene).

Mindre skadede felt kan ha data som mangler på en av to måter. Tilfeldig manglende data er ofte et resultat av menneskelig eller sensorfeil. Det oppstår når dataposter i hele datasettet mangler oppføringer. Noen ganger vil en enkel feil forårsake skade. Sekvensielt manglende data oppstår under en type generalisert feil. Et helt segment av datapostene i datasettet mangler den nødvendige informasjonen, noe som betyr at den resulterende analysen kan bli ganske skjev.

Å fikse tilfeldig manglende data er enklest. Du kan bruke en enkel median- eller gjennomsnittsverdi som erstatning. Nei, datasettet er ikke helt nøyaktig, men det vil sannsynligvis fungere godt nok til å få et fornuftig svar. I noen tilfeller brukte dataforskere en spesiell algoritme for å beregne den manglende verdien, som kan gjøre datasettet mer nøyaktig på bekostning av beregningstid.

Sekvensielt manglende data er betydelig vanskeligere, om ikke umulig, å fikse fordi du mangler noen omkringliggende data å basere noen form for gjetning på. Hvis du kan finne årsaken til de manglende dataene, kan du noen ganger rekonstruere dem. Men når rekonstruksjon blir umulig, kan du velge å ignorere feltet. Dessverre vil noen svar kreve det feltet, noe som betyr at du kanskje må ignorere den bestemte sekvensen med dataposter – som potensielt kan forårsake feil utdata.


Snagit 2018 gjennomgang Hva er nytt siden versjon 13

Snagit 2018 gjennomgang Hva er nytt siden versjon 13

TechSmith Snagit er vår favorittprogramvare for skjermbilder og bilderedigering. Sjekk ut de nye funksjonene i Snagit 2018!

8 elektroniske verktøy for å tegne diagrammer og flytskjemaer

8 elektroniske verktøy for å tegne diagrammer og flytskjemaer

Trenger du å lage diagrammer eller flytskjemaer og ønsker ikke å installere ekstra programvare? Her er en liste over online diagramverktøy.

Kan ikke Spotify spille den gjeldende sangen? Hvordan fikse

Kan ikke Spotify spille den gjeldende sangen? Hvordan fikse

Å ha et hus fullt av trådløst tilkoblede enheter og strømmetjenester som Spotify er flott inntil ting ikke fungerer og du finner interessante løsninger.

Hva er en NVMe M.2 SSD og hvor rask er den?

Hva er en NVMe M.2 SSD og hvor rask er den?

NVMe M.2 SSD er det siste innen datamaskinharddiskteknologi. Hva er det og hvor raskt er det kontra eldre harddisker og Solid State Drives (SSD)?

Sonos vs. AirPlay: Hvorfor jeg valgte AirPlay for Whole House Audio

Sonos vs. AirPlay: Hvorfor jeg valgte AirPlay for Whole House Audio

Sonos er den beste streaming-lydløsningen som starter på $400 for to høyttalere. Men med riktig oppsett kan AirPlay være gratis. La oss se gjennom detaljene.

Google Backup and Sync App erstatter bilder og Disk

Google Backup and Sync App erstatter bilder og Disk

Google Backup and Sync er en ny app som synkroniserer til Bilder og Disk. Les videre for å se hvordan det står opp mot OneDrive, Dropbox, Backblaze og Crashplan.

Cord Cutting: Gjennomgang av MyIPTV med SOPlayer

Cord Cutting: Gjennomgang av MyIPTV med SOPlayer

MyIPTV er en kabelskjæringstjeneste som bruker SOPlayer-appen for flere plattformer og tilbyr TV, filmer og andre former for media for en betalt

Logitech Opplyst Living-Room Keyboard K830

Logitech Opplyst Living-Room Keyboard K830

Logitech ga nylig ut sitt Illuminated Living-Room Keyboard K830 som er ment som en hjemmeunderholdningskamerat. Her er vår anmeldelse av enheten.

CloudHQ Oppdatert: Raskere synkronisering, Rediger Dropbox-filer fra Google Docs

CloudHQ Oppdatert: Raskere synkronisering, Rediger Dropbox-filer fra Google Docs

Her er en titt på oppdateringen nylig utgitt til CloudHQ og hvordan den fungerer. Les videre for å finne mer.

Hva er OnePlus 6T Android-telefon?

Hva er OnePlus 6T Android-telefon?

OnePlus 6T er en førsteklasses flaggskipkvalitet Android-telefon som selges med rabatt sammenlignet med Apple iPhone, Google Pixel 3 eller Samsung Galaxy S9.