Hvordan kunstig intelligens håndterer manglende data

For at svare rigtigt på et givet spørgsmål skal du have alle fakta. Du kan gætte svaret på et spørgsmål uden alle fakta, men så er svaret lige så sandsynligt forkert som korrekt. Ofte siges en, der træffer en beslutning, i det væsentlige besvarer et spørgsmål, uden alle fakta, at springe til en konklusion. Når du analyserer data, har du sandsynligvis hoppet til flere konklusioner, end du tror på grund af manglende data. En datapost, én indgang i et datasæt (som er alle dataene), består af felter, der indeholder fakta, der bruges til at besvare et spørgsmål. Hvert felt indeholder en enkelt slags data, der adresserer et enkelt faktum. Hvis dette felt er tomt, har du ikke de data, du skal bruge for at besvare spørgsmålet ved hjælp af den pågældende datapost.

Som en del af processen med at håndtere manglende data, skal du vide, at data mangler. At identificere, at dit datasæt mangler information, kan faktisk være ret svært, fordi det kræver, at du ser på dataene på et lavt niveau - noget som de fleste mennesker ikke er parate til at gøre og er tidskrævende, selvom du har de nødvendige færdigheder. Ofte er dit første fingerpeg om, at data mangler, de absurde svar, som dine spørgsmål får fra algoritmen og tilhørende datasæt. Når algoritmen er den rigtige at bruge, skal datasættet være skyld i.

Der kan opstå et problem, når dataindsamlingsprocessen ikke inkluderer alle de data, der er nødvendige for at besvare et bestemt spørgsmål. Nogle gange er du bedre stillet til faktisk at droppe en kendsgerning i stedet for at bruge en betydeligt beskadiget kendsgerning. Hvis du opdager, at et bestemt felt i et datasæt mangler 90 procent eller mere af dets data, bliver feltet ubrugeligt, og du skal slette det fra datasættet (eller finde en måde at få alle disse data på).

Mindre beskadigede felter kan mangle data på en af ​​to måder. Tilfældigt manglende data er ofte resultatet af menneskelige eller sensoriske fejl. Det opstår, når dataposter i hele datasættet mangler indgange. Nogle gange vil en simpel fejl forårsage skaden. Sekventielt manglende data opstår under en eller anden form for generaliseret fejl. Et helt segment af dataposterne i datasættet mangler den nødvendige information, hvilket betyder, at den resulterende analyse kan blive ret skæv.

Det er nemmest at rette tilfældigt manglende data. Du kan bruge en simpel median- eller gennemsnitsværdi som erstatning. Nej, datasættet er ikke helt nøjagtigt, men det vil sandsynligvis fungere godt nok til at få et rimeligt svar. I nogle tilfælde brugte dataforskere en speciel algoritme til at beregne den manglende værdi, som kan gøre datasættet mere nøjagtigt på bekostning af beregningstid.

Sekventielt manglende data er betydeligt sværere, hvis ikke umuligt, at rette, fordi du mangler nogen omgivende data, som du kan basere enhver form for gæt på. Hvis du kan finde årsagen til de manglende data, kan du nogle gange rekonstruere dem. Men når genopbygning bliver umulig, kan du vælge at ignorere feltet. Desværre vil nogle svar kræve dette felt, hvilket betyder, at du muligvis skal ignorere den pågældende sekvens af dataposter - hvilket potentielt kan forårsage forkert output.


Snagit 2018 anmeldelse Hvad er nyt siden version 13

Snagit 2018 anmeldelse Hvad er nyt siden version 13

TechSmith Snagit er vores foretrukne screenshot- og billedredigeringssoftware. Tjek de nye funktioner i Snagit 2018!

8 onlineværktøjer til at tegne diagrammer og rutediagrammer

8 onlineværktøjer til at tegne diagrammer og rutediagrammer

Har du brug for at oprette diagrammer eller rutediagrammer og vil du ikke installere ekstra software? Her er en liste over online diagramværktøjer.

Kan Spotify ikke afspille den aktuelle sang? Sådan rettes

Kan Spotify ikke afspille den aktuelle sang? Sådan rettes

At have et hus fyldt med trådløst tilsluttede enheder og streamingtjenester som Spotify er fantastisk, indtil tingene ikke fungerer, og du finder interessante løsninger.

Hvad er en NVMe M.2 SSD, og ​​hvor hurtig er den?

Hvad er en NVMe M.2 SSD, og ​​hvor hurtig er den?

NVMe M.2 SSD er det seneste inden for computerharddiskteknologi. Hvad er det, og hvor hurtigt er det i forhold til ældre harddiske og Solid State Drives (SSD)?

Sonos vs. AirPlay: Hvorfor jeg valgte AirPlay til Whole House Audio

Sonos vs. AirPlay: Hvorfor jeg valgte AirPlay til Whole House Audio

Sonos er den perfekte streaming-lydløsning, der starter ved $400 for to højttalere. Men med den rigtige opsætning kan AirPlay være gratis. Lad os gennemgå detaljerne.

Google Backup and Sync App erstatter Fotos og Drev

Google Backup and Sync App erstatter Fotos og Drev

Google Backup and Sync er en ny app, der synkroniserer til Fotos og Drev. Læs videre for at se, hvordan det klarer sig i forhold til OneDrive, Dropbox, Backblaze og Crashplan.

Ledningsskæring: Gennemgang af MyIPTV med SOPlayer

Ledningsskæring: Gennemgang af MyIPTV med SOPlayer

MyIPTV er en kabelskæringstjeneste, der bruger SOPlayer-appen til flere platforme og leverer tv, film og andre former for medier til en betalt betaling

Logitech Oplyst Living-Room Keyboard K830

Logitech Oplyst Living-Room Keyboard K830

Logitech udgav for nylig sit Illuminated Living-Room Keyboard K830, der er tænkt som en hjemmeunderholdnings-ledsager. Her er vores anmeldelse af enheden.

CloudHQ Opdateret: Hurtigere synkronisering, Rediger Dropbox-filer fra Google Docs

CloudHQ Opdateret: Hurtigere synkronisering, Rediger Dropbox-filer fra Google Docs

Her er et kig på opdateringen, der for nylig blev udgivet til CloudHQ, og hvordan den fungerer. Læs videre for at finde mere.

Hvad er OnePlus 6T Android-telefonen?

Hvad er OnePlus 6T Android-telefonen?

OnePlus 6T er en førsteklasses flagskibskvalitet Android-telefon, som sælges med rabat i forhold til Apple iPhone, Google Pixel 3 eller Samsung Galaxy S9.