De 5 felen i data för artificiell intelligens

Människor är vana vid att se data för vad det i många fall är: en åsikt. Faktum är att i vissa fall snedvrider människor data till en punkt där de blir värdelösa, en missanning. En dator eller AI-applikation kan inte se skillnad på sanningsenlig och osanning – allt den ser är data. En av de frågor som gör det svårt, för att inte säga omöjligt, att skapa en AI som faktiskt tänker som en människa är att människor kan arbeta med missanningar och datorer inte. Det bästa du kan hoppas på att uppnå är att se de felaktiga uppgifterna som extremvärden och sedan filtrera bort dem, men den tekniken löser inte nödvändigtvis problemet eftersom en människa fortfarande skulle använda datan och försöka fastställa en sanning baserat på de missanningar som är där.

En vanlig tanke om att skapa mindre förorenade datauppsättningar är att istället för att tillåta människor att mata in data, borde det vara möjligt att samla in data genom sensorer eller andra medel. Tyvärr återspeglar sensorer och andra mekaniska inmatningsmetoder målen för deras mänskliga uppfinnare och gränserna för vad den specifika teknologin kan upptäcka. Följaktligen är även maskinhärledda eller sensorhärledda data också föremål för att generera missanningar som är ganska svåra för en AI att upptäcka och övervinna.

Följande diskussion använder en bilolycka som huvudexempel för att illustrera fem typer av missanningar som kan förekomma i data. De begrepp som olyckan försöker skildra kanske inte alltid förekommer i data och de kan dyka upp på andra sätt än vad som diskuterats. Faktum kvarstår att du normalt måste ta itu med den här typen av saker när du tittar på data.

Missträning av kommissionen

Misstankar om uppdrag är de som återspeglar ett direkt försök att ersätta sann information med osanning. Till exempel, när man fyller i en olycksrapport kan någon säga att solen tillfälligt förblindade dem, vilket gjorde det omöjligt att se någon de träffade. I verkligheten kanske personen blev distraherad av något annat eller faktiskt inte tänkte på att köra bil (möjligen med tanke på en trevlig middag). Om ingen kan motbevisa denna teori, kan personen klara sig med en mindre avgift. Men poängen är att uppgifterna också skulle vara förorenade. Effekten är att nu skulle ett försäkringsbolag basera premierna på felaktiga uppgifter.

Även om det verkar som om misstankar om uppdrag är helt undvikbara, är de ofta inte det. Människor berättar "små vita lögner" för att rädda andra förlägenhet eller för att hantera ett problem med minsta möjliga ansträngning. Ibland grundar sig en misstro i uppdraget på felaktig input eller hörsägen. Faktum är att källorna för uppdragsfel är så många att det verkligen är svårt att komma på ett scenario där någon skulle kunna undvika dem helt. Allt detta sagt, missanning av uppdrag är en typ av missanning som någon kan undvika oftare än inte.

Misströster om utelämnande

Felaktiga utelämnanden är sådana där en person säger sanningen i varje angett faktum men utelämnar ett viktigt faktum som skulle förändra uppfattningen av en incident som helhet. Tänker igen på olycksrapporten, säg att någon slår ett rådjur och orsakar betydande skada på deras bil. Han säger sanningsenligt att vägen var blöt; det var nära skymningen så ljuset var inte så bra som det kunde vara; han var lite sen med att trycka på bromsen; och rådjuren sprang helt enkelt ut ur ett snår vid sidan av vägen. Slutsatsen skulle bli att händelsen helt enkelt är en olycka.

Personen har dock utelämnat ett viktigt faktum. Han smsade då. Om polisen visste om sms:et skulle det ändra orsaken till olyckan till ouppmärksam körning. Föraren kan dömas till böter och försäkringsjusteraren skulle använda en annan anledning när händelsen registreras i databasen. Precis som med kommissionens osanning skulle de resulterande felaktiga uppgifterna förändra hur försäkringsbolaget justerar premierna.

Det är nästan omöjligt att undvika missanningar om underlåtenhet. Ja, någon skulle medvetet kunna lämna fakta utanför en rapport, men det är lika troligt att någon helt enkelt glömmer att ta med alla fakta. När allt kommer omkring är de flesta människor ganska skramlade efter en olycka, så det är lätt att tappa fokus och bara rapportera de sanningar som gjort det mest betydande intrycket. Även om en person senare kommer ihåg ytterligare detaljer och rapporterar dem, är det osannolikt att databasen någonsin kommer att innehålla en fullständig uppsättning sanningar.

Mistruths of Perspective

Perspektivfel uppstår när flera parter ser en incident från flera utsiktspunkter. Till exempel, när man överväger en olycka med en påkörd fotgängare, skulle personen som kör bilen, personen som blir påkörd av bilen och en åskådare som bevittnade händelsen alla ha olika perspektiv. En officer som tar rapporter från varje person skulle förståeligt nog få olika fakta från var och en, till och med förutsatt att varje person berättar sanningen som var och en vet den. Faktum är att erfarenheten visar att det nästan alltid är fallet och det som tjänstemannen lämnar in som en rapport är medelvägen för vad var och en av de inblandade uppger, förstärkt med personlig erfarenhet. Med andra ord kommer rapporten att vara nära sanningen, men inte tillräckligt nära för en AI.

När man hanterar perspektiv är det viktigt att ta hänsyn till utsiktspunkten. Föraren av bilen kan se instrumentbrädan och känner till bilens skick vid olyckstillfället. Det är information som de andra två partierna saknar. Likaså har den som blir påkörd av bilen den bästa utsiktspunkten för att se förarens ansiktsuttryck (uppsåt). Åskådaren kan vara i den bästa positionen för att se om föraren gjorde ett försök att stanna och bedöma frågor som om föraren försökte svänga. Varje part måste göra en rapport baserad på sedd data utan att dra nytta av dolda data.

Perspektiv är kanske den farligaste av missanningarna eftersom den som försöker härleda sanningen i detta scenario i bästa fall kommer att få ett genomsnitt av de olika berättelserna, som aldrig kommer att bli helt korrekta. En människa som tittar på informationen kan förlita sig på intuition och instinkt för att potentiellt få en bättre approximation av sanningen, men en AI kommer alltid att använda bara genomsnittet, vilket innebär att AI alltid har en betydande nackdel. Tyvärr är det omöjligt att undvika perspektivfel eftersom oavsett hur många vittnen du har till händelsen, är det bästa du kan hoppas att uppnå en approximation av sanningen, inte den faktiska sanningen.

Det finns också en annan sorts osanning att ta hänsyn till, och det handlar om perspektiv. Tänk på det här scenariot: Du är en döv person 1927. Varje vecka går du till teatern för att se en stumfilm, och under en timme eller mer känner du dig som alla andra. Du kan uppleva filmen på samma sätt som alla andra gör; det finns inga skillnader. I oktober samma år ser du en skylt som säger att teatern uppgraderar för att stödja ett ljudsystem så att den kan visa talkies— filmer med ljudspår. Skylten säger att det är det bästa någonsin, och nästan alla verkar hålla med, förutom du, den döva personen, som nu får känna sig som en andra klassens medborgare, annorlunda än alla andra och till och med i stort sett utestängd från teatern . I den dövas ögon är det tecknet en missanning; att lägga till ett ljudsystem är det sämsta möjliga, inte det bästa möjliga. Poängen är att det som verkar vara allmänt sant inte är sant för alla. Idén om en allmän sanning - en som är sann för alla - är en myt. Det finns inte.

Mistruths of Bias

Felaktiga fördomar uppstår när någon kan se sanningen, men på grund av personliga bekymmer eller övertygelser inte kan se den faktiskt. Till exempel, när en förare tänker på en olycka, kan en förare fokusera uppmärksamheten så fullständigt på mitten av vägen att rådjuren vid vägkanten blir osynliga. Följaktligen har föraren ingen tid att reagera när rådjuret plötsligt bestämmer sig för att bulta ut mitt på vägen i ett försök att korsa.

Ett problem med bias är att det kan vara otroligt svårt att kategorisera. Till exempel kan en förare som inte ser rådjuret råka ut för en verklig olycka, vilket innebär att rådjuret gömts undan av buskage. Men föraren kan också göra sig skyldig till ouppmärksam körning på grund av felaktig fokus. Föraren kan också uppleva en tillfällig distraktion. Kort sagt, det faktum att föraren inte såg rådjuret är inte frågan; istället handlar det om varför föraren inte såg rådjuret. I många fall blir det viktigt att bekräfta källan till bias när man skapar en algoritm utformad för att undvika en biaskälla.

Teoretiskt är det alltid möjligt att undvika fördomar om fördomar. I verkligheten har dock alla människor fördomar av olika slag och dessa fördomar kommer alltid att resultera i missanningar som snedvrider datamängder. Bara att få någon att faktiskt titta och sedan se något - att få det att registreras i personens hjärna - är en svår uppgift. Människor är beroende av filter för att undvika överbelastning av information, och dessa filter är också en källa till partiskhet eftersom de hindrar människor från att faktiskt se saker.

Referensram

Av de fem missanningarna behöver referensramen faktiskt inte vara resultatet av någon form av fel, utan en av förståelse. En referensramsfel uppstår när en part beskriver något, till exempel en händelse som en olycka, och eftersom en andra part saknar erfarenhet av händelsen, blir detaljerna röriga eller helt missförstådda. Det finns gott om komedierutiner som bygger på referensramfel. Ett känt exempel är från Abbott och Costello, Who's On First? . Att få en person att förstå vad en andra person säger kan vara omöjligt när den första personen saknar erfarenhetsmässig kunskap - referensramen.

Ett annat exempel på en ram-of-referens-missanning uppstår när en part omöjligt kan förstå den andra. Till exempel upplever en sjöman en storm på havet. Kanske är det en monsun men anta för ett ögonblick att stormen är betydande - kanske livshotande. Även med användning av videor, intervjuer och en simulator skulle upplevelsen av att vara till sjöss i en livsfarlig storm vara omöjlig att förmedla till någon som inte har upplevt en sådan storm från första hand; den personen har ingen referensram.

Det bästa sättet att undvika missanningar är att se till att alla inblandade parter kan utveckla liknande referensramar. För att utföra denna uppgift kräver de olika parterna liknande erfarenhetsmässig kunskap för att säkerställa korrekt överföring av data från en person till en annan. Men när man arbetar med en datauppsättning, som nödvändigtvis registreras, kommer statisk data, ram-of-referensfel fortfarande att uppstå när den blivande tittaren saknar den erforderliga erfarenhetsmässiga kunskapen.

En AI kommer alltid att uppleva referensramsproblem eftersom en AI nödvändigtvis saknar förmågan att skapa en upplevelse. En databank med förvärvad kunskap är inte riktigt samma sak. Databanken skulle innehålla fakta, men erfarenheten bygger inte bara på fakta utan också på slutsatser som dagens teknik inte kan duplicera.

Snagit 2018 Recension Vad är nytt sedan version 13

TechSmith Snagit är vårt favoritprogram för skärmdumpar och bildredigering. Kolla in de nya funktionerna i Snagit 2018!

8 onlineverktyg för att rita diagram och flödesscheman

Behöver du skapa diagram eller flödesscheman och vill inte installera extra programvara? Här är en lista över diagramverktyg online.

Kan Spotify inte spela den aktuella låten? Hur man fixar

Att ha ett hus fullt av trådlöst uppkopplade enheter och streamingtjänster som Spotify är fantastiskt tills saker och ting inte fungerar och du hittar intressanta lösningar.

Vad är en NVMe M.2 SSD och hur snabb är den?

NVMe M.2 SSD är det senaste inom datorhårddiskteknik. Vad är det och hur snabbt är det jämfört med äldre hårddiskar och Solid State Drives (SSD)?

Sonos vs AirPlay: Varför jag valde AirPlay för Whole House Audio

Sonos är den bästa lösningen för strömmande ljud från 400 $ för två högtalare. Men med rätt inställning kan AirPlay vara gratis. Låt oss granska detaljerna.

Google Backup and Sync App ersätter foton och Drive

Google Backup and Sync är en ny app som synkroniserar till Foton och Drive. Läs vidare för att se hur det går mot OneDrive, Dropbox, Backblaze och Crashplan.

Cord Cutting: Recension av MyIPTV med SOPlayer

MyIPTV är en kabelklippningstjänst som använder SOPlayer-appen för flera plattformar och tillhandahåller tv, filmer och andra former av media för en betald

Logitech Upplyst Living-Room Keyboard K830

Logitech släppte nyligen sitt Illuminated Living-Room Keyboard K830 som är tänkt som en följeslagare för hemunderhållning. Här är vår recension av enheten.

CloudHQ uppdaterad: Snabbare synkronisering, redigera Dropbox-filer från Google Docs

Här är en titt på uppdateringen som nyligen släppts till CloudHQ och hur den fungerar. Läs vidare för att hitta mer.

Vad är OnePlus 6T Android-telefon?

OnePlus 6T är en Android-telefon av högsta kvalitet som säljs till rabatterat pris jämfört med Apple iPhone, Google Pixel 3 eller Samsung Galaxy S9.