Hur artificiell intelligens kan använda data framgångsrikt

Att ha rikligt med data tillgänglig är inte tillräckligt för att skapa en framgångsrik AI. För närvarande kan en AI-algoritm inte extrahera information direkt från rådata. De flesta algoritmer förlitar sig på extern insamling och manipulation före analys. När en algoritm samlar in användbar information kanske den inte representerar rätt information. Följande diskussion hjälper dig att förstå hur du samlar in, manipulerar och automatiserar datainsamling ur ett översiktsperspektiv.

Med tanke på datakällorna

Uppgifterna du använder kommer från ett antal källor. Den vanligaste datakällan är från information som matats in av människor någon gång. Även när ett system samlar in shoppingwebbplatsdata automatiskt, anger människor initialt informationen. En människa klickar på olika föremål, lägger dem i en kundvagn, anger egenskaper (som storlek) och kvantitet och checkar sedan ut. Senare, efter försäljningen, ger människan shoppingupplevelsen, produkten och leveransmetoden ett betyg och gör kommentarer. Kort sagt, varje shoppingupplevelse blir också en datainsamlingsövning.

Många datakällor förlitar sig idag på input från mänskliga källor. Människor ger också manuell input. Du ringer eller går in på ett kontor någonstans för att boka tid med en professionell. En receptionist samlar sedan in information från dig som behövs för mötet. Denna manuellt insamlade data hamnar så småningom i en datauppsättning någonstans för analysändamål.

Data samlas också in från sensorer, och dessa sensorer kan ta nästan vilken form som helst. Till exempel baserar många organisationer fysisk datainsamling, såsom antalet personer som tittar på ett objekt i ett fönster, på mobiltelefondetektering. Programvara för ansiktsigenkänning kan potentiellt upptäcka återkommande kunder.

Men sensorer kan skapa dataset från nästan vad som helst. Vädertjänsten förlitar sig på datauppsättningar skapade av sensorer som övervakar miljöförhållanden som regn, temperatur, luftfuktighet, molntäcke och så vidare. Robotövervakningssystem hjälper till att korrigera små brister i robotdrift genom att ständigt analysera data som samlas in av övervakningssensorer. En sensor, i kombination med en liten AI-applikation, kan berätta när din middag är perfekt tillagad ikväll. Sensorn samlar in data, men AI-applikationen använder regler för att definiera när maten är korrekt tillagad.

Skaffa tillförlitlig data

Ordet pålitlig verkar så lätt att definiera, men ändå så svårt att implementera. Något är tillförlitligt när resultaten det ger är både förväntade och konsekventa. En pålitlig datakälla producerar alldaglig data som inte innehåller några överraskningar; ingen är det minsta chockad över resultatet. Beroende på ditt perspektiv kan det faktiskt vara bra att de flesta människor inte gäspar och sedan somnar när de granskar data. Överraskningarna gör data värda att analysera och granska. Följaktligen har data en aspekt av dualitet. Vi vill ha tillförlitliga, vardagliga, helt förutsedda data som helt enkelt bekräftar det vi redan vet, men det oväntade är det som gör insamlingen av data användbar i första hand.

Ändå vill man inte ha data som är så långt utöver det vanliga att det nästan blir skrämmande att granska. Balans måste upprätthållas när data skaffas. Uppgifterna måste rymmas inom vissa gränser. Den måste också uppfylla specifika kriterier för sanningsvärde. Uppgifterna måste också komma med förväntade intervall, och alla fält i den inkommande dataposten måste vara kompletta.

Till viss del påverkar datasäkerheten även datatillförlitligheten. Datakonsistens finns i flera former. När data anländer kan du se till att den faller inom förväntade intervall och visas i en viss form. Men efter att du har lagrat data kan tillförlitligheten minska om du inte ser till att data förblir i den förväntade formen. En enhet som fifflar med data påverkar tillförlitligheten, vilket gör data misstänkta och potentiellt oanvändbara för analys senare. Att säkerställa datatillförlitlighet innebär att efter att data anländer, ingen manipulerar med den för att få den att passa inom en förväntad domän (som gör det vardagligt som ett resultat).

Gör mänsklig input mer tillförlitlig

Människor gör misstag - det är en del av att vara människa. Faktum är att förvänta sig att människor inte kommer att göra misstag är orimligt. Ändå antar många applikationsdesigner att människor på något sätt inte kommer att göra misstag av något slag. Designen förväntar sig att alla helt enkelt följer reglerna. Tyvärr är det garanterat att de allra flesta användare inte ens läser reglerna eftersom de flesta människor också är lata eller för tidspressade när det kommer till att göra saker som inte riktigt hjälper dem direkt.

Överväg inträdet av en stat i ett formulär. Om du bara anger ett textfält kan vissa användare ange hela statens namn, till exempel Kansas. Naturligtvis kommer vissa användare att göra ett stavfel eller fel med stora bokstäver och komma på Kansus eller kANSAS. När man ställer in dessa fel har människor och organisationer olika tillvägagångssätt för att utföra uppgifter. Någon i förlagsbranschen kan använda Associated Press (AP) stilguide och skriva in Kan. Någon som är äldre och van vid riktlinjerna från Government Printing Office (GPO) kan skriva Kans. istället. Andra förkortningar används också. US Post Office (USPS) använder KS, men US Coast Guard använder KA. Under tiden går formuläret International Standards Organization (ISO) med US-KS. Tänk på att det här bara är ett statligt inlägg, vilket är ganska okomplicerat - eller så trodde du innan du läste det här avsnittet. Klart,

Listrutorna i rullgardinsmenyn fungerar bra för en fantastisk mängd datainmatningar, och att använda dem säkerställer att mänsklig input i dessa fält blir extremt tillförlitlig eftersom människan inte har något annat val än att använda en av standardposterna. Naturligtvis kan människan alltid välja den felaktiga posten, vilket är där dubbelkontroller spelar in. Vissa nyare applikationer jämför postnumret med posterna i staden och staten för att se om de matchar. När de inte stämmer överens ombeds användaren igen att ge rätt inmatning. Denna dubbelkontroll gränsar till att vara irriterande, men det är osannolikt att användaren ser det ofta, så det bör inte bli för irriterande.

Även med korskontroller och statiska poster har människor fortfarande gott om utrymme för att göra misstag. Till exempel kan det vara problematiskt att ange siffror. När en användare behöver ange 2.00 kan du se 2, eller 2.0, eller 2., eller någon av en mängd andra poster. Lyckligtvis kommer problemet att lösas genom att analysera posten och formatera om den, och du kan utföra denna uppgift automatiskt utan användarens hjälp.

Tyvärr korrigerar inte omformatering en felaktig numerisk inmatning. Du kan delvis mildra sådana fel genom att inkludera intervallkontroller. En kund kan inte köpa –5 tvål. Det legitima sättet att visa kunden som returnerar tvålbitarna är att behandla en retur, inte en försäljning. Däremot kan användaren helt enkelt ha gjort ett fel, och du kan ge ett meddelande som anger rätt inmatningsintervall för värdet.

Använder automatisk datainsamling

Vissa människor tror att automatiserad datainsamling löser alla mänskliga inmatningsproblem som är förknippade med datamängder. Faktum är att automatisk datainsamling ger ett antal fördelar:

  • Bättre konsistens
  • Förbättrad tillförlitlighet
  • Lägre sannolikhet att data saknas
  • Förbättrad noggrannhet
  • Minskad varians för saker som tidsinställda ingångar

Tyvärr är det helt enkelt felaktigt att säga att automatisk datainsamling löser alla problem. Automatiserad datainsamling bygger fortfarande på sensorer, applikationer och datorhårdvara som designats av människor och som endast ger tillgång till de data som människor bestämmer sig för att tillåta. På grund av de begränsningar som människor sätter för egenskaperna hos automatiserad datainsamling, ger resultatet ofta mindre användbar information än vad designarna hoppats på. Följaktligen är automatiserad datainsamling i ett konstant tillstånd av förändring när designers försöker lösa inmatningsproblemen.

Automatiserad datainsamling lider också av både mjukvaru- och hårdvarufel som finns i alla datorsystem, men med en högre potential för mjuka problem (som uppstår när systemet uppenbarligen fungerar men inte ger önskat resultat) än andra typer av datorbaserade inställningar. När systemet fungerar överstiger tillförlitligheten av inmatningen vida mänskliga förmågor. Men när mjuka problem uppstår misslyckas systemet ofta med att inse att ett problem existerar, som en människa kan, och därför kan datasetet innehålla mer mediokra eller till och med dålig data.


Snagit 2018 Recension Vad är nytt sedan version 13

Snagit 2018 Recension Vad är nytt sedan version 13

TechSmith Snagit är vårt favoritprogram för skärmdumpar och bildredigering. Kolla in de nya funktionerna i Snagit 2018!

8 onlineverktyg för att rita diagram och flödesscheman

8 onlineverktyg för att rita diagram och flödesscheman

Behöver du skapa diagram eller flödesscheman och vill inte installera extra programvara? Här är en lista över diagramverktyg online.

Kan Spotify inte spela den aktuella låten? Hur man fixar

Kan Spotify inte spela den aktuella låten? Hur man fixar

Att ha ett hus fullt av trådlöst uppkopplade enheter och streamingtjänster som Spotify är fantastiskt tills saker och ting inte fungerar och du hittar intressanta lösningar.

Vad är en NVMe M.2 SSD och hur snabb är den?

Vad är en NVMe M.2 SSD och hur snabb är den?

NVMe M.2 SSD är det senaste inom datorhårddiskteknik. Vad är det och hur snabbt är det jämfört med äldre hårddiskar och Solid State Drives (SSD)?

Sonos vs AirPlay: Varför jag valde AirPlay för Whole House Audio

Sonos vs AirPlay: Varför jag valde AirPlay för Whole House Audio

Sonos är den bästa lösningen för strömmande ljud från 400 $ för två högtalare. Men med rätt inställning kan AirPlay vara gratis. Låt oss granska detaljerna.

Google Backup and Sync App ersätter foton och Drive

Google Backup and Sync App ersätter foton och Drive

Google Backup and Sync är en ny app som synkroniserar till Foton och Drive. Läs vidare för att se hur det går mot OneDrive, Dropbox, Backblaze och Crashplan.

Cord Cutting: Recension av MyIPTV med SOPlayer

Cord Cutting: Recension av MyIPTV med SOPlayer

MyIPTV är en kabelklippningstjänst som använder SOPlayer-appen för flera plattformar och tillhandahåller tv, filmer och andra former av media för en betald

Logitech Upplyst Living-Room Keyboard K830

Logitech Upplyst Living-Room Keyboard K830

Logitech släppte nyligen sitt Illuminated Living-Room Keyboard K830 som är tänkt som en följeslagare för hemunderhållning. Här är vår recension av enheten.

CloudHQ uppdaterad: Snabbare synkronisering, redigera Dropbox-filer från Google Docs

CloudHQ uppdaterad: Snabbare synkronisering, redigera Dropbox-filer från Google Docs

Här är en titt på uppdateringen som nyligen släppts till CloudHQ och hur den fungerar. Läs vidare för att hitta mer.

Vad är OnePlus 6T Android-telefon?

Vad är OnePlus 6T Android-telefon?

OnePlus 6T är en Android-telefon av högsta kvalitet som säljs till rabatterat pris jämfört med Apple iPhone, Google Pixel 3 eller Samsung Galaxy S9.