Hvordan kunstig intelligens kan bruge data med succes

At have rigeligt med data til rådighed er ikke nok til at skabe en vellykket AI. I øjeblikket kan en AI-algoritme ikke udtrække information direkte fra rådata. De fleste algoritmer er afhængige af ekstern indsamling og manipulation forud for analyse. Når en algoritme indsamler nyttige oplysninger, repræsenterer den muligvis ikke den rigtige information. Den følgende diskussion hjælper dig med at forstå, hvordan du indsamler, manipulerer og automatiserer dataindsamling fra et overbliksperspektiv.

Datakilderne taget i betragtning

De data, du bruger, kommer fra en række kilder. Den mest almindelige datakilde er fra information indtastet af mennesker på et tidspunkt. Selv når et system indsamler indkøbssidedata automatisk, indtaster mennesker først oplysningerne. Et menneske klikker på forskellige varer, tilføjer dem til en indkøbskurv, specificerer egenskaber (såsom størrelse) og mængde og tjekker derefter ud. Senere, efter salget, giver mennesket indkøbsoplevelsen, produktet og leveringsmetoden en vurdering og fremsætter kommentarer. Kort sagt bliver enhver shoppingoplevelse også en dataindsamlingsøvelse.

Mange datakilder i dag er afhængige af input indsamlet fra menneskelige kilder. Mennesker giver også manuelle input. Du ringer eller går ind på et kontor et sted for at lave en aftale med en professionel. En receptionist indsamler derefter oplysninger fra dig, som er nødvendige for udnævnelsen. Disse manuelt indsamlede data ender til sidst i et datasæt et eller andet sted til analyseformål.

Data indsamles også fra sensorer, og disse sensorer kan antage næsten enhver form. For eksempel baserer mange organisationer fysisk dataindsamling, såsom antallet af personer, der ser et objekt i et vindue, på mobiltelefondetektion. Ansigtsgenkendelsessoftware kan potentielt opdage gentagne kunder.

Men sensorer kan skabe datasæt fra næsten alt. Vejrtjenesten er afhængig af datasæt skabt af sensorer, der overvåger miljøforhold som regn, temperatur, luftfugtighed, skydække og så videre. Robotovervågningssystemer hjælper med at rette små fejl i robotdrift ved konstant at analysere data indsamlet af overvågningssensorer. En sensor, kombineret med en lille AI-applikation, kan fortælle dig, hvornår din aftensmad er tilberedt til perfektion i aften. Sensoren indsamler data, men AI-applikationen bruger regler til at hjælpe med at definere, hvornår maden er korrekt tilberedt.

Indhentning af pålidelige data

Ordet pålidelig virker så let at definere, men alligevel så svært at implementere. Noget er pålideligt, når de resultater, det producerer, er både forventede og konsistente. En pålidelig datakilde producerer hverdagsagtige data, der ikke indeholder overraskelser; ingen er det mindste chokeret over resultatet. Afhængigt af dit perspektiv kan det faktisk være en god ting, at de fleste mennesker ikke gaber og derefter falder i søvn, når de gennemgår data. Overraskelserne gør dataene værd at analysere og gennemgå. Data har derfor et aspekt af dualitet. Vi vil have pålidelige, hverdagsagtige, fuldt forventede data, der blot bekræfter det, vi allerede ved, men det uventede er det, der gør indsamlingen af dataene nyttig i første omgang.

Alligevel vil man ikke have data, der er så langt ud over det sædvanlige, at det næsten bliver skræmmende at gennemgå. Balance skal opretholdes ved indhentning af data. Dataene skal passe inden for visse grænser. Det skal også opfylde specifikke kriterier med hensyn til sandhedsværdi. Dataene skal også komme med forventede intervaller, og alle felter i den indgående datapost skal være udfyldt.

Til en vis grad påvirker datasikkerhed også datapålidelighed. Datakonsistens kommer i flere former. Når dataene ankommer, kan du sikre dig, at de falder inden for forventede områder og vises i en bestemt form. Efter at du har gemt dataene, kan pålideligheden dog falde, medmindre du sikrer dig, at dataene forbliver i den forventede form. En enhed, der fifler med dataene, påvirker pålideligheden, hvilket gør dataene mistænkelige og potentielt ubrugelige til senere analyse. At sikre datapålidelighed betyder, at efter at dataene ankommer, er der ingen, der manipulerer med dem for at få dem til at passe inden for et forventet domæne (hvilket gør det banalt som et resultat).

Gør menneskelige input mere pålidelige

Mennesker laver fejl - det er en del af det at være menneske. Faktisk er det urimeligt at forvente, at mennesker ikke begår fejl. Alligevel antager mange applikationsdesign, at mennesker på en eller anden måde ikke vil begå fejl af nogen art. Designet forventer, at alle blot følger reglerne. Desværre er langt de fleste brugere garanteret ikke engang at læse reglerne, fordi de fleste mennesker også er dovne eller for pressede på tid, når det kommer til at gøre ting, der ikke rigtig hjælper dem direkte.

Overvej indtastningen af en stat i en formular. Hvis du kun angiver et tekstfelt, kan nogle brugere indtaste hele statens navn, f.eks. Kansas. Selvfølgelig vil nogle brugere lave en tastefejl eller skrivefejl og komme med Kansus eller kANSAS. Ved at indstille disse fejl har mennesker og organisationer forskellige tilgange til at udføre opgaver. Nogen i forlagsbranchen bruger muligvis Associated Press (AP)-stilguiden og input Kan. En person, der er ældre og vant til retningslinjerne fra Government Printing Office (GPO) kan indtaste Kans. i stedet. Andre forkortelser bruges også. US Post Office (USPS) bruger KS, men US Coast Guard bruger KA. I mellemtiden går formularen International Standards Organisation (ISO) med US-KS. Husk at dette kun er en tilstandsindgang, som er rimelig ligetil - eller det troede du, før du læste dette afsnit. Klart,

Drop-down listebokse fungerer godt til en fantastisk række datainput, og brugen af dem sikrer, at menneskeligt input i disse felter bliver ekstremt pålideligt, fordi mennesket ikke har andet valg end at bruge en af standardindtastningerne. Naturligvis kan mennesket altid vælge den forkerte indtastning, hvor dobbelttjek kommer i spil. Nogle nyere applikationer sammenligner postnummeret med posterne i byen og staten for at se, om de matcher. Når de ikke stemmer overens, bliver brugeren igen bedt om at give det korrekte input. Dette dobbelttjek grænser til at være irriterende, men det er usandsynligt, at brugeren ser det ret ofte, så det burde ikke blive for irriterende.

Selv med krydstjek og statiske indtastninger har mennesker stadig masser af plads til at lave fejl. For eksempel kan det være problematisk at indtaste tal. Når en bruger skal indtaste 2.00, kan du muligvis se 2, eller 2.0 eller 2. eller en af en række andre poster. Heldigvis vil parsing af posten og omformatering af den løse problemet, og du kan udføre denne opgave automatisk uden brugerens hjælp.

Desværre vil omformatering ikke korrigere et fejlagtigt numerisk input. Du kan delvist afhjælpe sådanne fejl ved at inkludere områdekontrol. En kunde kan ikke købe -5 barer sæbe. Den legitime måde at vise kunden, der returnerer sæbestykkerne, er at behandle en returnering, ikke et salg. Brugeren kan dog blot have lavet en fejl, og du kan give en meddelelse, der angiver det korrekte inputområde for værdien.

Brug af automatiseret dataindsamling

Nogle mennesker tror, at automatiseret dataindsamling løser alle de menneskelige inputproblemer forbundet med datasæt. Faktisk giver automatiseret dataindsamling en række fordele:

Bedre konsistens
Forbedret pålidelighed
Lavere sandsynlighed for manglende data
Forbedret nøjagtighed
Reduceret varians for ting som tidsindstillede input

Desværre er det simpelthen forkert at sige, at automatiseret dataindsamling løser alle problemer. Automatiseret dataindsamling er stadig afhængig af sensorer, applikationer og computerhardware designet af mennesker, som kun giver adgang til de data, som mennesker beslutter at tillade. På grund af de begrænsninger, som mennesker sætter for egenskaberne ved automatiseret dataindsamling, giver resultatet ofte mindre nyttig information end håbet af designerne. Som følge heraf er automatiseret dataindsamling i konstant forandring, da designere forsøger at løse inputproblemerne.

Automatiseret dataindsamling lider også af både software- og hardwarefejl, der findes i ethvert computersystem, men med et højere potentiale for bløde problemer (som opstår, når systemet tilsyneladende fungerer, men ikke giver det ønskede resultat) end andre former for computerbaseret opsætninger. Når systemet fungerer, overstiger pålideligheden af input langt menneskelige evner. Men når der opstår bløde problemer, erkender systemet ofte, at der eksisterer et problem, som et menneske kan, og derfor kan datasættet ende med at indeholde mere middelmådige eller endda dårlige data.

Efterlad en kommentar

Snagit 2018 anmeldelse Hvad er nyt siden version 13

TechSmith Snagit er vores foretrukne screenshot- og billedredigeringssoftware. Tjek de nye funktioner i Snagit 2018!

8 onlineværktøjer til at tegne diagrammer og rutediagrammer

Har du brug for at oprette diagrammer eller rutediagrammer og vil du ikke installere ekstra software? Her er en liste over online diagramværktøjer.

Kan Spotify ikke afspille den aktuelle sang? Sådan rettes

At have et hus fyldt med trådløst tilsluttede enheder og streamingtjenester som Spotify er fantastisk, indtil tingene ikke fungerer, og du finder interessante løsninger.

Hvad er en NVMe M.2 SSD, og hvor hurtig er den?

NVMe M.2 SSD er det seneste inden for computerharddiskteknologi. Hvad er det, og hvor hurtigt er det i forhold til ældre harddiske og Solid State Drives (SSD)?

Sonos vs. AirPlay: Hvorfor jeg valgte AirPlay til Whole House Audio

Sonos er den perfekte streaming-lydløsning, der starter ved $400 for to højttalere. Men med den rigtige opsætning kan AirPlay være gratis. Lad os gennemgå detaljerne.

Google Backup and Sync App erstatter Fotos og Drev

Google Backup and Sync er en ny app, der synkroniserer til Fotos og Drev. Læs videre for at se, hvordan det klarer sig i forhold til OneDrive, Dropbox, Backblaze og Crashplan.

Ledningsskæring: Gennemgang af MyIPTV med SOPlayer

MyIPTV er en kabelskæringstjeneste, der bruger SOPlayer-appen til flere platforme og leverer tv, film og andre former for medier til en betalt betaling

Logitech Oplyst Living-Room Keyboard K830

Logitech udgav for nylig sit Illuminated Living-Room Keyboard K830, der er tænkt som en hjemmeunderholdnings-ledsager. Her er vores anmeldelse af enheden.

CloudHQ Opdateret: Hurtigere synkronisering, Rediger Dropbox-filer fra Google Docs

Her er et kig på opdateringen, der for nylig blev udgivet til CloudHQ, og hvordan den fungerer. Læs videre for at finde mere.

Hvad er OnePlus 6T Android-telefonen?

OnePlus 6T er en førsteklasses flagskibskvalitet Android-telefon, som sælges med rabat i forhold til Apple iPhone, Google Pixel 3 eller Samsung Galaxy S9.