Hvordan kunstig intelligens kan bruke data på en vellykket måte

Å ha rikelig med data tilgjengelig er ikke nok til å skape en vellykket AI. For tiden kan ikke en AI-algoritme trekke ut informasjon direkte fra rådata. De fleste algoritmer er avhengige av ekstern innsamling og manipulering før analyse. Når en algoritme samler inn nyttig informasjon, representerer den kanskje ikke riktig informasjon. Den følgende diskusjonen hjelper deg å forstå hvordan du samler inn, manipulerer og automatiserer datainnsamling fra et oversiktsperspektiv.

Med tanke på datakildene

Dataene du bruker kommer fra en rekke kilder. Den vanligste datakilden er fra informasjon som er lagt inn av mennesker på et tidspunkt. Selv når et system samler inn shoppingsidedata automatisk, legger mennesker først inn informasjonen. Et menneske klikker på forskjellige varer, legger dem til i en handlekurv, spesifiserer egenskaper (som størrelse) og antall, og sjekker deretter ut. Senere, etter salget, gir mennesket handleopplevelsen, produktet og leveringsmetoden en vurdering og kommer med kommentarer. Kort sagt, hver handleopplevelse blir også en datainnsamlingsøvelse.

Mange datakilder i dag er avhengige av innspill samlet fra menneskelige kilder. Mennesker gir også manuelle innspill. Du ringer eller går inn på et kontor et sted for å gjøre en avtale med en profesjonell. En resepsjonist samler deretter informasjon fra deg som er nødvendig for avtalen. Disse manuelt innsamlede dataene havner til slutt i et datasett et sted for analyseformål.

Data samles også inn fra sensorer, og disse sensorene kan ha nesten hvilken som helst form. For eksempel baserer mange organisasjoner fysisk datainnsamling, for eksempel antall personer som ser på et objekt i et vindu, på mobiltelefondeteksjon. Programvare for ansiktsgjenkjenning kan potensielt oppdage gjentatte kunder.

Imidlertid kan sensorer lage datasett fra nesten hva som helst. Værtjenesten er avhengig av datasett laget av sensorer som overvåker miljøforhold som regn, temperatur, fuktighet, skydekke og så videre. Robotovervåkingssystemer hjelper til med å korrigere små feil i robotdrift ved å kontinuerlig analysere data som samles inn av overvåkingssensorer. En sensor, kombinert med en liten AI-applikasjon, kan fortelle deg når middagen er perfekt tilberedt i kveld. Sensoren samler inn data, men AI-applikasjonen bruker regler for å definere når maten er riktig tilberedt.

Innhenting av pålitelige data

Ordet pålitelig virker så enkelt å definere, men likevel så vanskelig å implementere. Noe er pålitelig når resultatene det gir er både forventede og konsistente. En pålitelig datakilde produserer hverdagslige data som ikke inneholder noen overraskelser; ingen er det minste sjokkert over resultatet. Avhengig av perspektivet ditt, kan det faktisk være en god ting at folk flest ikke gjesper og deretter sovner når de gjennomgår data. Overraskelsene gjør dataene verdt å analysere og gjennomgå. Følgelig har data et aspekt av dualitet. Vi vil ha pålitelige, dagligdagse, fullt forventet data som rett og slett bekrefter det vi allerede vet, men det uventede er det som gjør innsamling av data nyttig i utgangspunktet.

Likevel vil du ikke ha data som er så langt utenom det vanlige at det nesten blir skremmende å anmelde. Balanse må opprettholdes ved innhenting av data. Dataene må passe innenfor visse grenser. Den må også oppfylle spesifikke kriterier for sannhetsverdi. Dataene skal også komme med forventede intervaller, og alle feltene til den innkommende dataposten skal være komplette.

Til en viss grad påvirker datasikkerhet også datapålitelighet. Datakonsistens kommer i flere former. Når dataene kommer, kan du sikre at de faller innenfor forventede områder og vises i en bestemt form. Etter at du har lagret dataene, kan imidlertid påliteligheten reduseres med mindre du sørger for at dataene forblir i forventet form. En enhet som fikler med dataene påvirker påliteligheten, noe som gjør dataene mistenkelige og potensielt ubrukelige for analyse senere. Å sikre datapålitelighet betyr at etter at dataene ankommer, er det ingen som tukler med dem for å få dem til å passe innenfor et forventet domene (som et resultat gjør det verdslig).

Gjør menneskelig innspill mer pålitelig

Mennesker gjør feil - det er en del av det å være menneske. Faktisk er det urimelig å forvente at mennesker ikke vil gjøre feil. Likevel antar mange applikasjonsdesign at mennesker på en eller annen måte ikke vil gjøre feil av noe slag. Designet forventer at alle rett og slett følger reglene. Dessverre er de aller fleste brukere garantert ikke engang å lese reglene fordi de fleste mennesker også er late eller for presset på tid når det kommer til å gjøre ting som egentlig ikke hjelper dem direkte.

Vurder oppføringen av en stat i et skjema. Hvis du bare oppgir et tekstfelt, kan noen brukere skrive inn hele statens navn, for eksempel Kansas. Selvfølgelig vil noen brukere gjøre en skrivefeil eller bruk av store bokstaver og komme opp med Kansus eller kANSAS. Ved å sette disse feilene har mennesker og organisasjoner ulike tilnærminger til å utføre oppgaver. Noen i forlagsbransjen kan bruke Associated Press (AP) stilguide og legge inn Kan. Noen som er eldre og vant til retningslinjer fra Government Printing Office (GPO) kan legge inn Kans. i stedet. Andre forkortelser brukes også. US Post Office (USPS) bruker KS, men US Coast Guard bruker KA. I mellomtiden går skjemaet International Standards Organization (ISO) med US-KS. Merk deg, dette er bare en statlig oppføring, som er rimelig grei - eller det trodde du før du leste denne delen. Helt klart,

Rullegardinbokser fungerer bra for en utrolig rekke datainndata, og bruk av dem sikrer at menneskelig input i disse feltene blir ekstremt pålitelig fordi mennesket ikke har noe annet valg enn å bruke en av standardoppføringene. Selvfølgelig kan mennesket alltid velge feil oppføring, og det er her dobbeltsjekker spiller inn. Noen nyere applikasjoner sammenligner postnummeret med oppføringene i byen og staten for å se om de stemmer overens. Når de ikke samsvarer, blir brukeren igjen bedt om å gi riktig input. Denne dobbeltsjekken grenser til å være irriterende, men brukeren vil neppe se den veldig ofte, så den bør ikke bli for irriterende.

Selv med krysssjekker og statiske oppføringer, har mennesker fortsatt god plass til å gjøre feil. For eksempel kan det være problematisk å skrive inn tall. Når en bruker må angi 2.00, kan du se 2, eller 2.0, eller 2., eller en av en rekke andre oppføringer. Heldigvis vil parsing av oppføringen og omformatering av den løse problemet, og du kan utføre denne oppgaven automatisk, uten brukerens hjelp.

Dessverre vil ikke omformatering korrigere en feilaktig numerisk inntasting. Du kan delvis redusere slike feil ved å inkludere områdekontroller. En kunde kan ikke kjøpe -5 såpestykker. Den legitime måten å vise kunden som returnerer såpestykkene er å behandle en retur, ikke et salg. Imidlertid kan brukeren ganske enkelt ha gjort en feil, og du kan gi en melding som angir riktig inndataområde for verdien.

Bruker automatisert datainnsamling

Noen mennesker tror at automatisert datainnsamling løser alle menneskelige input-problemer knyttet til datasett. Faktisk gir automatisert datainnsamling en rekke fordeler:

Bedre konsistens
Forbedret pålitelighet
Lavere sannsynlighet for manglende data
Forbedret nøyaktighet
Redusert varians for ting som tidsbestemte innganger

Dessverre er det rett og slett feil å si at automatisert datainnsamling løser alle problemer. Automatisert datainnsamling er fortsatt avhengig av sensorer, applikasjoner og maskinvare designet av mennesker som bare gir tilgang til data som mennesker bestemmer seg for å tillate. På grunn av grensene som mennesker setter for egenskapene til automatisert datainnsamling, gir resultatet ofte mindre nyttig informasjon enn designerne håpet på. Følgelig er automatisert datainnsamling i konstant endring ettersom designere prøver å løse inndataproblemene.

Automatisert datainnsamling lider også av både programvare- og maskinvarefeil som finnes i ethvert datasystem, men med et høyere potensial for myke problemer (som oppstår når systemet tilsynelatende fungerer, men ikke gir det ønskede resultatet) enn andre typer datamaskinbaserte oppsett. Når systemet fungerer, overgår påliteligheten til input langt menneskelige evner. Men når myke problemer oppstår, klarer systemet ofte ikke å gjenkjenne at et problem eksisterer, som et menneske kan, og derfor kan datasettet ende opp med å inneholde mer middelmådige eller til og med dårlige data.

Snagit 2018 gjennomgang Hva er nytt siden versjon 13

TechSmith Snagit er vår favorittprogramvare for skjermbilder og bilderedigering. Sjekk ut de nye funksjonene i Snagit 2018!

8 elektroniske verktøy for å tegne diagrammer og flytskjemaer

Trenger du å lage diagrammer eller flytskjemaer og ønsker ikke å installere ekstra programvare? Her er en liste over online diagramverktøy.

Kan ikke Spotify spille den gjeldende sangen? Hvordan fikse

Å ha et hus fullt av trådløst tilkoblede enheter og strømmetjenester som Spotify er flott inntil ting ikke fungerer og du finner interessante løsninger.

Hva er en NVMe M.2 SSD og hvor rask er den?

NVMe M.2 SSD er det siste innen datamaskinharddiskteknologi. Hva er det og hvor raskt er det kontra eldre harddisker og Solid State Drives (SSD)?

Sonos vs. AirPlay: Hvorfor jeg valgte AirPlay for Whole House Audio

Sonos er den beste streaming-lydløsningen som starter på $400 for to høyttalere. Men med riktig oppsett kan AirPlay være gratis. La oss se gjennom detaljene.

Google Backup and Sync App erstatter bilder og Disk

Google Backup and Sync er en ny app som synkroniserer til Bilder og Disk. Les videre for å se hvordan det står opp mot OneDrive, Dropbox, Backblaze og Crashplan.

Cord Cutting: Gjennomgang av MyIPTV med SOPlayer

MyIPTV er en kabelskjæringstjeneste som bruker SOPlayer-appen for flere plattformer og tilbyr TV, filmer og andre former for media for en betalt

Logitech Opplyst Living-Room Keyboard K830

Logitech ga nylig ut sitt Illuminated Living-Room Keyboard K830 som er ment som en hjemmeunderholdningskamerat. Her er vår anmeldelse av enheten.

CloudHQ Oppdatert: Raskere synkronisering, Rediger Dropbox-filer fra Google Docs

Her er en titt på oppdateringen nylig utgitt til CloudHQ og hvordan den fungerer. Les videre for å finne mer.

Hva er OnePlus 6T Android-telefon?

OnePlus 6T er en førsteklasses flaggskipkvalitet Android-telefon som selges med rabatt sammenlignet med Apple iPhone, Google Pixel 3 eller Samsung Galaxy S9.