Eduka tehisintellekti loomiseks ei piisa rohkete andmete olemasolust. Praegu ei saa AI-algoritm teavet otse toorandmetest eraldada. Enamik algoritme tugineb enne analüüsi välisele kogumisele ja manipuleerimisele. Kui algoritm kogub kasulikku teavet, ei pruugi see esindada õiget teavet. Järgmine arutelu aitab teil ülevaate vaatenurgast mõista, kuidas andmete kogumist, manipuleerimist ja automatiseerimist.
Arvestades andmeallikaid
Teie kasutatavad andmed pärinevad mitmest allikast. Kõige tavalisem andmeallikas pärineb inimeste poolt mingil hetkel sisestatud teabest. Isegi kui süsteem kogub ostusaitide andmeid automaatselt, sisestavad inimesed selle teabe alguses. Inimene klõpsab erinevatel kaupadel, lisab need ostukorvi, määrab omadused (nt suuruse) ja koguse ning seejärel registreerib end välja. Hiljem, pärast müüki, annab inimene ostukogemusele, tootele ja tarneviisile hinnangu ning kommenteerib. Lühidalt öeldes muutub iga ostukogemus ka andmete kogumiseks.
Paljud andmeallikad tuginevad tänapäeval inimallikatelt kogutud sisendile. Inimesed sisestavad ka käsitsi. Helistate või lähete kuskile kontorisse, et professionaaliga kohtumine kokku leppida. Seejärel kogub administraator teilt kohtumiseks vajalikku teavet. Need käsitsi kogutud andmed jõuavad lõpuks analüüsi eesmärgil kuskile andmekogumisse.
Andmeid kogutakse ka anduritelt ja need andurid võivad olla peaaegu igasugusel kujul. Näiteks põhinevad paljud organisatsioonid füüsiliste andmete kogumisel, näiteks aknas objekti vaatavate inimeste arvul, mobiiltelefoni tuvastamisel. Näotuvastustarkvara võib potentsiaalselt tuvastada korduvaid kliente.
Andurid võivad aga luua andmekogumeid peaaegu kõigest. Ilmateenus tugineb andurite loodud andmekogumitele, mis jälgivad keskkonnatingimusi, nagu vihm, temperatuur, niiskus, pilvkate jne. Robotseiresüsteemid aitavad parandada väikseid vigu robotite töös, analüüsides pidevalt jälgimisandurite kogutud andmeid. Andur koos väikese AI-rakendusega võib teile öelda, kui teie õhtusöök on täna õhtul täiuslikult valmistatud. Andur kogub andmeid, kuid AI-rakendus kasutab reegleid, mis aitavad määratleda, millal toit on korralikult küpsetatud.
Usaldusväärsete andmete saamine
Sõna usaldusväärne tundub nii lihtne määratleda, kuid samas nii raske rakendada. Miski on usaldusväärne, kui selle tulemused on nii oodatud kui ka järjepidevad. Usaldusväärne andmeallikas toodab igapäevaseid andmeid, mis ei sisalda üllatusi; keegi ei ole tulemusest vähimalgi määral šokeeritud. Olenevalt teie vaatenurgast võib tegelikult olla hea, et enamik inimesi ei haiguta ega jää siis andmete ülevaatamisel magama. Üllatused muudavad andmed analüüsimist ja ülevaatamist väärt. Järelikult on andmetel duaalsuse aspekt. Soovime usaldusväärseid, igapäevaseid ja täielikult ootuspäraseid andmeid, mis lihtsalt kinnitavad seda, mida me juba teame, kuid ootamatu on see, mis muudab andmete kogumise esmajoones kasulikuks.
Siiski ei taha te andmeid, mis on nii tavapärasest erinevad, et nende ülevaatamine muutub peaaegu hirmutavaks. Andmete hankimisel tuleb säilitada tasakaal. Andmed peavad mahtuma teatud piiridesse. Samuti peab see vastama konkreetsetele tõeväärtuse kriteeriumidele. Andmed peavad tulema ka eeldatavate intervallidega ja kõik sissetuleva andmekirje väljad peavad olema täidetud.
Teatud määral mõjutab andmete turvalisus ka andmete usaldusväärsust. Andmete järjepidevus on mitmel kujul. Kui andmed saabuvad, saate tagada, et need jäävad oodatud vahemikku ja kuvatakse teatud kujul. Kuid pärast andmete salvestamist võib usaldusväärsus väheneda, kui te ei taga, et andmed jäävad oodatud kujul. Andmete kallal askeldav üksus mõjutab usaldusväärsust, muutes andmed kahtlaseks ja potentsiaalselt hiljem analüüsimiseks kasutamiskõlbmatuks. Andmete usaldusväärsuse tagamine tähendab, et pärast andmete saabumist ei muuda neid keegi, et need eeldatavale domeenile mahuks (mis muudab selle tulemuseks igapäevaseks).
Inimpanuse muutmine usaldusväärsemaks
Inimesed teevad vigu – see on osa inimeseks olemisest. Tegelikult on ebamõistlik eeldada, et inimesed ei tee vigu. Paljud rakenduste kujundused eeldavad siiski, et inimesed ei tee mingil moel mingeid vigu. Disain eeldab, et kõik järgivad lihtsalt reegleid. Kahjuks on tagatud, et valdav enamus kasutajaid ei loe isegi reegleid, sest enamik inimesi on ka laisad või liiga sunnitud aega tegema, kui on vaja teha asju, mis neid tegelikult otseselt ei aita.
Mõelge oleku sisestamisele vormi. Kui sisestate ainult tekstivälja, võivad mõned kasutajad sisestada kogu osariigi nime, näiteks Kansas. Muidugi teevad mõned kasutajad kirjavea või suurtähtede kasutamise vea ja tulevad välja Kansas või kANSAS. Nende vigade määramisel on inimestel ja organisatsioonidel ülesannete täitmiseks erinevaid lähenemisviise. Keegi kirjastustööstusest võib kasutada Associated Pressi (AP) stiilijuhendit ja sisestada Kani. Keegi, kes on vanem ja harjunud valitsuse trükibüroo (GPO) juhistega, võib sisestada Kansi. selle asemel. Kasutatakse ka muid lühendeid. USA postkontor (USPS) kasutab KS-i, kuid USA rannavalve KA-d. Vahepeal käib Rahvusvahelise Standardiorganisatsiooni (ISO) vorm koos US-KS-iga. Pidage meeles, see on lihtsalt olekukirje, mis on üsna lihtne – või nii arvasite enne selle jaotise lugemist. Selge,
Rippmenüükastid sobivad hästi suure hulga andmesisendite jaoks ja nende kasutamine tagab, et inimeste sisestamine nendele väljadele muutub äärmiselt usaldusväärseks, kuna inimesel ei jää muud üle, kui kasutada üht vaikekirjetest. Muidugi võib inimene alati valida vale sisestuse, mille puhul tuleb mängu topeltkontroll. Mõned uuemad rakendused võrdlevad sihtnumbrit linna ja osariigi kirjetega, et näha, kas need ühtivad. Kui need ei ühti, palutakse kasutajal uuesti sisestada õige sisend. See topeltkontroll võib olla tüütu, kuid tõenäoliselt ei näe kasutaja seda sageli, nii et see ei tohiks muutuda liiga tüütuks.
Isegi ristkontrollide ja staatiliste sisestuste korral on inimestel endiselt palju ruumi vigade tegemiseks. Näiteks võib numbrite sisestamine olla problemaatiline. Kui kasutaja peab sisestama 2.00, võite näha 2, 2,0 või 2 või mõnda muud kirjet. Õnneks lahendab probleemi kirje sõelumine ja ümbervormindamine ning saate seda toimingut täita automaatselt, ilma kasutaja abita.
Kahjuks ei paranda ümbervormindamine vigast numbrisisendit. Saate selliseid vigu osaliselt leevendada, lisades vahemiku kontrolli. Klient ei saa osta –5 tükki seepi. Õiguspärane viis näidata kliendile seebitükkide tagastamist on menetleda tagastamist, mitte müüki. Kuid kasutaja võib olla lihtsalt teinud vea ja saate esitada teate, mis näitab väärtuse õiget sisestusvahemikku.
Automatiseeritud andmete kogumise kasutamine
Mõned inimesed arvavad, et automaatne andmete kogumine lahendab kõik andmekogumitega seotud inimsisendiga seotud probleemid. Tegelikult pakub automatiseeritud andmete kogumine mitmeid eeliseid:
- Parem järjepidevus
- Parem töökindlus
- Väiksem andmete puudumise tõenäosus
- Täiustatud täpsus
- Vähendatud dispersioon selliste asjade jaoks nagu ajastatud sisendid
Kahjuks on lihtsalt vale väita, et andmete automatiseeritud kogumine lahendab kõik probleemid. Automatiseeritud andmete kogumine tugineb endiselt inimeste loodud anduritele, rakendustele ja arvutiriistvarale, mis võimaldab juurdepääsu ainult neile andmetele, mida inimesed otsustavad lubada. Kuna inimesed seavad automatiseeritud andmete kogumise omadustele piirid, pakub tulemus sageli vähem kasulikku teavet, kui disainerid lootsid. Järelikult on automatiseeritud andmete kogumine pidevas muutumises, kuna disainerid püüavad sisendprobleeme lahendada.
Automaatne andmete kogumine kannatab ka igas arvutisüsteemis esinevate tarkvara- ja riistvaravigade all, kuid suurema tõenäosusega pehmete probleemide tekkeks (mis tekivad siis, kui süsteem näiliselt töötab, kuid ei anna soovitud tulemust) kui muud tüüpi arvutipõhised vead. seadistusi. Kui süsteem töötab, ületab sisendi usaldusväärsus kaugelt inimvõimed. Kuid pehmete probleemide ilmnemisel ei suuda süsteem sageli probleemi olemasolu tuvastada, nagu inimene võib, ja seetõttu võib andmestik sisaldada keskpärasemaid või isegi halbu andmeid.