Razpoložljivih veliko podatkov ni dovolj za ustvarjanje uspešne umetne inteligence. Trenutno algoritem AI ne more izluščiti informacij neposredno iz neobdelanih podatkov. Večina algoritmov se zanaša na zunanje zbiranje in manipulacijo pred analizo. Ko algoritem zbira koristne informacije, morda ne predstavlja pravih informacij. Naslednja razprava vam pomaga razumeti, kako zbirati, manipulirati in avtomatizirati zbiranje podatkov s pregledne perspektive.
Glede na vire podatkov
Podatki, ki jih uporabljate, prihajajo iz številnih virov. Najpogostejši vir podatkov so informacije, ki so jih na neki točki vnesli ljudje. Tudi ko sistem samodejno zbira podatke o nakupovalnem mestu, ljudje najprej vnesejo informacije. Človek klikne različne predmete, jih doda v nakupovalni voziček, določi značilnosti (kot je velikost) in količino ter nato odjavi. Kasneje, po prodaji, človek nakupovalni izkušnji, izdelku in načinu dostave oceni in komentira. Skratka, vsaka nakupovalna izkušnja postane tudi vaja zbiranja podatkov.
Številni viri podatkov se danes zanašajo na vložke, zbrane iz človeških virov. Ljudje zagotavljajo tudi ročni vnos. Pokličete ali greste nekam v pisarno, da se dogovorite za sestanek s strokovnjakom. Receptor nato od vas zbere informacije, ki so potrebne za sestanek. Ti ročno zbrani podatki sčasoma končajo nekje v naboru podatkov za namene analize.
Podatki se zbirajo tudi iz senzorjev, ti senzorji pa so lahko v skoraj kateri koli obliki. Številne organizacije na primer bazirajo zbiranje fizičnih podatkov, kot je število ljudi, ki si ogledujejo predmet v oknu, na zaznavanju mobilnega telefona. Programska oprema za prepoznavanje obrazov bi lahko zaznala ponavljajoče se stranke.
Vendar pa lahko senzorji ustvarijo nabore podatkov iz skoraj vsega. Vremenska storitev se opira na nize podatkov, ki jih ustvarijo senzorji, ki spremljajo okoljske razmere, kot so dež, temperatura, vlažnost, oblačnost itd. Robotski nadzorni sistemi pomagajo odpraviti majhne napake v robotskem delovanju z nenehno analizo podatkov, ki jih zbirajo nadzorni senzorji. Senzor v kombinaciji z majhno aplikacijo AI vam lahko pove, kdaj je vaša večerja nocoj pripravljena do popolnosti. Senzor zbira podatke, vendar aplikacija AI uporablja pravila za pomoč pri določanju, kdaj je hrana pravilno kuhana.
Pridobivanje zanesljivih podatkov
Besedo zanesljiv se zdi tako enostavno opredeliti, a tako težko izvesti. Nekaj je zanesljivo, če so rezultati pričakovani in dosledni. Zanesljiv vir podatkov proizvaja vsakdanje podatke, ki ne vsebujejo nobenih presenečenj; nihče ni niti najmanj šokiran nad izidom. Glede na vašo perspektivo bi lahko bilo dejansko dobro, da večina ljudi med pregledovanjem podatkov ne zeha in nato ne zaspi. Zaradi presenečenj je podatke vredno analizirati in pregledati. Posledično imajo podatki vidik dvojnosti. Želimo zanesljive, vsakdanje, popolnoma pričakovane podatke, ki preprosto potrjujejo, kar že vemo, vendar je nepričakovano tisto, zaradi česar je zbiranje podatkov uporabno.
Kljub temu ne želite podatkov, ki so tako daleč od običajnih, da postane skoraj strašljivo pregledati. Pri pridobivanju podatkov je treba vzdrževati ravnotežje. Podatki se morajo ujemati v določenih mejah. Prav tako mora izpolnjevati posebna merila glede resnične vrednosti. Podatki morajo prihajati tudi v pričakovanih intervalih, vsa polja vhodnega podatkovnega zapisa pa morajo biti izpolnjena.
Varnost podatkov do neke mere vpliva tudi na zanesljivost podatkov. Doslednost podatkov je na voljo v več oblikah. Ko podatki prispejo, lahko zagotovite, da sodijo v pričakovane obsege in se prikažejo v določeni obliki. Ko pa podatke shranite, se lahko zanesljivost zmanjša, razen če zagotovite, da podatki ostanejo v pričakovani obliki. Entiteta, ki se poigrava s podatki, vpliva na zanesljivost, zaradi česar so podatki sumljivi in potencialno neuporabni za kasnejšo analizo. Zagotavljanje zanesljivosti podatkov pomeni, da po prispetju podatkov nihče ne posega v njih, da bi ustrezali pričakovani domeni (posledično postanejo vsakdanji).
Človeški vnos je bolj zanesljiv
Ljudje delamo napake - to je del človeka. Pravzaprav je pričakovati, da ljudje ne bodo delali napak, nerazumno. Vendar pa številni načrti aplikacij predvidevajo, da ljudje nekako ne bodo naredili nobenih napak. Zasnova pričakuje, da bodo vsi preprosto upoštevali pravila. Na žalost velika večina uporabnikov zagotovo ne bo niti prebrala pravil, saj je večina ljudi tudi lenih ali preveč stisnjenih s časom, ko gre za stvari, ki jim v resnici ne pomagajo neposredno.
Razmislite o vnosu države v obrazec. Če vnesete samo besedilno polje, lahko nekateri uporabniki vnesejo celotno ime države, na primer Kansas. Seveda bodo nekateri uporabniki naredili napako pri tipkanju ali uporabi velikih začetnic in izmislili Kansus ali kANSAS. Pri nastavljanju teh napak imajo ljudje in organizacije različne pristope k opravljanju nalog. Nekdo v založniškem sektorju bi lahko uporabil slogovni vodnik Associated Press (AP) in vnesel Kan. Nekdo, ki je starejši in je vajen smernic državnega tiskarskega urada (GPO), lahko vnese Kans. namesto tega. Uporabljajo se tudi druge kratice. Pošta ZDA (USPS) uporablja KS, ameriška obalna straža pa KA. Medtem je obrazec Mednarodne organizacije za standarde (ISO) povezan z US-KS. Upoštevajte, da je to le vnos stanja, ki je dokaj preprost – ali vsaj tako ste mislili, preden ste prebrali ta razdelek. jasno,
Polja s spustnim seznamom dobro delujejo za neverjetno paleto vnosov podatkov in njihova uporaba zagotavlja, da postane človeški vnos v ta polja izjemno zanesljiv, saj človek nima druge izbire, kot da uporabi enega od privzetih vnosov. Seveda lahko človek vedno izbere napačen vnos, pri čemer pridejo v poštev dvojne kontrole. Nekatere novejše aplikacije primerjajo poštno številko z vnosi mesta in države, da ugotovijo, ali se ujemajo. Če se ne ujemata, se od uporabnika znova zahteva, da vnese pravilen vnos. To dvojno preverjanje je zelo nadležno, vendar ga uporabnik verjetno ne bo opazil zelo pogosto, zato ne bi smelo postati preveč moteče.
Tudi z navzkrižnim preverjanjem in statičnimi vnosi imajo ljudje še vedno veliko prostora za napake. Na primer, vnašanje številk je lahko problematično. Ko mora uporabnik vnesti 2.00, boste morda videli 2, ali 2.0 ali 2. ali katerega koli od številnih drugih vnosov. Na srečo bosta razčlenitev vnosa in njegovo preoblikovanje odpravila težavo in to nalogo lahko izvedete samodejno, brez pomoči uporabnika.
Žal preoblikovanje ne bo popravilo napačnega številskega vnosa. Takšne napake lahko delno ublažite tako, da vključite preverjanje obsega. Stranka ne more kupiti –5 kosov mila. Legitimni način, da stranki pokažete, da vrne milo, je obdelava vračila in ne prodaje. Vendar pa je uporabnik morda preprosto naredil napako in lahko pošljete sporočilo, ki navaja ustrezen obseg vnosa za vrednost.
Uporaba avtomatskega zbiranja podatkov
Nekateri ljudje mislijo, da avtomatizirano zbiranje podatkov rešuje vse težave s človeškim vnosom, povezane z nizi podatkov. Pravzaprav avtomatizirano zbiranje podatkov zagotavlja številne prednosti:
- Boljša konsistenca
- Izboljšana zanesljivost
- Manjša verjetnost manjkajočih podatkov
- Izboljšana natančnost
- Zmanjšana varianca za stvari, kot so časovni vnosi
Žal je reči, da avtomatsko zbiranje podatkov rešuje vsako težavo, preprosto napačno. Avtomatizirano zbiranje podatkov je še vedno odvisno od senzorjev, aplikacij in računalniške strojne opreme, ki so jo oblikovali ljudje, ki zagotavljajo dostop samo do podatkov, za katere se ljudje odločijo dovoliti. Zaradi omejitev, ki jih ljudje postavljajo na značilnosti avtomatiziranega zbiranja podatkov, rezultat pogosto ponuja manj koristne informacije, kot so pričakovali oblikovalci. Posledično je avtomatizirano zbiranje podatkov v stalnem stanju, ko oblikovalci poskušajo rešiti težave z vnosom.
Samodejno zbiranje podatkov trpi tudi zaradi napak programske in strojne opreme, ki so prisotne v katerem koli računalniškem sistemu, vendar z večjim potencialom za mehke težave (ki se pojavijo, ko sistem očitno deluje, vendar ne zagotavlja želenega rezultata) kot druge vrste računalniško podprtih nastavitve. Ko sistem deluje, zanesljivost vnosa daleč presega človeške sposobnosti. Vendar, ko se pojavijo mehke težave, sistem pogosto ne prepozna, da težava obstaja, kot bi lahko človek, in zato lahko nabor podatkov na koncu vsebuje bolj povprečne ali celo slabe podatke.