Lai izveidotu veiksmīgu AI, nepietiek ar to, ka ir pieejams daudz datu. Pašlaik AI algoritms nevar iegūt informāciju tieši no neapstrādātiem datiem. Lielākā daļa algoritmu pirms analīzes paļaujas uz ārēju vākšanu un manipulācijām. Kad algoritms apkopo noderīgu informāciju, tas var neatspoguļot pareizo informāciju. Tālāk sniegtā diskusija palīdz saprast, kā apkopot, apstrādāt un automatizēt datu vākšanu no kopsavilkuma perspektīvas.
Ņemot vērā datu avotus
Jūsu izmantotie dati nāk no vairākiem avotiem. Visizplatītākais datu avots ir informācija, ko kādā brīdī ievadījuši cilvēki. Pat tad, kad sistēma automātiski apkopo iepirkšanās vietnes datus, cilvēki sākotnēji ievada informāciju. Cilvēks noklikšķina uz dažādām precēm, pievieno tās iepirkumu grozam, norāda raksturlielumus (piemēram, izmēru) un daudzumu un pēc tam izrakstās. Vēlāk, pēc pārdošanas, cilvēks iepirkšanās pieredzei, precei un piegādes metodei piešķir vērtējumu un sniedz komentārus. Īsāk sakot, katra iepirkšanās pieredze kļūst arī par datu vākšanas uzdevumu.
Mūsdienās daudzi datu avoti paļaujas uz ievadi, kas iegūta no cilvēku avotiem. Cilvēki nodrošina arī manuālu ievadi. Jūs piezvanāt vai ieejat birojā, lai sarunātu tikšanos ar speciālistu. Reģistratūras darbinieks apkopo no jums informāciju, kas nepieciešama tikšanās laikā. Šie manuāli savāktie dati galu galā nonāk datu kopā kaut kur analīzes nolūkos.
Dati tiek vākti arī no sensoriem, un šiem sensoriem var būt gandrīz jebkura forma. Piemēram, daudzas organizācijas fizisko datu vākšanu, piemēram, to cilvēku skaitu, kuri skata objektu logā, balsta uz mobilā tālruņa noteikšanu. Sejas atpazīšanas programmatūra varētu noteikt atkārtotus klientus.
Tomēr sensori var izveidot datu kopas gandrīz no jebkā. Laikapstākļu pakalpojums paļaujas uz datu kopām, ko izveido sensori, kas uzrauga vides apstākļus, piemēram, lietus, temperatūru, mitrumu, mākoņu segumu utt. Robotu uzraudzības sistēmas palīdz novērst nelielas nepilnības robotu darbībā, pastāvīgi analizējot pārraudzības sensoru savāktos datus. Sensors apvienojumā ar nelielu mākslīgā intelekta lietojumprogrammu var jums pateikt, kad jūsu vakariņas šovakar ir pagatavotas līdz pilnībai. Sensors apkopo datus, bet AI lietojumprogramma izmanto noteikumus, lai palīdzētu noteikt, kad ēdiens ir pareizi pagatavots.
Uzticamu datu iegūšana
Vārds uzticams šķiet tik viegli definējams, taču tik grūti īstenojams. Kaut kas ir uzticams, ja tā radītie rezultāti ir gan gaidīti, gan konsekventi. Uzticams datu avots rada ikdienišķus datus, kas nesatur nekādus pārsteigumus; neviens nav ne mazākajā mērā šokēts par iznākumu. Atkarībā no jūsu perspektīvas patiesībā varētu būt labi, ka lielākā daļa cilvēku, pārskatot datus, nežāvājas un neaizmieg. Pārsteigumi padara datus par analīzes un pārskatīšanas vērtiem. Līdz ar to datiem ir dualitātes aspekts. Mēs vēlamies uzticamus, ikdienišķus, pilnībā paredzamus datus, kas vienkārši apstiprina to, ko mēs jau zinām, taču negaidītais ir tas, kas vispirms padara datu vākšanu noderīgu.
Tomēr jūs nevēlaties datus, kas ir tik neparasti, ka to pārskatīšana kļūst gandrīz biedējoša. Iegūstot datus, ir jāsaglabā līdzsvars. Datiem jāiekļaujas noteiktās robežās. Tam jāatbilst arī konkrētiem patiesības vērtības kritērijiem. Datiem ir arī jānāk ar paredzētajiem intervāliem, un visiem ienākošo datu ieraksta laukiem ir jābūt aizpildītiem.
Zināmā mērā datu drošība ietekmē arī datu uzticamību. Datu konsekvence ir vairākos veidos. Kad dati tiek saņemti, varat nodrošināt, ka tie ietilpst paredzētajos diapazonos un tiek parādīti noteiktā formā. Tomēr pēc datu saglabāšanas uzticamība var samazināties, ja vien nepārliecināsities, ka dati paliek paredzētajā formā. Vienība, kas steidzas ar datiem, ietekmē uzticamību, padarot datus aizdomīgus un potenciāli neizmantojamus vēlākai analīzei. Datu uzticamības nodrošināšana nozīmē, ka pēc datu saņemšanas neviens tos nepārveido, lai tie iekļautos paredzētajā domēnā (tā rezultātā tas kļūst ikdienišķs).
Padarot cilvēka ieguldījumu uzticamāku
Cilvēki pieļauj kļūdas — tā ir daļa no būtības cilvēkiem. Patiesībā nav saprātīgi gaidīt, ka cilvēki nepieļaus kļūdas. Tomēr daudzos lietojumprogrammu projektos tiek pieņemts, ka cilvēki kaut kā nepieļaus nekādas kļūdas. Dizains paredz, ka visi vienkārši ievēros noteikumus. Diemžēl lielākajai daļai lietotāju tiek garantēts, ka viņi pat neizlasīs noteikumus, jo lielākā daļa cilvēku ir arī slinki vai pārāk spiesti pēc laika, kad runa ir par darbību veikšanu, kas viņiem patiesībā nepalīdz.
Apsveriet stāvokļa ienākšanu formā. Ja norādāt tikai teksta lauku, daži lietotāji var ievadīt visu štata nosaukumu, piemēram, Kanzasa. Protams, daži lietotāji pieļaus drukas vai lielo burtu kļūdu un nāks klajā ar Kansus vai kANSAS. Iestatot šīs kļūdas, cilvēkiem un organizācijām ir dažādas pieejas uzdevumu veikšanai. Kāds izdevējdarbības nozarē var izmantot Associated Press (AP) stila rokasgrāmatu un ievadīt Kanu. Kāds, kurš ir vecāks un pieradis pie valdības drukas biroja (GPO) vadlīnijām, var ievadīt Kans. vietā. Tiek izmantoti arī citi saīsinājumi. ASV pasts (USPS) izmanto KS, bet ASV krasta apsardze izmanto KA. Tikmēr Starptautiskās standartu organizācijas (ISO) veidlapa tiek izmantota kopā ar US-KS. Ņemiet vērā, ka šis ir tikai stāvokļa ieraksts, kas ir diezgan vienkāršs — vismaz tā jūs domājāt pirms šīs sadaļas izlasīšanas. Skaidrs,
Nolaižamā saraksta lodziņi lieliski darbojas, lai iegūtu pārsteidzošu datu ievades masīvu, un to izmantošana nodrošina, ka cilvēka ievadītie dati šajos laukos kļūst ārkārtīgi uzticami, jo cilvēkam nav citas izvēles, kā izmantot kādu no noklusējuma ierakstiem. Protams, cilvēks vienmēr var izvēlēties nepareizo ierakstu, kas ir vieta, kur tiek izmantota dubultā pārbaude. Dažas jaunākas lietojumprogrammas salīdzina pasta indeksu ar pilsētas un valsts ierakstiem, lai noskaidrotu, vai tie atbilst. Ja tie nesakrīt, lietotājam vēlreiz tiek lūgts ievadīt pareizo ievadi. Šī dubultā pārbaude var būt kaitinoša, taču maz ticams, ka lietotājs to redzēs ļoti bieži, tāpēc tai nevajadzētu kļūt pārāk kaitinošai.
Pat ar kontrolpārbaudēm un statiskiem ierakstiem cilvēkiem joprojām ir daudz iespēju kļūdīties. Piemēram, skaitļu ievadīšana var būt problemātiska. Kad lietotājam ir jāievada 2,00, jūs varat redzēt 2, 2,0 vai 2, vai jebkuru no daudziem citiem ierakstiem. Par laimi, ieraksta parsēšana un tā pārformatēšana novērsīs problēmu, un jūs varat veikt šo uzdevumu automātiski, bez lietotāja palīdzības.
Diemžēl pārformatēšana neizlabos kļūdainu ciparu ievadi. Šādas kļūdas var daļēji mazināt, iekļaujot diapazona pārbaudes. Klients nevar nopirkt –5 ziepju gabaliņus. Likumīgais veids, kā parādīt klientam, ka viņš atgriež ziepju gabalus, ir apstrādāt atgriešanu, nevis pārdošanu. Tomēr lietotājs, iespējams, vienkārši ir pieļāvis kļūdu, un jūs varat sniegt ziņojumu, kurā norādīts pareizais vērtības ievades diapazons.
Izmantojot automatizētu datu vākšanu
Daži cilvēki domā, ka automatizēta datu vākšana atrisina visas ar datu kopām saistītās cilvēka ievades problēmas. Faktiski automatizēta datu vākšana sniedz vairākas priekšrocības:
- Labāka konsekvence
- Uzlabota uzticamība
- Mazāka datu trūkuma iespējamība
- Uzlabota precizitāte
- Samazināta dispersija tādām lietām kā laikiestatīta ievade
Diemžēl teikt, ka automatizēta datu vākšana atrisina katru problēmu, ir vienkārši nepareizi. Automatizētā datu vākšana joprojām balstās uz sensoriem, lietojumprogrammām un datoru aparatūru, ko izstrādājuši cilvēki, kas nodrošina piekļuvi tikai tiem datiem, kurus cilvēki nolemj atļaut. Tā kā cilvēki ierobežo automatizētas datu vākšanas īpašības, rezultāts bieži vien sniedz mazāk noderīgu informāciju, nekā cerēja dizaineri. Līdz ar to automatizētā datu vākšana pastāvīgi mainās, jo dizaineri cenšas atrisināt ievades problēmas.
Automātiskā datu apkopošana arī cieš no programmatūras un aparatūras kļūdām, kas pastāv jebkurā skaitļošanas sistēmā, bet ar lielāku vieglu problēmu iespējamību (kas rodas, ja sistēma šķietami darbojas, bet nesniedz vēlamo rezultātu), nekā cita veida datorizētās sistēmās. uzstādījumi. Kad sistēma darbojas, ievades uzticamība ievērojami pārsniedz cilvēka spējas. Tomēr, ja rodas vieglas problēmas, sistēma bieži vien nespēj atpazīt problēmas pastāvēšanu, kā to var izdarīt cilvēks, un tāpēc datu kopā var būt viduvīgāki vai pat slikti dati.