Na vytvorenie úspešnej AI nestačí mať k dispozícii dostatok údajov. Algoritmus AI v súčasnosti nedokáže extrahovať informácie priamo z nespracovaných údajov. Väčšina algoritmov sa pred analýzou spolieha na externý zber a manipuláciu. Keď algoritmus zhromažďuje užitočné informácie, nemusia predstavovať správne informácie. Nasledujúca diskusia vám pomôže pochopiť, ako zhromažďovať, manipulovať a automatizovať zhromažďovanie údajov z pohľadu prehľadu.
Vzhľadom na zdroje údajov
Údaje, ktoré používate, pochádzajú z viacerých zdrojov. Najbežnejším zdrojom údajov sú informácie, ktoré v určitom okamihu zadali ľudia. Dokonca aj vtedy, keď systém zhromažďuje údaje o nákupných stránkach automaticky, informácie najprv zadávajú ľudia. Človek klikne na rôzne položky, pridá ich do nákupného košíka, zadá vlastnosti (ako je veľkosť) a množstvo a potom ich zakúpi. Neskôr, po predaji, človek hodnotí zážitok z nakupovania, produkt a spôsob doručenia a komentuje. Skrátka, každý nákupný zážitok sa stáva aj cvičením na zhromažďovanie údajov.
Mnohé zdroje údajov sa dnes spoliehajú na vstupy získané z ľudských zdrojov. Ľudia tiež poskytujú manuálne zadávanie. Zavoláte alebo pôjdete niekde do kancelárie a dohodnete si stretnutie s profesionálom. Recepčný potom od vás zhromažďuje informácie, ktoré sú potrebné na stretnutie. Tieto manuálne zhromaždené údaje nakoniec skončia niekde v súbore údajov na účely analýzy.
Údaje sa zhromažďujú aj zo senzorov a tieto senzory môžu mať takmer akúkoľvek formu. Napríklad mnohé organizácie zakladajú fyzické zhromažďovanie údajov, ako je počet ľudí, ktorí si prezerajú objekt v okne, na detekcii mobilných telefónov. Softvér na rozpoznávanie tváre by mohol potenciálne odhaliť opakovaných zákazníkov.
Senzory však dokážu vytvárať súbory údajov takmer z čohokoľvek. Meteorologická služba sa spolieha na súbory údajov vytvorené senzormi, ktoré monitorujú podmienky prostredia, ako je dážď, teplota, vlhkosť, oblačnosť atď. Robotické monitorovacie systémy pomáhajú napraviť malé nedostatky v robotickej prevádzke neustálou analýzou údajov zhromaždených monitorovacími senzormi. Senzor v kombinácii s malou aplikáciou AI by vám mohol povedať, kedy je vaša večera dnes večer dokonale uvarená. Senzor zhromažďuje údaje, ale aplikácia AI používa pravidlá, ktoré pomáhajú definovať, kedy je jedlo správne uvarené.
Získanie spoľahlivých údajov
Zdá sa, že slovo spoľahlivý sa dá tak ľahko definovať, no zároveň ťažko implementovať. Niečo je spoľahlivé, keď sú výsledky, ktoré prináša, očakávané a konzistentné. Spoľahlivý zdroj údajov vytvára všedné údaje, ktoré neobsahujú žiadne prekvapenia; nikto nie je ani v najmenšom šokovaný výsledkom. V závislosti od vášho pohľadu môže byť v skutočnosti dobré, že väčšina ľudí pri prezeraní údajov nezíva a potom nezaspí. Vďaka prekvapeniam sa údaje oplatí analyzovať a preskúmať. V dôsledku toho majú údaje aspekt duality. Chceme spoľahlivé, všedné, plne očakávané údaje, ktoré jednoducho potvrdia to, čo už vieme, ale práve vďaka neočakávaným údajom je zhromažďovanie údajov v prvom rade užitočné.
Napriek tomu nechcete údaje, ktoré sú také nezvyčajné, že ich preskúmanie bude takmer desivé. Pri získavaní údajov je potrebné zachovať rovnováhu. Údaje sa musia zmestiť do určitých limitov. Musí tiež spĺňať špecifické kritériá pravdivosti. Údaje musia tiež prichádzať v očakávaných intervaloch a všetky polia prichádzajúcich údajových záznamov musia byť úplné.
Bezpečnosť údajov do určitej miery ovplyvňuje aj spoľahlivosť údajov. Konzistencia údajov má niekoľko foriem. Keď údaje dorazia, môžete sa uistiť, že spadajú do očakávaných rozsahov a zobrazujú sa v určitej forme. Po uložení údajov sa však spoľahlivosť môže znížiť, pokiaľ nezabezpečíte, že údaje zostanú v očakávanej forme. Entita, ktorá sa pohráva s údajmi, ovplyvňuje spoľahlivosť, vďaka čomu sú údaje podozrivé a potenciálne nepoužiteľné na neskoršiu analýzu. Zabezpečenie spoľahlivosti údajov znamená, že po prijatí údajov s nimi nikto nemanipuluje, aby sa zmestili do očakávanej domény (v dôsledku toho sú všedné).
Zvyšovanie spoľahlivosti ľudského vstupu
Ľudia robia chyby – je to súčasť ľudského bytia. V skutočnosti očakávať, že ľudia nebudú robiť chyby, je nerozumné. Napriek tomu mnohé návrhy aplikácií predpokladajú, že ľudia akosi nebudú robiť chyby akéhokoľvek druhu. Dizajn počíta s tým, že všetci budú jednoducho dodržiavať pravidlá. Žiaľ, drvivá väčšina používateľov si zaručene ani neprečíta pravidlá, pretože väčšina ľudí je tiež lenivá alebo príliš tlačená časom, keď príde na veci, ktoré im v skutočnosti priamo nepomáhajú.
Zvážte vstup štátu do formulára. Ak zadáte iba textové pole, niektorí používatelia môžu zadať celý názov štátu, napríklad Kansas. Samozrejme, niektorí používatelia urobia preklep alebo chybu s veľkými písmenami a prídu s Kansus alebo kANSAS. Pri nastavení týchto chýb majú ľudia a organizácie rôzne prístupy k vykonávaniu úloh. Niekto vo vydavateľskom priemysle môže použiť sprievodcu štýlom Associated Press (AP) a zadať Kan. Niekto, kto je starší a zvyknutý na pokyny úradu Government Printing Office (GPO), môže zadať Kans. namiesto toho. Používajú sa aj iné skratky. Americká pošta (USPS) používa KS, ale americká pobrežná stráž používa KA. Medzitým formulár Medzinárodnej organizácie pre normalizáciu (ISO) ide s US-KS. Uvedomte si, že toto je len štátny záznam, ktorý je pomerne jednoduchý – alebo ste si to aspoň mysleli pred prečítaním tejto časti. jasne,
Rozbaľovacie zoznamy fungujú dobre pre úžasné množstvo dátových vstupov a ich použitie zaisťuje, že ľudský vstup do týchto polí sa stane mimoriadne spoľahlivým, pretože človek nemá inú možnosť, ako použiť jednu z predvolených položiek. Samozrejme, človek si môže vždy vybrať nesprávne zadanie, čo je miesto, kde prichádza do hry dvojitá kontrola. Niektoré novšie aplikácie porovnávajú PSČ s údajmi o meste a štáte, aby zistili, či sa zhodujú. Keď sa nezhodujú, používateľ je znova požiadaný o zadanie správneho vstupu. Táto dvojitá kontrola je na hranici otravy, ale je nepravdepodobné, že ju používateľ uvidí veľmi často, takže by to nemalo byť príliš otravné.
Aj pri krížových kontrolách a statických záznamoch majú ľudia stále dostatok priestoru na robenie chýb. Problematické môže byť napríklad zadávanie čísel. Keď používateľ potrebuje zadať 2,00, môže sa vám zobraziť 2, 2,0 alebo 2, alebo ktorýkoľvek z množstva iných záznamov. Našťastie analyzovanie záznamu a jeho preformátovanie vyrieši problém a túto úlohu môžete vykonať automaticky bez pomoci používateľa.
Bohužiaľ, preformátovanie neopraví chybný číselný vstup. Takéto chyby môžete čiastočne zmierniť zahrnutím kontrol rozsahu. Zákazník si nemôže kúpiť –5 kusov mydla. Legitímnym spôsobom, ako ukázať zákazníkovi, že vracia mydlá, je spracovať vrátenie, nie predaj. Používateľ však mohol jednoducho urobiť chybu a vy môžete poskytnúť správu uvádzajúcu správny vstupný rozsah pre hodnotu.
Používanie automatizovaného zberu údajov
Niektorí ľudia si myslia, že automatizovaný zber údajov rieši všetky problémy s ľudskými vstupmi spojené so súbormi údajov. Automatizovaný zber údajov v skutočnosti poskytuje množstvo výhod:
- Lepšia konzistencia
- Vylepšená spoľahlivosť
- Nižšia pravdepodobnosť chýbajúcich údajov
- Zvýšená presnosť
- Znížený rozptyl pre veci, ako sú časované vstupy
Bohužiaľ, tvrdenie, že automatizovaný zber údajov vyrieši každý problém, je jednoducho nesprávne. Automatizovaný zber údajov sa stále spolieha na senzory, aplikácie a počítačový hardvér navrhnutý ľuďmi, ktoré poskytujú prístup iba k údajom, ktoré sa ľudia rozhodnú povoliť. Kvôli obmedzeniam, ktoré ľudia kladú na charakteristiky automatizovaného zberu údajov, výsledok často poskytuje menej užitočné informácie, než v aké dizajnéri dúfali. V dôsledku toho je automatizovaný zber údajov v neustálom stave, keď sa dizajnéri snažia vyriešiť vstupné problémy.
Automatizovaný zber údajov tiež trpí softvérovými a hardvérovými chybami prítomnými v akomkoľvek výpočtovom systéme, ale s vyšším potenciálom pre mäkké problémy (ktoré vznikajú, keď systém zjavne funguje, ale neposkytuje požadovaný výsledok) ako iné druhy počítačových systémov. nastavenia. Keď systém funguje, spoľahlivosť vstupu ďaleko presahuje ľudské schopnosti. Keď sa však vyskytnú mäkké problémy, systém často nedokáže rozpoznať, že existuje problém, ako to môže urobiť človek, a preto môže súbor údajov nakoniec obsahovať priemernejšie alebo dokonca zlé údaje.