Обиље доступних података није довољно за стварање успешне вештачке интелигенције. Тренутно, АИ алгоритам не може да извуче информације директно из необрађених података. Већина алгоритама се ослања на спољно прикупљање и манипулацију пре анализе. Када алгоритам прикупља корисне информације, можда неће представљати праве информације. Следећа дискусија вам помаже да разумете како да прикупљате, манипулишете и аутоматизујете прикупљање података из перспективе прегледа.
С обзиром на изворе података
Подаци које користите потичу из више извора. Најчешћи извор података су информације које су људи унели у неком тренутку. Чак и када систем аутоматски прикупља податке са сајта за куповину, људи иницијално уносе информације. Човек кликне на различите артикле, додаје их у корпу за куповину, специфицира карактеристике (као што је величина) и количину, а затим одјављује. Касније, након продаје, човек даје оцену искуству куповине, производу и начину испоруке и даје коментаре. Укратко, свако искуство куповине постаје и вежба прикупљања података.
Многи извори података данас се ослањају на податке прикупљене из људских извора. Људи такође пружају ручни унос. Позовете или одете негде у канцеларију да закажете састанак са професионалцем. Рецепционар тада прикупља информације од вас које су потребне за заказивање. Ови ручно прикупљени подаци на крају завршавају у скупу података негде за потребе анализе.
Подаци се такође прикупљају од сензора, а ови сензори могу имати скоро било који облик. На пример, многе организације базирају прикупљање физичких података, као што је број људи који гледају објекат у прозору, на детекцији мобилног телефона. Софтвер за препознавање лица би потенцијално могао да открије поновљене купце.
Међутим, сензори могу креирати скупове података из скоро свега. Метеоролошка служба се ослања на скупове података које креирају сензори који прате услове околине као што су киша, температура, влажност, облачност и тако даље. Роботски системи за надзор помажу у исправљању малих недостатака у роботском раду константном анализом података које прикупљају сензори за надзор. Сензор, у комбинацији са малом АИ апликацијом, могао би да вам каже када је вечера припремљена до савршенства вечерас. Сензор прикупља податке, али АИ апликација користи правила која помажу у дефинисању када је храна правилно кувана.
Добијање поузданих података
Чини се да је реч поуздано тако лако дефинисати, али је тако тешко применити. Нешто је поуздано када су резултати које производи очекивани и доследни. Поуздан извор података производи обичне податке који не садрже изненађења; нико није ни најмање шокиран исходом. У зависности од ваше перспективе, заправо би могло бити добро да већина људи не зева и онда не заспи када прегледа податке. Изненађења чине податке вредним анализе и прегледа. Сходно томе, подаци имају аспект дуалности. Желимо поуздане, свакодневне, потпуно очекиване податке који једноставно потврђују оно што већ знамо, али неочекивано је оно што прикупљање података чини корисним на првом месту.
Ипак, не желите податке који су толико неуобичајени да постаје готово застрашујуће прегледати. Приликом добијања података потребно је одржавати равнотежу. Подаци се морају уклопити у одређене границе. Такође мора испунити специфичне критеријуме у погледу истинитости вредности. Подаци такође морају доћи у очекиваним интервалима, а сва поља улазног записа података морају бити попуњена.
У извесној мери, безбедност података такође утиче на поузданост података. Конзистентност података долази у неколико облика. Када подаци стигну, можете осигурати да буду у очекиваним распонима и да се појављују у одређеном облику. Међутим, након што ускладиштите податке, поузданост може да се смањи осим ако не обезбедите да подаци остану у очекиваном облику. Ентитет који петља са подацима утиче на поузданост, чинећи податке сумњивим и потенцијално неупотребљивим за каснију анализу. Обезбеђивање поузданости података значи да након што подаци стигну, нико их не мења како би се уклопили у очекивани домен (што их као резултат чини свакодневним).
Учинити људски унос поузданијим
Људи праве грешке — то је део људског бића. У ствари, неразумно је очекивати да људи неће правити грешке. Ипак, многи дизајни апликација претпостављају да људи на неки начин неће правити грешке било које врсте. Дизајн очекује да ће сви једноставно поштовати правила. Нажалост, огромна већина корисника гарантовано неће ни прочитати правила јер је већина људи такође лења или сувише стиснута са временом када је у питању радња која им не помажу директно.
Размотримо улазак државе у форму. Ако наведете само текстуално поље, неки корисници би могли да унесу цело име државе, као што је Канзас. Наравно, неки корисници ће направити грешку у куцању или писање великих слова и смислити Кансус или кАНСАС. Постављајући ове грешке, људи и организације имају различите приступе обављању задатака. Неко у издавачкој индустрији би могао да користи водич за стилове Асошиејтед преса (АП) и унесе Кан. Неко ко је старији и навикао на смернице Државне штампарије (ГПО) могао би да унесе Канс. уместо тога. Користе се и друге скраћенице. Америчка пошта (УСПС) користи КС, али америчка обалска стража користи КА. У међувремену, образац Међународне организације за стандарде (ИСО) иде уз УС-КС. Имајте на уму, ово је само унос стања, који је прилично једноставан - или сте бар тако мислили пре читања овог одељка. јасно,
Оквири за падајуће листе добро функционишу за невероватан низ уноса података, а њихово коришћење осигурава да људски унос у та поља постане изузетно поуздан јер човек нема другог избора осим да користи један од подразумеваних уноса. Наравно, човек увек може да изабере нетачан унос, а ту долази до двоструке провере. Неке новије апликације упоређују поштански број са уносима града и државе да виде да ли се подударају. Када се не подударају, од корисника се поново тражи да унесе тачан унос. Ова двострука провера је на ивици досадне, али је мало вероватно да ће је корисник виђати често, тако да не би требало да постане превише досадна.
Чак и са унакрсним проверама и статичним уносима, људи и даље имају доста простора за грешке. На пример, унос бројева може бити проблематичан. Када корисник треба да унесе 2.00, можда ћете видети 2, или 2.0, или 2., или било који од низа других уноса. На срећу, рашчлањивање уноса и његово преформатирање ће решити проблем, а овај задатак можете извршити аутоматски, без помоћи корисника.
Нажалост, преформатирање неће исправити погрешан нумерички унос. Такве грешке можете делимично ублажити укључивањем провера опсега. Купац не може да купи –5 сапуна. Легитиман начин да се покаже купцу који враћа комаде сапуна је да се обради повраћај, а не продаја. Међутим, корисник је можда једноставно направио грешку, а ви можете дати поруку у којој се наводи одговарајући опсег уноса за вредност.
Коришћење аутоматизованог прикупљања података
Неки људи мисле да аутоматизовано прикупљање података решава сва питања људског уноса повезана са скуповима података. У ствари, аутоматско прикупљање података пружа бројне предности:
- Боља конзистентност
- Побољшана поузданост
- Мања вероватноћа да подаци недостају
- Повећана прецизност
- Смањена варијанса за ствари попут временских уноса
Нажалост, рећи да аутоматизовано прикупљање података решава сваки проблем је једноставно нетачно. Аутоматско прикупљање података се и даље ослања на сензоре, апликације и рачунарски хардвер који су дизајнирали људи који омогућавају приступ само подацима које људи одлуче да дозволе. Због ограничења која људи постављају на карактеристике аутоматизованог прикупљања података, резултат често пружа мање корисне информације него што су се надали дизајнери. Сходно томе, аутоматизовано прикупљање података је у сталном току док дизајнери покушавају да реше проблеме са уносом.
Аутоматско прикупљање података такође пати од софтверских и хардверских грешака присутних у било ком рачунарском систему, али са већим потенцијалом за меке проблеме (који настају када систем очигледно ради, али не даје жељени резултат) него друге врсте рачунарских система подешавања. Када систем ради, поузданост улаза далеко превазилази људске способности. Међутим, када се јаве благи проблеми, систем често не препознаје да проблем постоји, као што би човек могао, и стога скуп података може на крају да садржи осредње или чак лоше податке.