Tenir moltes dades disponibles no és suficient per crear una IA reeixida. Actualment, un algorisme d'IA no pot extreure informació directament de les dades en brut. La majoria dels algorismes es basen en la recollida i manipulació externa abans de l'anàlisi. Quan un algorisme recopila informació útil, pot ser que no representi la informació correcta. La discussió següent us ajuda a entendre com recollir, manipular i automatitzar la recollida de dades des d'una perspectiva general.
Tenint en compte les fonts de dades
Les dades que utilitzeu provenen de diverses fonts. La font de dades més habitual és la informació introduïda pels humans en algun moment. Fins i tot quan un sistema recopila automàticament dades del lloc de compra, els humans introdueixen inicialment la informació. Un ésser humà fa clic a diversos articles, els afegeix a un carretó de la compra, especifica les característiques (com ara la mida) i la quantitat, i després fa la compra. Més tard, després de la venda, l'ésser humà valora l'experiència de compra, el producte i el mètode de lliurament i fa comentaris. En resum, cada experiència de compra també es converteix en un exercici de recollida de dades.
Moltes fonts de dades d'avui depenen de les aportacions recopilades de fonts humanes. Els humans també proporcionen entrada manual. Truqueu o aneu a una oficina d'algun lloc per concertar una cita amb un professional. A continuació, una recepcionista recopilarà la informació necessària per a la cita. Aquestes dades recollides manualment finalment acaben en un conjunt de dades en algun lloc amb finalitats d'anàlisi.
També es recullen dades dels sensors, i aquests sensors poden prendre gairebé qualsevol forma. Per exemple, moltes organitzacions basen la recollida de dades físiques, com ara el nombre de persones que veuen un objecte en una finestra, en la detecció del telèfon mòbil. El programari de reconeixement facial podria detectar clients recurrents.
Tanmateix, els sensors poden crear conjunts de dades a partir de gairebé qualsevol cosa. El servei meteorològic es basa en conjunts de dades creats per sensors que controlen les condicions ambientals com ara la pluja, la temperatura, la humitat, la cobertura de núvols, etc. Els sistemes de monitorització robòtica ajuden a corregir petits defectes en el funcionament robòtic mitjançant l'anàlisi constant de les dades recollides pels sensors de monitorització. Un sensor, combinat amb una petita aplicació d'IA, podria dir-vos quan el vostre sopar està cuinat a la perfecció aquesta nit. El sensor recull dades, però l'aplicació d'IA utilitza regles per ajudar a definir quan es cuina correctament el menjar.
Obtenció de dades fiables
La paraula fiable sembla tan fàcil de definir, però tan difícil d'implementar. Alguna cosa és fiable quan els resultats que produeix són alhora esperats i coherents. Una font de dades fiable produeix dades mundanes que no contenen sorpreses; ningú s'escandalitza en absolut pel resultat. Depenent de la teva perspectiva, podria ser una bona cosa que la majoria de la gent no badalleixi i després s'adormi quan revisa les dades. Les sorpreses fan que les dades valguin la pena analitzar-les i revisar-les. En conseqüència, les dades tenen un aspecte de dualitat. Volem dades fiables, mundanes i totalment anticipades que simplement confirmin el que ja sabem, però l'inesperat és el que fa que la recollida de dades sigui útil en primer lloc.
Tot i així, no voleu dades tan fora del normal que es torni gairebé aterridor de revisar-les. Cal mantenir l'equilibri a l'hora d'obtenir dades. Les dades han d'encaixar dins d'uns límits. També ha de complir criteris específics pel que fa al valor de la veritat. Les dades també han de venir als intervals esperats i tots els camps del registre de dades entrants han d'estar complets.
Fins a cert punt, la seguretat de les dades també afecta la fiabilitat de les dades. La coherència de les dades té diverses formes. Quan arribin les dades, podeu assegurar-vos que es troben dins dels intervals esperats i apareixen en una forma determinada. Tanmateix, després d'emmagatzemar les dades, la fiabilitat pot disminuir tret que us assegureu que les dades es mantenen en la forma esperada. Una entitat que juga amb les dades afecta la fiabilitat, fent que les dades siguin sospitoses i potencialment inutilitzables per analitzar-les posteriorment. Garantir la fiabilitat de les dades vol dir que, després que arribin les dades, ningú les manipula per fer-les encaixar dins d'un domini esperat (com a conseqüència d'això, és mundana).
Fer que les aportacions humanes siguin més fiables
Els humans cometem errors, és part de ser humà. De fet, esperar que els humans no cometin errors no és raonable. No obstant això, molts dissenys d'aplicacions assumeixen que els humans d'alguna manera no cometreran errors de cap mena. El disseny espera que tothom simplement segueixi les regles. Malauradament, es garanteix que la gran majoria dels usuaris ni tan sols llegiran les regles perquè la majoria dels humans també són mandrosos o massa pressionats pel temps a l'hora de fer coses que realment no els ajuden directament.
Considereu l'entrada d'un estat en una forma. Si proporcioneu només un camp de text, alguns usuaris poden introduir el nom complet de l'estat, com ara Kansas. Per descomptat, alguns usuaris cometen una errada ortogràfica o un error de majúscules i trobaran Kansus o kANSAS. En establir aquests errors, les persones i les organitzacions tenen diferents enfocaments per dur a terme les tasques. Algú del sector editorial pot utilitzar la guia d'estil de l'Associated Press (AP) i introduir Kans. Algú que sigui més gran i acostumat a les directrius de l'Oficina d'impressió del govern (GPO) pot introduir Kans. en canvi. També s'utilitzen altres abreviatures. L'oficina de correus dels EUA (USPS) utilitza KS, però la Guàrdia Costera dels EUA utilitza KA. Mentrestant, el formulari de l'Organització Internacional d'Estàndards (ISO) va amb US-KS. Tingueu en compte que aquesta és només una entrada d'estat, que és raonablement senzilla, o això vau pensar abans de llegir aquesta secció. Clarament,
Els quadres de llista desplegables funcionen bé per a una increïble varietat d'entrades de dades, i utilitzar-los garanteix que l'entrada humana en aquests camps esdevingui extremadament fiable perquè l'home no té més remei que utilitzar una de les entrades predeterminades. Per descomptat, l'ésser humà sempre pot triar l'entrada incorrecta, que és on entren en joc les comprovacions dobles. Algunes aplicacions més noves comparen el codi postal amb les entrades de la ciutat i l'estat per veure si coincideixen. Quan no coincideixen, es demana de nou a l'usuari que proporcioni l'entrada correcta. Aquesta doble comprovació a punt de ser molesta, però és poc probable que l'usuari la vegi molt sovint, de manera que no hauria de ser massa molest.
Fins i tot amb les comprovacions creuades i les entrades estàtiques, els humans encara tenen molt espai per cometre errors. Per exemple, introduir números pot ser problemàtic. Quan un usuari necessita introduir 2.00, és possible que vegeu 2, o 2.0, o 2., o qualsevol d'altres entrades. Afortunadament, analitzar l'entrada i reformatejar-la solucionarà el problema i podeu realitzar aquesta tasca automàticament, sense l'ajuda de l'usuari.
Malauradament, el reformateig no corregirà una entrada numèrica errada. Podeu mitigar parcialment aquests errors incloent comprovacions d'interval. Un client no pot comprar –5 pastilles de sabó. La manera legítima de mostrar al client que torna les pastilles de sabó és processar una devolució, no una venda. Tanmateix, és possible que l'usuari simplement hagi comès un error i podeu proporcionar un missatge que indiqui l'interval d'entrada adequat per al valor.
Ús de la recollida automatitzada de dades
Algunes persones pensen que la recollida automatitzada de dades resol tots els problemes d'entrada humana associats als conjunts de dades. De fet, la recollida automatitzada de dades ofereix una sèrie d'avantatges:
- Millor consistència
- Fiabilitat millorada
- Menor probabilitat de que faltin dades
- Precisió millorada
- Variància reduïda per a coses com ara entrades cronometrades
Malauradament, dir que la recollida automatitzada de dades resol tots els problemes és simplement incorrecte. La recollida de dades automatitzada encara es basa en sensors, aplicacions i maquinari informàtic dissenyats per humans que proporcionen accés només a les dades que els humans decideixen permetre. A causa dels límits que els humans posen a les característiques de la recollida automatitzada de dades, el resultat sovint proporciona informació menys útil de la que esperaven els dissenyadors. En conseqüència, la recollida automatitzada de dades es troba en un estat de flux constant a mesura que els dissenyadors intenten resoldre els problemes d'entrada.
La recollida automatitzada de dades també pateix errors tant de programari com de maquinari presents en qualsevol sistema informàtic, però amb un major potencial de problemes suaus (que sorgeixen quan el sistema aparentment funciona però no proporciona el resultat desitjat) que altres tipus de sistemes informàtics. configuracions. Quan el sistema funciona, la fiabilitat de l'entrada supera amb escreix les capacitats humanes. Tanmateix, quan es produeixen problemes suaus, el sistema sovint no reconeix que existeix un problema, com ho podria fer un humà, i per tant el conjunt de dades podria acabar conté dades més mediocres o fins i tot dolentes.