Pri zhromažďovaní údajov pre algoritmy umelej inteligencie musíte zvážiť nesúlad údajov a spôsob ich opravy. Údaje môžu existovať pre každý z údajových záznamov v množine údajov, ale nemusia sa zhodovať s inými údajmi v iných množinách údajov, ktoré vlastníte. Napríklad číselné údaje v poli v jednej množine údajov môžu byť typu s pohyblivou rádovou čiarkou (s desatinnou čiarkou), ale v inej množine údajov môžu byť celočíselné. Predtým, ako budete môcť spojiť tieto dve množiny údajov, polia musia obsahovať rovnaký typ údajov.
Môžu sa vyskytnúť všetky druhy nesúladu. Napríklad dátumové polia sú známe tým, že sú formátované rôznymi spôsobmi. Na porovnanie dátumov musia byť formáty údajov rovnaké. Datle sú však zákerné aj vo svojom sklone vyzerať rovnako, no zároveň nebyť. Napríklad dátumy v jednej množine údajov môžu používať ako základ greenwichský stredný čas (GMT), zatiaľ čo dátumy v inej množine údajov môžu používať iné časové pásmo. Než budete môcť porovnať časy, musíte ich zarovnať do rovnakého časového pásma. Môže to byť ešte zvláštnejšie, keď dátumy v jednej množine údajov pochádzajú z miesta, ktoré používa letný čas (DST), ale dátumy z iného miesta nie.
Aj keď sú typy údajov a formát rovnaké, môže dôjsť k iným nezrovnalostiam údajov. Napríklad polia v jednej množine údajov sa nemusia zhodovať s poliami v inej množine údajov. V niektorých prípadoch sa tieto rozdiely dajú ľahko opraviť. Jedna množina údajov môže považovať meno a priezvisko za jedno pole, zatiaľ čo iná množina údajov môže pre meno a priezvisko používať samostatné polia. Odpoveďou je zmeniť všetky množiny údajov tak, aby používali jedno pole, alebo ich všetky zmeniť tak, aby používali samostatné polia pre meno a priezvisko. Bohužiaľ, mnohé nezrovnalosti v dátovom obsahu je ťažšie zistiť. V skutočnosti je celkom možné, že na ne vôbec nebudete vedieť prísť. Predtým, ako sa však vzdáte, zvážte tieto možné riešenia problému:
- Vypočítajte chýbajúce údaje z iných údajov, ku ktorým máte prístup.
- Nájdite chýbajúce údaje v inom súbore údajov.
- Kombinujte množiny údajov a vytvorte celok, ktorý poskytuje konzistentné polia.
- Zbierajte ďalšie údaje z rôznych zdrojov, aby ste doplnili chýbajúce údaje.
- Predefinujte svoju otázku, aby ste už viac nepotrebovali chýbajúce údaje.