Pri zbiranju podatkov za algoritme umetne inteligence morate upoštevati neusklajenost podatkov in način, kako jih odpraviti. Podatki morda obstajajo za vsak podatkovni zapis v naboru podatkov, vendar se morda ne ujemajo z drugimi podatki v drugih naborih podatkov, ki jih imate. Na primer, številčni podatki v polju v enem naboru podatkov so lahko tipa s plavajočo vejico (z decimalno vejico), v drugem naboru podatkov pa celoštevilski tip. Preden lahko združite oba nabora podatkov, morajo polja vsebovati isto vrsto podatkov.
Pojavijo se lahko vse vrste drugih vrst neusklajenosti. Na primer, datumska polja so znana po tem, da so oblikovana na različne načine. Za primerjavo datumov morajo biti formati podatkov enaki. Vendar pa so zmenki tudi zahrbtni v svoji nagnjenosti, da izgledajo enako, a niso enaki. Na primer, datumi v enem naboru podatkov lahko za osnovo uporabljajo srednji čas po Greenwichu (GMT), medtem ko lahko datumi v drugem naboru podatkov uporabljajo drug časovni pas. Preden lahko primerjate čase, jih morate uskladiti z istim časovnim pasom. Lahko postane še bolj čudno, če datumi v enem naboru podatkov prihajajo z lokacije, ki uporablja poletni čas (DST), datumi z druge lokacije pa ne.
Tudi če so vrste in format podatkov enaki, lahko pride do drugih neusklajenosti podatkov. Na primer, polja v enem naboru podatkov se morda ne ujemajo s polji v drugem naboru podatkov. V nekaterih primerih je te razlike enostavno popraviti. En nabor podatkov lahko obravnava ime in priimek kot eno polje, medtem ko lahko drugi nabor podatkov uporablja ločena polja za ime in priimek. Odgovor je, da spremenite vse nabore podatkov za uporabo enega samega polja ali spremenite vse, da uporabljajo ločena polja za ime in priimek. Na žalost je veliko neusklajenosti vsebine podatkov težje ugotoviti. Pravzaprav je povsem mogoče, da jih sploh ne boste mogli ugotoviti. Vendar, preden obupate, razmislite o teh možnih rešitvah težave:
- Izračunajte manjkajoče podatke iz drugih podatkov, do katerih lahko dostopate.
- Poiščite manjkajoče podatke v drugem nizu podatkov.
- Združite nabore podatkov, da ustvarite celoto, ki zagotavlja konsistentna polja.
- Zberite dodatne podatke iz različnih virov, da zapolnite manjkajoče podatke.
- Ponovno definirajte svoje vprašanje, da ne boste več potrebovali manjkajočih podatkov.