Prilikom prikupljanja podataka za algoritme umjetne inteligencije, morate uzeti u obzir neusklađenost podataka i kako ih ispraviti. Podaci mogu postojati za svaki od zapisa podataka u skupu podataka, ali se možda neće uskladiti s drugim podacima u drugim skupovima podataka koje posjedujete. Na primjer, brojčani podaci u polju u jednom skupu podataka mogu biti tipa s pomičnim zarezom (s decimalnim zarezom), ali cjelobrojni tip u drugom skupu podataka. Prije nego što možete kombinirati dva skupa podataka, polja moraju sadržavati istu vrstu podataka.
Mogu se pojaviti razne druge vrste neusklađenosti. Na primjer, polja datuma su poznata po tome što su oblikovana na različite načine. Za usporedbu datuma formati podataka moraju biti isti. Međutim, hurme su i podmukle u svojoj sklonosti da izgledaju isto, ali ne i da budu isti. Na primjer, datumi u jednom skupu podataka mogu koristiti srednje vrijeme po Greenwichu (GMT) kao osnovu, dok datumi u drugom skupu podataka mogu koristiti neku drugu vremensku zonu. Prije nego što možete usporediti vremena, morate ih uskladiti s istom vremenskom zonom. Može postati još čudnije kada datumi u jednom skupu podataka dolaze s lokacije koja koristi ljetno računanje vremena (DST), ali datumi s druge lokacije ne.
Čak i kada su vrste podataka i format isti, može doći do drugih neusklađenosti podataka. Na primjer, polja u jednom skupu podataka možda se ne podudaraju s poljima u drugom skupu podataka. U nekim je slučajevima te razlike lako ispraviti. Jedan skup podataka može tretirati ime i prezime kao jedno polje, dok drugi skup podataka može koristiti zasebna polja za ime i prezime. Odgovor je promijeniti sve skupove podataka tako da koriste jedno polje ili ih sve promijeniti tako da koriste zasebna polja za ime i prezime. Nažalost, mnogo je neusklađenosti u sadržaju podataka teže shvatiti. Zapravo, sasvim je moguće da ih uopće nećete moći shvatiti. Međutim, prije nego što odustanete, razmislite o sljedećim mogućim rješenjima problema:
- Izračunajte podatke koji nedostaju iz drugih podataka kojima možete pristupiti.
- Pronađite podatke koji nedostaju u drugom skupu podataka.
- Kombinirajte skupove podataka kako biste stvorili cjelinu koja pruža dosljedna polja.
- Prikupite dodatne podatke iz različitih izvora kako biste popunili podatke koji nedostaju.
- Redefinirajte svoje pitanje tako da vam podaci koji nedostaju više nisu potrebni.