Када прикупљате податке за алгоритме вештачке интелигенције, морате да узмете у обзир неусклађеност података и како да их исправите. Подаци могу постојати за сваки од записа података у скупу података, али се можда неће ускладити са другим подацима у другим скуповима података које поседујете. На пример, нумерички подаци у пољу у једном скупу података могу бити типа са помичним зарезом (са децималним зарезом), али целобројни тип у другом скупу података. Пре него што можете да комбинујете два скупа података, поља морају да садрже исти тип података.
Могу се појавити све врсте других врста неусклађености. На пример, поља датума су позната по томе што су форматирана на различите начине. Да бисте упоредили датуме, формати података морају бити исти. Међутим, датуми су и подмукли у својој склоности да изгледају исто, али да нису исти. На пример, датуми у једном скупу података могу користити средње време по Гриничу (ГМТ) као основу, док датуми у другом скупу података могу користити неку другу временску зону. Пре него што можете да упоредите времена, морате их ускладити са истом временском зоном. Може постати још чудније када датуми у једном скупу података долазе са локације која користи летње рачунање времена (ДСТ), али датуми са друге локације не.
Чак и када су типови података и формат исти, може доћи до других неусклађености података. На пример, поља у једном скупу података можда се не подударају са пољима у другом скупу података. У неким случајевима, ове разлике је лако исправити. Један скуп података може третирати име и презиме као једно поље, док други скуп података може користити одвојена поља за име и презиме. Одговор је да промените све скупове података да користе једно поље или да их све промените да користе одвојена поља за име и презиме. Нажалост, много је неусклађености у садржају података теже открити. У ствари, сасвим је могуће да их уопште нећете моћи да схватите. Међутим, пре него што одустанете, размотрите ова потенцијална решења проблема:
- Израчунајте податке који недостају из других података којима можете приступити.
- Пронађите податке који недостају у другом скупу података.
- Комбинујте скупове података да бисте направили целину која обезбеђује конзистентна поља.
- Прикупите додатне податке из различитих извора да бисте попунили податке који недостају.
- Редефинишите своје питање тако да вам подаци који недостају више нису потребни.