Когато събирате данни за алгоритми за изкуствен интелект, трябва да вземете предвид несъответствията на данните и как да ги коригирате. Данни може да съществуват за всеки от записите от данни в набор от данни, но може да не са в съответствие с други данни в други набори от данни, които притежавате. Например, числовите данни в поле в един набор от данни могат да бъдат тип с плаваща запетая (с десетична запетая), но целочислен тип в друг набор от данни. Преди да можете да комбинирате двата набора от данни, полетата трябва да съдържат същия тип данни.
Могат да възникнат всякакви други видове несъответствие. Например полетата за дата са известни с това, че са форматирани по различни начини. За да сравните датите, форматите на данните трябва да са еднакви. Датите обаче са коварни и в склонността си да изглеждат еднакви, но да не са еднакви. Например датите в един набор от данни могат да използват средното време по Гринуич (GMT) като основа, докато датите в друг набор от данни може да използват друга часова зона. Преди да можете да сравните времената, трябва да ги подравните към една и съща часова зона. Може да стане още по-странно, когато датите в един набор от данни идват от място, което използва лятно часово време (DST), но датите от друго местоположение не.
Дори когато типовете данни и форматът са едни и същи, могат да възникнат други несъответствия на данните. Например, полетата в един набор от данни може да не съвпадат с полетата в другия набор от данни. В някои случаи тези разлики са лесни за коригиране. Един набор от данни може да третира името и фамилията като едно поле, докато друг набор от данни може да използва отделни полета за име и фамилия. Отговорът е да промените всички набори от данни за използване на едно поле или да ги промените всички, за да използвате отделни полета за име и фамилия. За съжаление, много несъответствия в съдържанието на данните са по-трудни за установяване. Всъщност е напълно възможно изобщо да не успеете да ги разберете. Въпреки това, преди да се откажете, помислете за тези потенциални решения на проблема:
- Изчислете липсващите данни от други данни, до които имате достъп.
- Намерете липсващите данни в друг набор от данни.
- Комбинирайте набори от данни, за да създадете едно цяло, което осигурява последователни полета.
- Съберете допълнителни данни от различни източници, за да попълните липсващите данни.
- Предефинирайте въпроса си, така че повече да нямате нужда от липсващите данни.