Tehisintellekti algoritmide jaoks andmete kogumisel peate arvestama andmete nihkega ja nende parandamisega. Andmed võivad olemas olla iga andmekogumi andmekirje kohta, kuid need ei pruugi ühtida teiste teile kuuluvate andmekogumite andmetega. Näiteks võivad ühe andmestiku väljal olevad arvandmed olla ujukomatüüpi (koos komaga), kuid teises andmekogumis täisarvu tüüpi andmed. Enne kahe andmestiku kombineerimist peavad väljad sisaldama sama tüüpi andmeid.
Võib esineda igasuguseid muid kõrvalekaldeid. Näiteks on kuupäevaväljad mitmel viisil vormindatud. Kuupäevade võrdlemiseks peavad andmevormingud olema samad. Kuid datlid on ka salakavalad oma kalduvuses näida ühesugused, kuid mitte olla samad. Näiteks võivad ühe andmestiku kuupäevad kasutada aluseks Greenwichi keskmist aega (GMT), samas kui mõne teise andmekogumi kuupäevad võivad kasutada mõnda muud ajavööndit. Enne aegade võrdlemist tuleb need joondada sama ajavööndi järgi. See võib muutuda veelgi veidramaks, kui ühes andmestikus olevad kuupäevad pärinevad asukohast, mis kasutab suveaega (DST), kuid teisest asukohast pärinevad kuupäevad mitte.
Isegi kui andmetüübid ja vorming on samad, võib esineda muid andmete nihkeid. Näiteks ei pruugi ühe andmestiku väljad kattuda teise andmekogumi väljadega. Mõnel juhul on neid erinevusi lihtne parandada. Üks andmestik võib ees- ja perekonnanime käsitleda ühe väljana, samas kui teine andmestik võib kasutada ees- ja perekonnanime jaoks eraldi välju. Vastus on muuta kõik andmestikud nii, et need kasutaksid ühte välja, või muuta need kõik nii, et ees- ja perekonnanime jaoks kasutatakse eraldi välju. Kahjuks on paljusid andmesisu kõrvalekaldeid raskem välja selgitada. Tegelikult on täiesti võimalik, et te ei pruugi neist üldse aru saada. Kuid enne loobumist kaaluge neid võimalikke lahendusi probleemile:
- Arvutage puuduvad andmed muude andmete põhjal, millele teil on juurdepääs.
- Leidke teisest andmekogumist puuduvad andmed.
- Kombineerige andmekogumid, et luua tervik, mis pakub ühtseid välju.
- Puuduvate andmete täitmiseks koguge erinevatest allikatest lisaandmeid.
- Määratlege oma küsimus uuesti, et te ei vajaks enam puuduvaid andmeid.