Vācot datus mākslīgā intelekta algoritmiem, jāņem vērā datu novirzes un to novēršana. Dati var pastāvēt katram datu ierakstam datu kopā, taču tie var neatbilst citiem datiem citās datu kopās, kas jums pieder. Piemēram, ciparu dati laukā vienā datu kopā var būt peldošā komata tipa (ar decimālzīmi), bet vesela skaitļa tips citā datu kopā. Lai varētu apvienot abas datu kopas, laukos ir jāietver viena veida dati.
Var rasties visa veida cita veida novirzes. Piemēram, datuma lauki ir bēdīgi slaveni ar to, ka tiek formatēti dažādos veidos. Lai salīdzinātu datumus, datu formātiem ir jābūt vienādiem. Tomēr datumi ir arī mānīgi ar savu tieksmi izskatīties vienādi, bet nebūt vienādi. Piemēram, datumi vienā datu kopā var izmantot Griničas laiku (GMT) kā pamatu, savukārt datumi citā datu kopā var izmantot citu laika joslu. Lai varētu salīdzināt laikus, tie ir jāsaskaņo ar vienu un to pašu laika joslu. Tas var kļūt vēl dīvaināk, ja datumi vienā datu kopā ir no vietas, kurā tiek izmantots vasaras laiks (DST), bet datumi no citas vietas nav.
Pat tad, ja datu tipi un formāts ir vienādi, var rasties citi datu novirzes. Piemēram, lauki vienā datu kopā var nesakrist ar laukiem citā datu kopā. Dažos gadījumos šīs atšķirības ir viegli novērst. Viena datu kopa vārdu un uzvārdu var uzskatīt par vienu lauku, savukārt citā datu kopā vārdam un uzvārdam var tikt izmantoti atsevišķi lauki. Atbilde ir mainīt visas datu kopas, lai izmantotu vienu lauku, vai mainīt tās visas, lai vārdam un uzvārdam izmantotu atsevišķus laukus. Diemžēl daudzas neatbilstības datu saturā ir grūtāk izdomāt. Patiesībā ir pilnīgi iespējams, ka jūs tos nemaz nevarēsit izdomāt. Tomēr, pirms padoties, apsveriet šādus iespējamos problēmas risinājumus:
- Aprēķiniet trūkstošos datus no citiem datiem, kuriem varat piekļūt.
- Atrodiet trūkstošos datus citā datu kopā.
- Apvienojiet datu kopas, lai izveidotu kopumu, kas nodrošina konsekventus laukus.
- Apkopojiet papildu datus no dažādiem avotiem, lai aizpildītu trūkstošos datus.
- Pārdefinējiet savu jautājumu, lai trūkstošie dati vairs nebūtu nepieciešami.