Lai pareizi atbildētu uz doto jautājumu, jums ir jābūt visiem faktiem. Jūs varat uzminēt atbildi uz jautājumu bez visiem faktiem, taču tad atbilde ir tikpat liela, kā nepareiza un pareiza. Bieži tiek teikts, ka kāds, kurš pieņem lēmumu, būtībā atbildot uz jautājumu, bez visiem faktiem, piesteidzas pie secinājuma. Analizējot datus, iespējams, trūkstošo datu dēļ esat izdarījis vairāk secinājumu, nekā domājat. Datu ieraksta, viens ieraksts ar datu kopā (kas ir visi dati), sastāv no laukiem , kas satur faktus, ko izmanto, lai atbildētu uz jautājumu. Katrs lauks satur viena veida datus, kas attiecas uz vienu faktu. Ja šis lauks ir tukšs, jums nav datu, kas nepieciešami, lai atbildētu uz jautājumu, izmantojot konkrēto datu ierakstu.
Trūkstošo datu apstrādes procesā jums jāzina, ka trūkst datu. Identificēt, ka jūsu datu kopā trūkst informācijas, patiesībā var būt diezgan grūti, jo jums ir nepieciešams aplūkot datus zemā līmenī — tam vairums cilvēku nav gatavi, un tas aizņem daudz laika, pat ja jums ir nepieciešamās prasmes. Bieži vien pirmais pavediens, ka trūkst datu, ir absurdās atbildes, ko uz jūsu jautājumiem iegūst no algoritma un saistītās datu kopas. Ja algoritms ir pareizais lietošanai, datu kopai ir jābūt vainīgai.
Problēma var rasties, ja datu vākšanas procesā nav iekļauti visi dati, kas nepieciešami, lai atbildētu uz konkrētu jautājumu. Dažreiz labāk ir atmest faktu, nevis izmantot ievērojami bojātu faktu. Ja atklājat, ka konkrētam datu kopas laukam trūkst 90 procentu vai vairāk tā datu, lauks kļūst nederīgs, un tas ir jāizmet no datu kopas (vai jāatrod veids, kā iegūt visus šos datus).
Mazāk bojātos laukos datu var trūkt vienā no diviem veidiem. Nejauši trūkstošie dati bieži vien ir cilvēka vai sensora kļūdas rezultāts. Tas notiek, ja datu ierakstos visā datu kopā trūkst ierakstu. Dažreiz vienkārša kļūme var izraisīt bojājumus. Secīgi trūkstošie dati rodas kāda veida vispārinātas kļūmes laikā. Visam datu kopas datu ierakstu segmentam trūkst vajadzīgās informācijas, kas nozīmē, ka iegūtā analīze var kļūt diezgan šķība.
Visvieglāk ir labot nejauši trūkstošos datus. Kā aizstājēju varat izmantot vienkāršu vidējo vai vidējo vērtību. Nē, datu kopa nav pilnīgi precīza, taču tā, visticamāk, darbosies pietiekami labi, lai iegūtu saprātīgu atbildi. Dažos gadījumos datu zinātnieki izmantoja īpašu algoritmu, lai aprēķinātu trūkstošo vērtību, kas var padarīt datu kopu precīzāku uz skaitļošanas laika rēķina.
Secīgi trūkstošos datus ir ievērojami grūtāk vai pat neiespējami labot, jo trūkst apkārtējo datu, uz kuriem balstīt jebkāda veida minējumus. Ja varat atrast trūkstošo datu cēloni, dažreiz varat tos rekonstruēt. Tomēr, kad rekonstrukcija kļūst neiespējama, varat izvēlēties ignorēt šo lauku. Diemžēl dažām atbildēm būs nepieciešams šis lauks, kas nozīmē, ka jums, iespējams, vajadzēs ignorēt šo konkrēto datu ierakstu secību, kas var izraisīt nepareizu izvadi.