Da biste točno odgovorili na zadano pitanje, morate imati sve činjenice. Možete pogoditi odgovor na pitanje bez svih činjenica, ali tada je jednako vjerojatno da će odgovor biti pogrešan kao i točan. Često se za nekoga tko donese odluku, u suštini odgovara na pitanje, bez svih činjenica, kaže da prerano zaključuje. Kada analizirate podatke, vjerojatno ste donijeli više zaključaka nego što mislite zbog podataka koji nedostaju. Zapis podataka, jedan unos u skupu podataka (koji su svi podaci), sastoji se od polja koja sadrže činjenice koje se koriste za odgovor na pitanje. Svako polje sadrži jednu vrstu podataka koji se odnose na jednu činjenicu. Ako je to polje prazno, nemate podatke koji su vam potrebni da odgovorite na pitanje pomoću tog određenog zapisa podataka.
Kao dio procesa rješavanja podataka koji nedostaju, morate znati da podaci nedostaju. Identificirati da vašem skupu podataka nedostaju informacije zapravo može biti prilično teško jer zahtijeva da podatke pogledate na niskoj razini – nešto što većina ljudi nije spremna učiniti i što oduzima mnogo vremena čak i ako imate potrebne vještine. Često, vaš prvi trag da podaci nedostaju su besmisleni odgovori koje vaša pitanja dobivaju iz algoritma i povezanog skupa podataka. Kada je algoritam pravi za korištenje, skup podataka mora biti kriv.
Problem se može pojaviti kada proces prikupljanja podataka ne uključuje sve podatke potrebne za odgovor na određeno pitanje. Ponekad je bolje da zapravo odbacite činjenicu umjesto da koristite znatno oštećenu činjenicu. Ako ustanovite da određenom polju u skupu podataka nedostaje 90 posto ili više podataka, polje postaje beskorisno i trebate ga izbaciti iz skupa podataka (ili pronaći neki način da dobijete sve te podatke).
U manje oštećenim poljima podaci mogu nedostajati na jedan od dva načina. Podaci koji nasumično nedostaju često su rezultat ljudske ili senzorske pogreške. To se događa kada zapisi podataka u cijelom skupu podataka nemaju unose. Ponekad jednostavan kvar može uzrokovati štetu. Podaci koji uzastopno nedostaju javljaju se tijekom neke vrste generaliziranog kvara. Cijelom segmentu zapisa podataka u skupu podataka nedostaju potrebne informacije, što znači da rezultirajuća analiza može postati prilično iskrivljena.
Najlakše je popraviti nasumično nedostajuće podatke. Kao zamjenu možete koristiti jednostavnu srednju ili prosječnu vrijednost. Ne, skup podataka nije potpuno točan, ali će vjerojatno raditi dovoljno dobro da dobije razuman odgovor. U nekim slučajevima, znanstvenici za podatke koristili su poseban algoritam za izračunavanje vrijednosti koja nedostaje, što može učiniti skup podataka točnijim na račun vremena računanja.
Podaci koji nedostaju u sekvenci znatno je teže, ako ne i nemoguće, popraviti jer vam nedostaju okolni podaci na kojima biste mogli temeljiti bilo kakvu vrstu nagađanja. Ako možete pronaći uzrok podataka koji nedostaju, ponekad ih možete rekonstruirati. Međutim, kada rekonstrukcija postane nemoguća, možete odabrati zanemariti polje. Nažalost, neki odgovori zahtijevat će to polje, što znači da ćete možda morati zanemariti taj određeni slijed zapisa podataka - što može uzrokovati netočan izlaz.