Če želite pravilno odgovoriti na dano vprašanje, morate imeti vsa dejstva. Odgovor na vprašanje lahko ugibate brez vseh dejstev, vendar je potem odgovor enako verjetno napačen kot pravilen. Pogosto se reče, da nekdo, ki sprejme odločitev, v bistvu odgovori na vprašanje, brez vseh dejstev, prehitro sklepa. Ko analizirate podatke, ste verjetno zaradi manjkajočih podatkov preskočili do več zaključkov, kot si mislite. Zapis podatkov, en vnos v naboru podatkov (ki so vsi podatki), je sestavljen iz polj , ki vsebujejo dejstva, ki se uporabljajo za odgovor na vprašanje. Vsako polje vsebuje eno vrsto podatkov, ki obravnava posamezno dejstvo. Če je to polje prazno, nimate podatkov, ki jih potrebujete, da odgovorite na vprašanje s tem določenim podatkovnim zapisom.
V okviru postopka obravnave manjkajočih podatkov morate vedeti, da podatki manjkajo. Prepoznavanje, da v vašem nizu podatkov manjkajo informacije, je lahko precej težko, saj zahteva, da podatke pogledate na nizki ravni – nekaj, na kar večina ljudi ni pripravljena in je zamudno, tudi če imate zahtevane veščine. Pogosto so vaš prvi namig, da podatki manjkajo, nesmiselni odgovori, ki jih vaša vprašanja dobijo iz algoritma in povezanega nabora podatkov. Če je algoritem pravi za uporabo, mora biti nabor podatkov kriv.
Težava se lahko pojavi, če postopek zbiranja podatkov ne vključuje vseh podatkov, potrebnih za odgovor na določeno vprašanje. Včasih je bolje, da dejansko opustiš dejstvo, kot pa uporabiš precej poškodovano dejstvo. Če ugotovite, da določenemu polju v naboru podatkov manjka 90 odstotkov ali več njegovih podatkov, postane polje neuporabno in ga morate izpustiti iz nabora podatkov (ali najti način za pridobitev vseh teh podatkov).
Na manj poškodovanih poljih lahko podatki manjkajo na enega od dveh načinov. Naključno manjkajoči podatki so pogosto posledica človeške ali senzorske napake. Pojavi se, ko v podatkovnih zapisih v celotnem naboru podatkov manjkajo vnosi. Včasih lahko škodo povzroči preprosta napaka. Zaporedno manjkajoči podatki se pojavijo med določeno vrsto splošne napake. Celoten segment podatkovnih zapisov v naboru podatkov nima zahtevanih informacij, kar pomeni, da lahko nastala analiza postane precej izkrivljena.
Najlažje je popraviti naključno manjkajoče podatke. Kot zamenjavo lahko uporabite preprosto mediano ali povprečno vrednost. Ne, nabor podatkov ni povsem natančen, vendar bo verjetno deloval dovolj dobro, da bo dobil razumen odgovor. V nekaterih primerih so podatkovni znanstveniki uporabili poseben algoritem za izračun manjkajoče vrednosti, ki lahko naredi nabor podatkov natančnejši na račun računalniškega časa.
Zaporedno manjkajoče podatke je bistveno težje, če ne celo nemogoče popraviti, ker nimate nobenih okoliških podatkov, na katerih bi lahko ugibali. Če lahko najdete vzrok za manjkajoče podatke, ga lahko včasih rekonstruirate. Ko pa rekonstrukcija postane nemogoča, se lahko odločite, da polje prezrete. Na žalost bodo nekateri odgovori zahtevali to polje, kar pomeni, da boste morda morali prezreti to določeno zaporedje podatkovnih zapisov – kar lahko povzroči napačen izpis.