Et vastata küsimusele õigesti, peavad teil olema kõik faktid. Võite arvata vastuse küsimusele ilma kõigi faktideta, kuid siis on vastus sama suure tõenäosusega vale kui õige. Sageli öeldakse, et keegi, kes teeb otsuse, vastates sisuliselt küsimusele, ilma kõigi faktideta, teeb kiire järelduse. Andmete analüüsimisel olete tõenäoliselt teinud andmete puudumise tõttu rohkem kiireid järeldusi, kui arvate. Andmete rekord, üks kanne andmekogumi (mis on kõik andmed), koosneb väljad , mis sisaldavad fakte kasutatud vastata küsimusele. Iga väli sisaldab ühte tüüpi andmeid, mis käsitlevad ühte fakti. Kui see väli on tühi, pole teil andmeid, mida vajate selle konkreetse andmekirje abil küsimusele vastamiseks.
Osana puuduvate andmetega tegelemise protsessist peate teadma, et andmed puuduvad. Andmestikust puuduva teabe tuvastamine võib tegelikult olla üsna keeruline, kuna see nõuab andmete madalat vaatamist – see on midagi, milleks enamik inimesi pole valmis ja see on aeganõudev, isegi kui teil on vajalikud oskused. Sageli on teie esimene vihje, et andmed puuduvad, absurdsed vastused, mis teie küsimustele algoritmist ja sellega seotud andmekogumist saate. Kui algoritm on kasutamiseks õige, peab viga olema andmestikus.
Probleem võib tekkida siis, kui andmete kogumise protsess ei sisalda kõiki konkreetsele küsimusele vastamiseks vajalikke andmeid. Mõnikord on parem fakti kõrvale heita, selle asemel, et kasutada oluliselt kahjustatud fakti. Kui leiate, et andmestiku konkreetsel väljal on 90 protsenti või rohkem andmetest puudu, muutub väli kasutuks ja peate selle andmestikust välja jätma (või leidma võimaluse kõigi nende andmete hankimiseks).
Vähem kahjustatud väljadel võivad andmed puududa kahel viisil. Juhuslikult puuduvad andmed on sageli inimese või anduri vea tagajärg. See juhtub siis, kui kogu andmestiku andmekirjetes on puuduvaid kirjeid. Mõnikord põhjustab kahju lihtne tõrge. Järjestikku puuduvad andmed ilmnevad teatud tüüpi üldistatud tõrke korral. Tervel andmekogumi andmekirjete segmendil puudub nõutav teave, mis tähendab, et tulemuseks olev analüüs võib muutuda üsna viltu.
Juhuslikult puuduvate andmete parandamine on kõige lihtsam. Asendusena saate kasutada lihtsat mediaan- või keskmist väärtust. Ei, andmestik ei ole täiesti täpne, kuid tõenäoliselt töötab see piisavalt hästi, et saada mõistlikku vastust. Mõnel juhul kasutasid andmeteadlased puuduva väärtuse arvutamiseks spetsiaalset algoritmi, mis võib andmestiku arvutusaja arvelt täpsemaks muuta.
Järjestikku puuduvaid andmeid on oluliselt raskem, kui mitte võimatu parandada, kuna teil puuduvad ümbritsevad andmed, mille põhjal oleks võimalik arvata. Kui leiate puuduvate andmete põhjuse, saate need mõnikord taastada. Kui aga rekonstrueerimine muutub võimatuks, võite seda välja ignoreerida. Kahjuks nõuavad mõned vastused seda välja, mis tähendab, et peate võib-olla seda konkreetset andmekirjete jada ignoreerima, mis võib põhjustada vale väljundi.