Norėdami teisingai atsakyti į pateiktą klausimą, turite turėti visus faktus. Jūs galite atspėti atsakymą į klausimą be visų faktų, bet tada yra tiek pat tikimybė, kad atsakymas bus neteisingas ir teisingas. Dažnai sakoma, kad kažkas, kas priima sprendimą, iš esmės atsakydamas į klausimą, nepateikdamas visų faktų, daro skubotą išvadą. Analizuodami duomenis tikriausiai padarėte daugiau išvadų, nei manote, nes trūksta duomenų. Duomenų įrašas, vienas įrašas į rinkinį (kuris yra visi duomenys), susideda iš laukų , kuriuose yra faktai naudojami atsakyti į klausimą. Kiekviename lauke yra vienos rūšies duomenys, susiję su vienu faktu. Jei šis laukas tuščias, neturite duomenų, kurių reikia norint atsakyti į klausimą naudodami tą konkretų duomenų įrašą.
Tvarkydami trūkstamus duomenis turite žinoti, kad trūksta duomenų. Nustatyti, kad duomenų rinkinyje trūksta informacijos, iš tikrųjų gali būti gana sunku, nes reikia žiūrėti į duomenis žemu lygiu – tai dauguma žmonių nėra pasiruošę ir užima daug laiko, net jei turite reikiamų įgūdžių. Dažnai pirmasis užuomina, kad trūksta duomenų, yra absurdiški atsakymai, kuriuos į jūsų klausimus gaunate iš algoritmo ir susijusio duomenų rinkinio. Kai algoritmas yra tinkamas naudoti, duomenų rinkinys turi būti kaltas.
Problema gali kilti, kai duomenų rinkimo procesas neapima visų duomenų, reikalingų atsakyti į konkretų klausimą. Kartais geriau atmesti faktą, o ne naudoti labai sugadintą faktą. Jei pastebite, kad tam tikrame duomenų rinkinio lauke trūksta 90 procentų ar daugiau duomenų, laukas tampa nenaudingas ir turite jį išmesti iš duomenų rinkinio (arba rasti būdą, kaip gauti visus tuos duomenis).
Mažiau pažeistuose laukuose duomenų gali trūkti vienu iš dviejų būdų. Atsitiktinai trūkstami duomenys dažnai yra žmogaus arba jutiklio klaidos rezultatas. Taip nutinka, kai duomenų įrašuose visame duomenų rinkinyje trūksta įrašų. Kartais žalos padarys paprastas gedimas. Tam tikro tipo apibendrintų gedimų metu nuosekliai trūksta duomenų. Visame duomenų rinkinio duomenų įrašų segmente trūksta reikiamos informacijos, o tai reiškia, kad gauta analizė gali būti gana iškreipta.
Atsitiktinai trūkstamus duomenis pataisyti lengviausia. Kaip pakaitalą galite naudoti paprastą vidutinę arba vidutinę vertę. Ne, duomenų rinkinys nėra visiškai tikslus, bet greičiausiai jis veiks pakankamai gerai, kad gautumėte pagrįstą atsakymą. Kai kuriais atvejais duomenų mokslininkai naudojo specialų algoritmą trūkstamai vertei apskaičiuoti, todėl duomenų rinkinys gali būti tikslesnis skaičiavimo laiko sąskaita.
Pataisyti nuosekliai trūkstamus duomenis yra daug sunkiau, o gal net neįmanoma, nes trūksta aplinkinių duomenų, kuriais remiantis būtų galima spėti. Jei galite rasti trūkstamų duomenų priežastį, kartais galite ją atkurti. Tačiau kai rekonstrukcija tampa neįmanoma, galite nepaisyti lauko. Deja, kai kuriems atsakymams reikės šio lauko, o tai reiškia, kad jums gali tekti nepaisyti konkrečios duomenų įrašų sekos, o tai gali sukelti neteisingą išvestį.