Aby ste správne odpovedali na danú otázku, musíte poznať všetky fakty. Môžete uhádnuť odpoveď na otázku bez všetkých faktov, ale potom je odpoveď rovnako pravdepodobne nesprávna ako správna. Často sa hovorí, že niekto, kto sa rozhodne, v podstate odpovie na otázku, bez všetkých faktov, urobí unáhlený záver. Pri analýze údajov ste pravdepodobne kvôli chýbajúcim údajom urobili viac záverov, ako si myslíte. Záznam dát, jedna položka v dátovom súbore (čo je všetky dáta), sa skladá z polí , ktoré obsahujú skutočnosti použiť na odpovedať na otázku. Každé pole obsahuje jeden druh údajov, ktoré sa týkajú jednej skutočnosti. Ak je toto pole prázdne, nemáte údaje, ktoré potrebujete na zodpovedanie otázky pomocou konkrétneho údajového záznamu.
V rámci procesu riešenia chýbajúcich údajov musíte vedieť, že údaje chýbajú. Identifikovať, že vo vašom súbore údajov chýbajú informácie, môže byť v skutočnosti dosť ťažké, pretože vyžaduje, aby ste sa na údaje pozerali na nízkej úrovni – niečo, na čo väčšina ľudí nie je pripravená a je to časovo náročné, aj keď máte požadované zručnosti. Často sú vaším prvým vodítkom, že chýbajú údaje, absurdné odpovede, ktoré vaše otázky získavajú z algoritmu a súvisiaceho súboru údajov. Keď je algoritmus správny na použitie, chyba musí byť v súbore údajov.
Problém môže nastať, keď proces zberu údajov nezahŕňa všetky údaje potrebné na zodpovedanie konkrétnej otázky. Niekedy je lepšie fakt vypustiť, ako použiť značne poškodený fakt. Ak zistíte, že určitému poľu v množine údajov chýba 90 alebo viac percent údajov, pole sa stane neužitočným a musíte ho z množiny údajov odstrániť (alebo nájsť nejaký spôsob, ako získať všetky tieto údaje).
V menej poškodených poliach môžu chýbať údaje jedným z dvoch spôsobov. Náhodne chýbajúce údaje sú často výsledkom ľudskej chyby alebo chyby senzora. Vyskytuje sa vtedy, keď v dátových záznamoch v celej množine údajov chýbajú položky. Niekedy spôsobí škodu aj obyčajná chyba. Postupne chýbajúce údaje sa vyskytujú počas určitého typu všeobecného zlyhania. Celému segmentu dátových záznamov v dátovom súbore chýbajú požadované informácie, čo znamená, že výsledná analýza môže byť značne skreslená.
Oprava náhodne chýbajúcich údajov je najjednoduchšia. Ako náhradu môžete použiť jednoduchý medián alebo priemernú hodnotu. Nie, súbor údajov nie je úplne presný, ale pravdepodobne bude fungovať dostatočne dobre na získanie rozumnej odpovede. V niektorých prípadoch vedci údajov použili špeciálny algoritmus na výpočet chýbajúcej hodnoty, čo môže spresniť súbor údajov na úkor výpočtového času.
Postupne chýbajúce údaje je podstatne ťažšie, ak nie nemožné, opraviť, pretože vám chýbajú akékoľvek okolité údaje, na ktorých by ste mohli založiť akýkoľvek druh odhadu. Ak nájdete príčinu chýbajúcich údajov, môžete ich niekedy zrekonštruovať. Keď sa však rekonštrukcia stane nemožnou, môžete sa rozhodnúť pole ignorovať. Bohužiaľ, niektoré odpovede budú vyžadovať toto pole, čo znamená, že možno budete musieť ignorovať túto konkrétnu sekvenciu dátových záznamov, čo môže spôsobiť nesprávny výstup.