Да бисте тачно одговорили на дато питање, морате имати све чињенице. Можете да погодите одговор на питање без свих чињеница, али тада је вероватно да ће одговор бити погрешан као и тачан. Често се каже да неко ко донесе одлуку, у суштини одговара на питање, без свих чињеница, пребрзо закључује. Када анализирате податке, вероватно сте донели више закључака него што мислите због података који недостају. Запис података, један унос у података (што је сви подаци), састоји се од поља које садрже чињенице користе да одговори на питање. Свако поље садржи једну врсту података који се односе на једну чињеницу. Ако је то поље празно, немате податке који су вам потребни да одговорите на питање користећи тај одређени запис података.
Као део процеса поступања са подацима који недостају, морате знати да подаци недостају. Идентификовање да вашем скупу података недостају информације може бити прилично тешко јер захтева да податке сагледате на ниском нивоу — нешто што већина људи није спремна да уради и што одузима много времена чак и ако имате потребне вештине. Често, ваш први траг да подаци недостају су бесмислени одговори које ваша питања добијају из алгоритма и повезаног скупа података. Када је алгоритам прави за употребу, скуп података мора бити у криву.
Проблем може настати када процес прикупљања података не укључује све податке потребне за одговор на одређено питање. Понекад је боље да заиста одбаците чињеницу него да користите знатно оштећену чињеницу. Ако установите да одређеном пољу у скупу података недостаје 90 процената или више података, поље постаје бескорисно и морате да га избаците из скупа података (или да пронађете неки начин да добијете све те податке).
У мање оштећеним пољима подаци могу недостајати на један од два начина. Подаци који насумично недостају често су резултат људске грешке или грешке сензора. То се дешава када записи података у целом скупу података имају недостају уносе. Понекад обична грешка може проузроковати штету. Подаци који недостају секвенцијално се јављају током неке врсте генерализованог квара. Читавом сегменту записа података у скупу података недостају потребне информације, што значи да резултујућа анализа може постати прилично искривљена.
Најлакше је поправити насумично недостајуће податке. Можете користити једноставну средњу или просечну вредност као замену. Не, скуп података није потпуно тачан, али ће вероватно функционисати довољно добро да добије разуман одговор. У неким случајевима, научници података су користили посебан алгоритам за израчунавање недостајуће вредности, што може учинити скуп података прецизнијим на рачун времена за рачунање.
Узастопно недостајуће податке је знатно теже, ако не и немогуће, поправити јер вам недостају околни подаци на основу којих бисте могли да нагађате. Ако можете пронаћи узрок података који недостају, понекад их можете реконструисати. Међутим, када реконструкција постане немогућа, можете изабрати да игноришете поље. Нажалост, неки одговори ће захтевати то поље, што значи да ћете можда морати да игноришете тај одређени низ записа података — што би могло да изазове нетачан резултат.