За да отговорите правилно на даден въпрос, трябва да имате всички факти. Можете да отгатнете отговора на въпрос без всички факти, но тогава отговорът е също толкова вероятно да бъде грешен, колкото и правилен. Често се казва, че някой, който взема решение, като по същество отговаря на въпрос, без всички факти, прибързва със заключение. Когато анализирате данни, вероятно сте направили повече заключения, отколкото си мислите, поради липсващи данни. А запис на данни, един запис в набор от данни (която е на всички данни), се състои от полета , които съдържат факти, използвани за да отговори на един въпрос. Всяко поле съдържа един вид данни, които се отнасят до един факт. Ако това поле е празно, нямате данните, от които се нуждаете, за да отговорите на въпроса, като използвате този конкретен запис с данни.
Като част от процеса на работа с липсващи данни, трябва да знаете, че данните липсват. Идентифицирането, че във вашия набор от данни липсва информация, всъщност може да бъде доста трудно, защото изисква от вас да разглеждате данните на ниско ниво – нещо, което повечето хора не са готови да направят и отнема много време, дори ако имате необходимите умения. Често първата ви улика, че данните липсват, са нелепите отговори, които вашите въпроси получават от алгоритъма и свързания набор от данни. Когато алгоритъмът е правилният за използване, наборът от данни трябва да има грешка.
Проблем може да възникне, когато процесът на събиране на данни не включва всички данни, необходими за отговор на конкретен въпрос. Понякога е по-добре да изпуснете факт, вместо да използвате значително повреден факт. Ако установите, че в определено поле в набор от данни липсват 90 процента или повече от неговите данни, полето става безполезно и трябва да го изхвърлите от набора от данни (или да намерите някакъв начин да получите всички тези данни).
По-малко повредени полета могат да имат липсващи данни по един от двата начина. Случайно липсващите данни често са резултат от човешка или сензорна грешка. Това се случва, когато записи от данни в целия набор от данни имат липсващи записи. Понякога обикновена грешка ще причини повреда. Последователно липсващите данни се появяват по време на някакъв тип генерализиран отказ. В цял сегмент от записите с данни в набора от данни липсва необходимата информация, което означава, че полученият анализ може да стане доста изкривен.
Поправянето на произволно липсващи данни е най-лесно. Можете да използвате проста средна или средна стойност като заместител. Не, наборът от данни не е напълно точен, но вероятно ще работи достатъчно добре, за да получи разумен отговор. В някои случаи учените за данни са използвали специален алгоритъм за изчисляване на липсващата стойност, което може да направи набора от данни по-точен за сметка на изчислителното време.
Последователно липсващите данни е значително по-трудно, ако не и невъзможно, за коригиране, тъй като нямате никакви заобикалящи данни, на които да базирате каквото и да е предположение. Ако успеете да намерите причината за липсващите данни, понякога можете да я реконструирате. Въпреки това, когато реконструкцията стане невъзможна, можете да изберете да игнорирате полето. За съжаление, някои отговори ще изискват това поле, което означава, че може да се наложи да игнорирате тази конкретна последователност от записи от данни - което потенциално причинява неправилен изход.