Per respondre correctament una pregunta determinada, has de tenir tots els fets. Podeu endevinar la resposta a una pregunta sense tots els fets, però llavors és tan probable que la resposta sigui incorrecta com correcta. Sovint, es diu que algú que pren una decisió, bàsicament responent a una pregunta, sense tots els fets, arriba a una conclusió. Quan analitzeu les dades, probablement heu arribat a més conclusions del que penseu a causa de les dades que falten. Un registre de dades, una entrada en un conjunt de dades (que són totes les dades), consta de camps que contenen fets utilitzats per respondre una pregunta. Cada camp conté un únic tipus de dades que aborden un sol fet. Si aquest camp està buit, no teniu les dades que necessiteu per respondre la pregunta utilitzant aquest registre de dades concret.
Com a part del procés de tractament de les dades que falten, heu de saber que les dades falten. Identificar que falta informació al vostre conjunt de dades pot ser bastant difícil perquè requereix que mireu les dades a un nivell baix, una cosa que la majoria de la gent no està preparada per fer i requereix molt de temps, fins i tot si teniu les habilitats necessàries. Sovint, la vostra primera pista que falten dades són les respostes absurdes que obtenen les vostres preguntes de l'algorisme i el conjunt de dades associat. Quan l'algorisme és l'adequat per utilitzar, el conjunt de dades ha de tenir la culpa.
Es pot produir un problema quan el procés de recollida de dades no inclou totes les dades necessàries per respondre una pregunta concreta. De vegades, és millor abandonar un fet en lloc d'utilitzar un fet considerablement danyat. Si trobeu que a un camp concret d'un conjunt de dades li falten el 90% o més de les seves dades, el camp esdevé inútil i l'heu d'eliminar del conjunt de dades (o trobar alguna manera d'obtenir totes aquestes dades).
Els camps menys danyats poden tenir dades que falten de dues maneres. Les dades que falten aleatòriament són sovint el resultat d'un error humà o del sensor. Es produeix quan els registres de dades de tot el conjunt de dades tenen entrades que falten. De vegades, un simple error causarà el dany. Les dades que falten seqüencialment es produeixen durant algun tipus d'error generalitzat. Un segment sencer dels registres de dades del conjunt de dades no té la informació necessària, la qual cosa significa que l'anàlisi resultant pot arribar a ser força esbiaixada.
El més fàcil és arreglar les dades que falten aleatòriament. Podeu utilitzar una mitjana simple o un valor mitjà com a reemplaçament. No, el conjunt de dades no és completament precís, però probablement funcionarà prou bé per obtenir una resposta raonable. En alguns casos, els científics de dades van utilitzar un algorisme especial per calcular el valor que faltava, cosa que pot fer que el conjunt de dades sigui més precís a costa del temps computacional.
Les dades que falten seqüencialment són molt més difícils, si no impossibles, d'arreglar perquè no teniu cap dada circumdant en la qual basar qualsevol tipus de conjectura. Si podeu trobar la causa de les dades que falten, de vegades la podeu reconstruir. Tanmateix, quan la reconstrucció es fa impossible, podeu optar per ignorar el camp. Malauradament, algunes respostes requeriran aquest camp, la qual cosa significa que potser haureu d'ignorar aquesta seqüència particular de registres de dades, cosa que podria provocar una sortida incorrecta.