Για να απαντήσετε σωστά σε μια δεδομένη ερώτηση, πρέπει να έχετε όλα τα δεδομένα. Μπορείτε να μαντέψετε την απάντηση σε μια ερώτηση χωρίς όλα τα γεγονότα, αλλά τότε η απάντηση είναι εξίσου πιθανό να είναι λάθος όσο και σωστή. Συχνά, κάποιος που παίρνει μια απόφαση, απαντώντας ουσιαστικά σε μια ερώτηση, χωρίς όλα τα δεδομένα λέγεται ότι καταλήγει βιαστικά. Όταν αναλύετε δεδομένα, πιθανότατα έχετε βιαστεί να καταλήξετε σε περισσότερα συμπεράσματα από ό,τι νομίζετε, λόγω έλλειψης δεδομένων. Μια εγγραφή δεδομένων, μία καταχώρηση σε ένα σύνολο δεδομένων (που είναι όλα τα δεδομένα), αποτελείται από πεδία που περιέχουν στοιχεία που χρησιμοποιούνται για την απάντηση σε μια ερώτηση. Κάθε πεδίο περιέχει ένα μόνο είδος δεδομένων που αντιμετωπίζει ένα μεμονωμένο γεγονός. Εάν αυτό το πεδίο είναι κενό, δεν έχετε τα δεδομένα που χρειάζεστε για να απαντήσετε στην ερώτηση χρησιμοποιώντας τη συγκεκριμένη εγγραφή δεδομένων.
Ως μέρος της διαδικασίας αντιμετώπισης δεδομένων που λείπουν, πρέπει να γνωρίζετε ότι λείπουν τα δεδομένα. Το να αναγνωρίσετε ότι λείπουν πληροφορίες από το σύνολο δεδομένων σας μπορεί πραγματικά να είναι πολύ δύσκολο, επειδή απαιτεί να βλέπετε τα δεδομένα σε χαμηλό επίπεδο — κάτι που οι περισσότεροι άνθρωποι δεν είναι διατεθειμένοι να κάνουν και είναι χρονοβόρο, ακόμη κι αν έχετε τις απαιτούμενες δεξιότητες. Συχνά, η πρώτη σας ένδειξη ότι λείπουν δεδομένα είναι οι παράλογες απαντήσεις που λαμβάνουν οι ερωτήσεις σας από τον αλγόριθμο και το σχετικό σύνολο δεδομένων. Όταν ο αλγόριθμος είναι ο σωστός προς χρήση, το σύνολο δεδομένων πρέπει να φταίει.
Ένα πρόβλημα μπορεί να προκύψει όταν η διαδικασία συλλογής δεδομένων δεν περιλαμβάνει όλα τα δεδομένα που απαιτούνται για την απάντηση σε μια συγκεκριμένη ερώτηση. Μερικές φορές είναι καλύτερα να απορρίψετε πραγματικά ένα γεγονός παρά να χρησιμοποιήσετε ένα γεγονός που έχει υποστεί σημαντική βλάβη. Εάν διαπιστώσετε ότι ένα συγκεκριμένο πεδίο σε ένα σύνολο δεδομένων λείπει το 90 τοις εκατό ή περισσότερο από τα δεδομένα του, το πεδίο καθίσταται άχρηστο και πρέπει να το αφαιρέσετε από το σύνολο δεδομένων (ή να βρείτε κάποιον τρόπο για να αποκτήσετε όλα αυτά τα δεδομένα).
Τα λιγότερο κατεστραμμένα πεδία μπορεί να έχουν δεδομένα που λείπουν με έναν από τους δύο τρόπους. Τα δεδομένα που λείπουν τυχαία είναι συχνά αποτέλεσμα σφάλματος ανθρώπου ή αισθητήρα. Συμβαίνει όταν οι εγγραφές δεδομένων σε όλο το σύνολο δεδομένων έχουν καταχωρήσεις που λείπουν. Μερικές φορές ένα απλό σφάλμα θα προκαλέσει τη ζημιά. Τα δεδομένα που λείπουν διαδοχικά παρουσιάζονται κατά τη διάρκεια κάποιου τύπου γενικευμένης αποτυχίας. Ένα ολόκληρο τμήμα των εγγραφών δεδομένων στο σύνολο δεδομένων δεν έχει τις απαιτούμενες πληροφορίες, πράγμα που σημαίνει ότι η προκύπτουσα ανάλυση μπορεί να γίνει αρκετά λοξή.
Η διόρθωση δεδομένων που λείπουν τυχαία είναι πιο εύκολη. Μπορείτε να χρησιμοποιήσετε μια απλή διάμεση ή μέση τιμή ως αντικατάσταση. Όχι, το σύνολο δεδομένων δεν είναι απολύτως ακριβές, αλλά πιθανότατα θα λειτουργήσει αρκετά καλά για να λάβετε μια λογική απάντηση. Σε ορισμένες περιπτώσεις, οι επιστήμονες δεδομένων χρησιμοποίησαν έναν ειδικό αλγόριθμο για να υπολογίσουν την τιμή που λείπει, η οποία μπορεί να κάνει το σύνολο δεδομένων πιο ακριβές σε βάρος του υπολογιστικού χρόνου.
Τα δεδομένα που λείπουν διαδοχικά είναι πολύ πιο δύσκολο, αν όχι αδύνατο, να διορθωθούν, επειδή δεν υπάρχουν δεδομένα περιβάλλοντος στα οποία μπορείτε να βασίσετε οποιοδήποτε είδος εικασίας. Εάν μπορείτε να βρείτε την αιτία των δεδομένων που λείπουν, μερικές φορές μπορείτε να τα ανακατασκευάσετε. Ωστόσο, όταν η ανακατασκευή καθίσταται αδύνατη, μπορείτε να επιλέξετε να αγνοήσετε το πεδίο. Δυστυχώς, ορισμένες απαντήσεις θα απαιτήσουν αυτό το πεδίο, πράγμα που σημαίνει ότι μπορεί να χρειαστεί να αγνοήσετε αυτή τη συγκεκριμένη σειρά εγγραφών δεδομένων — ενδεχομένως να προκαλέσετε εσφαλμένη έξοδο.