Όταν συλλέγετε δεδομένα για αλγόριθμους τεχνητής νοημοσύνης, πρέπει να λαμβάνετε υπόψη τις εσφαλμένες ευθυγραμμίσεις δεδομένων και τον τρόπο διόρθωσής τους. Μπορεί να υπάρχουν δεδομένα για καθεμία από τις εγγραφές δεδομένων σε ένα σύνολο δεδομένων, αλλά ενδέχεται να μην ευθυγραμμίζονται με άλλα δεδομένα σε άλλα σύνολα δεδομένων που διαθέτετε. Για παράδειγμα, τα αριθμητικά δεδομένα σε ένα πεδίο σε ένα σύνολο δεδομένων μπορεί να είναι τύπος κινητής υποδιαστολής (με υποδιαστολή), αλλά ακέραιος τύπος σε άλλο σύνολο δεδομένων. Για να μπορέσετε να συνδυάσετε τα δύο σύνολα δεδομένων, τα πεδία πρέπει να περιέχουν τον ίδιο τύπο δεδομένων.
Μπορεί να προκύψουν κάθε είδους άλλα είδη κακής ευθυγράμμισης. Για παράδειγμα, τα πεδία ημερομηνίας είναι διαβόητα για τη μορφοποίηση τους με διάφορους τρόπους. Για να συγκρίνετε ημερομηνίες, οι μορφές δεδομένων πρέπει να είναι οι ίδιες. Ωστόσο, τα ραντεβού είναι επίσης ύπουλα ως προς την τάση τους να δείχνουν το ίδιο, αλλά να μην είναι το ίδιο. Για παράδειγμα, οι ημερομηνίες σε ένα σύνολο δεδομένων μπορεί να χρησιμοποιούν ως βάση τη μέση ώρα Γκρίνουιτς (GMT), ενώ οι ημερομηνίες σε ένα άλλο σύνολο δεδομένων μπορεί να χρησιμοποιούν κάποια άλλη ζώνη ώρας. Για να μπορέσετε να συγκρίνετε τις ώρες, πρέπει να τις ευθυγραμμίσετε στην ίδια ζώνη ώρας. Μπορεί να γίνει ακόμη πιο περίεργο όταν οι ημερομηνίες σε ένα σύνολο δεδομένων προέρχονται από μια τοποθεσία που χρησιμοποιεί τη θερινή ώρα (DST), αλλά οι ημερομηνίες από μια άλλη τοποθεσία όχι.
Ακόμη και όταν οι τύποι και η μορφή δεδομένων είναι τα ίδια, μπορεί να προκύψουν άλλες λανθασμένες ευθυγραμμίσεις δεδομένων. Για παράδειγμα, τα πεδία σε ένα σύνολο δεδομένων ενδέχεται να μην ταιριάζουν με τα πεδία στο άλλο σύνολο δεδομένων. Σε ορισμένες περιπτώσεις, αυτές οι διαφορές είναι εύκολο να διορθωθούν. Ένα σύνολο δεδομένων μπορεί να αντιμετωπίζει το όνομα και το επώνυμο ως ένα ενιαίο πεδίο, ενώ ένα άλλο σύνολο δεδομένων μπορεί να χρησιμοποιεί ξεχωριστά πεδία για το όνομα και το επώνυμο. Η απάντηση είναι να αλλάξετε όλα τα σύνολα δεδομένων για να χρησιμοποιήσετε ένα μόνο πεδίο ή να τα αλλάξετε όλα ώστε να χρησιμοποιηθούν ξεχωριστά πεδία για το όνομα και το επώνυμο. Δυστυχώς, πολλές λανθασμένες ευθυγραμμίσεις στο περιεχόμενο δεδομένων είναι πιο δύσκολο να εντοπιστούν. Στην πραγματικότητα, είναι απολύτως πιθανό να μην μπορείτε να τα καταλάβετε καθόλου. Ωστόσο, προτού τα παρατήσετε, εξετάστε αυτές τις πιθανές λύσεις στο πρόβλημα:
- Υπολογίστε τα δεδομένα που λείπουν από άλλα δεδομένα στα οποία μπορείτε να αποκτήσετε πρόσβαση.
- Εντοπίστε τα δεδομένα που λείπουν σε άλλο σύνολο δεδομένων.
- Συνδυάστε σύνολα δεδομένων για να δημιουργήσετε ένα σύνολο που παρέχει συνεπή πεδία.
- Συλλέξτε πρόσθετα δεδομένα από διάφορες πηγές για να συμπληρώσετε τα δεδομένα που λείπουν.
- Επαναπροσδιορίστε την ερώτησή σας, ώστε να μην χρειάζεστε πλέον τα δεδομένα που λείπουν.