Το να έχεις άφθονα διαθέσιμα δεδομένα δεν αρκεί για να δημιουργήσεις μια επιτυχημένη τεχνητή νοημοσύνη. Επί του παρόντος, ένας αλγόριθμος τεχνητής νοημοσύνης δεν μπορεί να εξάγει πληροφορίες απευθείας από ακατέργαστα δεδομένα. Οι περισσότεροι αλγόριθμοι βασίζονται σε εξωτερική συλλογή και χειρισμό πριν από την ανάλυση. Όταν ένας αλγόριθμος συλλέγει χρήσιμες πληροφορίες, μπορεί να μην αντιπροσωπεύει τις σωστές πληροφορίες. Η ακόλουθη συζήτηση σάς βοηθά να κατανοήσετε πώς να συλλέγετε, να χειρίζεστε και να αυτοματοποιείτε τη συλλογή δεδομένων από μια προοπτική επισκόπησης.
Λαμβάνοντας υπόψη τις πηγές δεδομένων
Τα δεδομένα που χρησιμοποιείτε προέρχονται από διάφορες πηγές. Η πιο κοινή πηγή δεδομένων προέρχεται από πληροφορίες που εισάγονται από ανθρώπους σε κάποιο σημείο. Ακόμη και όταν ένα σύστημα συλλέγει αυτόματα δεδομένα από τον ιστότοπο αγορών, οι άνθρωποι αρχικά εισάγουν τις πληροφορίες. Ένας άνθρωπος κάνει κλικ σε διάφορα αντικείμενα, τα προσθέτει σε ένα καλάθι αγορών, καθορίζει χαρακτηριστικά (όπως το μέγεθος) και την ποσότητα και, στη συνέχεια, κάνει check out. Αργότερα, μετά την πώληση, ο άνθρωπος βαθμολογεί την εμπειρία αγορών, το προϊόν και τη μέθοδο παράδοσης και κάνει σχόλια. Εν ολίγοις, κάθε εμπειρία αγορών γίνεται επίσης μια άσκηση συλλογής δεδομένων.
Πολλές πηγές δεδομένων σήμερα βασίζονται σε στοιχεία που συλλέγονται από ανθρώπινες πηγές. Οι άνθρωποι παρέχουν επίσης χειροκίνητη εισαγωγή. Καλείτε ή πηγαίνετε σε ένα γραφείο κάπου για να κλείσετε ένα ραντεβού με έναν επαγγελματία. Στη συνέχεια, ένας υπάλληλος υποδοχής συλλέγει πληροφορίες από εσάς που χρειάζονται για το ραντεβού. Αυτά τα δεδομένα που συλλέγονται με μη αυτόματο τρόπο καταλήγουν τελικά σε ένα σύνολο δεδομένων κάπου για σκοπούς ανάλυσης.
Τα δεδομένα συλλέγονται επίσης από αισθητήρες και αυτοί οι αισθητήρες μπορούν να λάβουν σχεδόν οποιαδήποτε μορφή. Για παράδειγμα, πολλοί οργανισμοί βασίζουν τη συλλογή φυσικών δεδομένων, όπως ο αριθμός των ατόμων που βλέπουν ένα αντικείμενο σε ένα παράθυρο, στον εντοπισμό κινητών τηλεφώνων. Το λογισμικό αναγνώρισης προσώπου θα μπορούσε ενδεχομένως να ανιχνεύσει επαναλαμβανόμενους πελάτες.
Ωστόσο, οι αισθητήρες μπορούν να δημιουργήσουν σύνολα δεδομένων από σχεδόν οτιδήποτε. Η υπηρεσία καιρού βασίζεται σε σύνολα δεδομένων που δημιουργούνται από αισθητήρες που παρακολουθούν τις περιβαλλοντικές συνθήκες όπως η βροχή, η θερμοκρασία, η υγρασία, η νεφοκάλυψη κ.λπ. Τα ρομποτικά συστήματα παρακολούθησης βοηθούν στη διόρθωση μικρών ελαττωμάτων στη ρομποτική λειτουργία αναλύοντας συνεχώς δεδομένα που συλλέγονται από αισθητήρες παρακολούθησης. Ένας αισθητήρας, σε συνδυασμό με μια μικρή εφαρμογή τεχνητής νοημοσύνης, θα μπορούσε να σας πει πότε το δείπνο σας είναι μαγειρεμένο στην τελειότητα απόψε. Ο αισθητήρας συλλέγει δεδομένα, αλλά η εφαρμογή AI χρησιμοποιεί κανόνες για να καθορίσει πότε το φαγητό είναι σωστά μαγειρεμένο.
Λήψη αξιόπιστων δεδομένων
Η λέξη αξιόπιστο φαίνεται τόσο εύκολο να οριστεί, αλλά τόσο δύσκολο να εφαρμοστεί. Κάτι είναι αξιόπιστο όταν τα αποτελέσματα που παράγει είναι και αναμενόμενα και συνεπή. Μια αξιόπιστη πηγή δεδομένων παράγει κοσμικά δεδομένα που δεν περιέχουν εκπλήξεις. κανείς δεν σοκάρεται στο ελάχιστο από το αποτέλεσμα. Ανάλογα με την άποψή σας, θα μπορούσε πράγματι να είναι θετικό το γεγονός ότι οι περισσότεροι άνθρωποι δεν χασμουριούνται και μετά δεν αποκοιμούνται όταν εξετάζουν δεδομένα. Οι εκπλήξεις κάνουν τα δεδομένα άξια ανάλυσης και αναθεώρησης. Κατά συνέπεια, τα δεδομένα έχουν μια πτυχή δυαδικότητας. Θέλουμε αξιόπιστα, εγκόσμια, πλήρως αναμενόμενα δεδομένα που απλώς επιβεβαιώνουν αυτά που ήδη γνωρίζουμε, αλλά το απροσδόκητο είναι αυτό που κάνει τη συλλογή των δεδομένων εξαρχής χρήσιμη.
Ωστόσο, δεν θέλετε δεδομένα που είναι τόσο ασυνήθιστα που γίνεται σχεδόν τρομακτικό να αναθεωρήσετε. Πρέπει να διατηρείται ισορροπία κατά τη λήψη δεδομένων. Τα δεδομένα πρέπει να ταιριάζουν εντός ορισμένων ορίων. Πρέπει επίσης να πληροί συγκεκριμένα κριτήρια ως προς την αξία της αλήθειας. Τα δεδομένα πρέπει επίσης να έρχονται σε αναμενόμενα διαστήματα και όλα τα πεδία της εγγραφής εισερχόμενων δεδομένων πρέπει να είναι πλήρη.
Σε κάποιο βαθμό, η ασφάλεια των δεδομένων επηρεάζει επίσης την αξιοπιστία των δεδομένων. Η συνέπεια των δεδομένων έρχεται σε διάφορες μορφές. Όταν φτάνουν τα δεδομένα, μπορείτε να διασφαλίσετε ότι εμπίπτουν στα αναμενόμενα εύρη και εμφανίζονται σε μια συγκεκριμένη μορφή. Ωστόσο, μετά την αποθήκευση των δεδομένων, η αξιοπιστία μπορεί να μειωθεί, εκτός εάν διασφαλίσετε ότι τα δεδομένα παραμένουν στην αναμενόμενη μορφή. Μια οντότητα που ασχολείται με τα δεδομένα επηρεάζει την αξιοπιστία, καθιστώντας τα δεδομένα ύποπτα και δυνητικά άχρηστα για ανάλυση αργότερα. Η διασφάλιση της αξιοπιστίας των δεδομένων σημαίνει ότι μετά την άφιξη των δεδομένων, κανείς δεν τα παραποιεί για να τα καταστήσει σε έναν αναμενόμενο τομέα (καθιστώντας τα κοσμικά ως αποτέλεσμα).
Κάνοντας την ανθρώπινη συνεισφορά πιο αξιόπιστη
Οι άνθρωποι κάνουν λάθη - είναι μέρος του να είσαι άνθρωπος. Στην πραγματικότητα, το να περιμένουμε ότι οι άνθρωποι δεν θα κάνουν λάθη είναι παράλογο. Ωστόσο, πολλά σχέδια εφαρμογών υποθέτουν ότι οι άνθρωποι κατά κάποιο τρόπο δεν θα κάνουν κανενός είδους λάθη. Ο σχεδιασμός περιμένει ότι όλοι θα ακολουθήσουν απλώς τους κανόνες. Δυστυχώς, η συντριπτική πλειονότητα των χρηστών είναι εγγυημένο ότι δεν θα διαβάσει καν τους κανόνες, επειδή οι περισσότεροι άνθρωποι είναι επίσης τεμπέληδες ή πιέζονται πολύ για να κάνουν πράγματα που δεν τους βοηθούν πραγματικά άμεσα.
Εξετάστε την είσοδο μιας κατάστασης σε μια φόρμα. Εάν παρέχετε μόνο ένα πεδίο κειμένου, ορισμένοι χρήστες ενδέχεται να εισάγουν ολόκληρο το όνομα της πολιτείας, όπως το Κάνσας. Φυσικά, ορισμένοι χρήστες θα κάνουν ένα τυπογραφικό λάθος ή λάθος κεφαλαίων και θα καταλήξουν στο Kansus ή το kANSAS. Ορίζοντας αυτά τα σφάλματα, τα άτομα και οι οργανισμοί έχουν διάφορες προσεγγίσεις για την εκτέλεση εργασιών. Κάποιος στον εκδοτικό κλάδο μπορεί να χρησιμοποιήσει τον οδηγό στυλ Associated Press (AP) και να εισάγει Kans. Κάποιος που είναι μεγαλύτερος σε ηλικία και έχει συνηθίσει τις οδηγίες του Κυβερνητικού Γραφείου Εκτυπώσεων (GPO) μπορεί να εισάγει Kans. αντι αυτου. Χρησιμοποιούνται και άλλες συντομογραφίες. Το Ταχυδρομείο των ΗΠΑ (USPS) χρησιμοποιεί KS, αλλά η Ακτοφυλακή των ΗΠΑ χρησιμοποιεί KA. Εν τω μεταξύ, το έντυπο του Διεθνούς Οργανισμού Προτύπων (ISO) πηγαίνει με το US-KS. Λάβετε υπόψη σας, αυτή είναι απλώς μια καταχώριση κατάστασης, η οποία είναι αρκετά απλή — ή έτσι νομίζατε πριν διαβάσετε αυτήν την ενότητα. Σαφώς,
Τα πλαίσια αναπτυσσόμενης λίστας λειτουργούν καλά για μια καταπληκτική σειρά εισαγωγών δεδομένων και η χρήση τους διασφαλίζει ότι η ανθρώπινη εισαγωγή σε αυτά τα πεδία γίνεται εξαιρετικά αξιόπιστη, επειδή ο άνθρωπος δεν έχει άλλη επιλογή από το να χρησιμοποιήσει μία από τις προεπιλεγμένες καταχωρήσεις. Φυσικά, ο άνθρωπος μπορεί πάντα να επιλέξει τη λανθασμένη καταχώρηση, όπου παίζουν ρόλο οι διπλοί έλεγχοι. Ορισμένες νεότερες εφαρμογές συγκρίνουν τον ταχυδρομικό κώδικα με τις καταχωρήσεις πόλης και πολιτείας για να δουν αν ταιριάζουν. Όταν δεν ταιριάζουν, ο χρήστης καλείται ξανά να παράσχει τη σωστή εισαγωγή. Αυτός ο διπλός έλεγχος πλησιάζει στο να είναι ενοχλητικός, αλλά ο χρήστης είναι απίθανο να τον βλέπει πολύ συχνά, επομένως δεν θα πρέπει να γίνει πολύ ενοχλητικός.
Ακόμη και με διασταυρώσεις και στατικές καταχωρήσεις, οι άνθρωποι εξακολουθούν να έχουν άφθονο χώρο για να κάνουν λάθη. Για παράδειγμα, η εισαγωγή αριθμών μπορεί να είναι προβληματική. Όταν ένας χρήστης χρειάζεται να εισαγάγει το 2.00, μπορεί να δείτε 2, ή 2.0 ή 2., ή οποιαδήποτε από μια ποικιλία άλλων καταχωρήσεων. Ευτυχώς, η ανάλυση της καταχώρισης και η επαναδιαμόρφωσή της θα διορθώσει το πρόβλημα και μπορείτε να εκτελέσετε αυτήν την εργασία αυτόματα, χωρίς τη βοήθεια του χρήστη.
Δυστυχώς, η επαναδιαμόρφωση δεν θα διορθώσει μια εσφαλμένη αριθμητική εισαγωγή. Μπορείτε να μειώσετε εν μέρει αυτά τα σφάλματα συμπεριλαμβάνοντας ελέγχους εύρους. Ένας πελάτης δεν μπορεί να αγοράσει –5 μπάρες σαπουνιού. Ο νόμιμος τρόπος για να δείξετε στον πελάτη ότι επιστρέφει τις πλάκες σαπουνιού είναι να επεξεργαστεί μια επιστροφή, όχι μια πώληση. Ωστόσο, ο χρήστης μπορεί απλώς να έκανε ένα σφάλμα και μπορείτε να δώσετε ένα μήνυμα που να αναφέρει το κατάλληλο εύρος εισαγωγής για την τιμή.
Χρήση αυτοματοποιημένης συλλογής δεδομένων
Μερικοί άνθρωποι πιστεύουν ότι η αυτοματοποιημένη συλλογή δεδομένων επιλύει όλα τα προβλήματα ανθρώπινων εισροών που σχετίζονται με τα σύνολα δεδομένων. Στην πραγματικότητα, η αυτοματοποιημένη συλλογή δεδομένων παρέχει μια σειρά από οφέλη:
- Καλύτερη συνέπεια
- Βελτιωμένη αξιοπιστία
- Μικρότερη πιθανότητα απώλειας δεδομένων
- Βελτιωμένη ακρίβεια
- Μειωμένη διακύμανση για πράγματα όπως χρονομετρημένες εισροές
Δυστυχώς, το να πούμε ότι η αυτοματοποιημένη συλλογή δεδομένων επιλύει κάθε πρόβλημα είναι απλώς λάθος. Η αυτοματοποιημένη συλλογή δεδομένων εξακολουθεί να βασίζεται σε αισθητήρες, εφαρμογές και υλικό υπολογιστή σχεδιασμένο από ανθρώπους που παρέχουν πρόσβαση μόνο στα δεδομένα που οι άνθρωποι αποφασίζουν να επιτρέψουν. Λόγω των ορίων που θέτουν οι άνθρωποι στα χαρακτηριστικά της αυτοματοποιημένης συλλογής δεδομένων, το αποτέλεσμα συχνά παρέχει λιγότερο χρήσιμες πληροφορίες από ό,τι ήλπιζαν οι σχεδιαστές. Κατά συνέπεια, η αυτοματοποιημένη συλλογή δεδομένων βρίσκεται σε συνεχή κατάσταση ροής καθώς οι σχεδιαστές προσπαθούν να λύσουν τα προβλήματα εισόδου.
Η αυτοματοποιημένη συλλογή δεδομένων πάσχει επίσης από σφάλματα λογισμικού και υλικού που υπάρχουν σε οποιοδήποτε υπολογιστικό σύστημα, αλλά με μεγαλύτερη πιθανότητα για soft ζητήματα (τα οποία προκύπτουν όταν το σύστημα λειτουργεί προφανώς αλλά δεν παρέχει το επιθυμητό αποτέλεσμα) από άλλα είδη υπολογιστών ρυθμίσεις. Όταν το σύστημα λειτουργεί, η αξιοπιστία της εισόδου υπερβαίνει κατά πολύ τις ανθρώπινες ικανότητες. Ωστόσο, όταν προκύπτουν λογικά προβλήματα, το σύστημα συχνά αποτυγχάνει να αναγνωρίσει ότι υπάρχει πρόβλημα, όπως και ένας άνθρωπος, και ως εκ τούτου το σύνολο δεδομένων θα μπορούσε να καταλήξει να περιέχει πιο μέτρια ή ακόμα και κακά δεδομένα.