Ο κόσμος των στατιστικών είναι γεμάτος παγίδες, αλλά είναι επίσης γεμάτος ευκαιρίες. Είτε είστε χρήστης στατιστικών είτε κάποιος που πρέπει να τα ερμηνεύσει, είναι πιθανό να πέσετε στις παγίδες. Είναι επίσης δυνατό να περπατήσετε γύρω τους. Ακολουθούν δέκα συμβουλές και παγίδες από τους τομείς του ελέγχου υποθέσεων, της παλινδρόμησης, της συσχέτισης και του γραφήματος.
Σημαντικό δεν σημαίνει πάντα σημαντικό
Η σημασία είναι, από πολλές απόψεις, ένας κακώς επιλεγμένος όρος. Όταν μια στατιστική δοκιμή αποφέρει σημαντικό αποτέλεσμα και η απόφαση είναι να απορριφθεί το H0, αυτό δεν εγγυάται ότι η μελέτη πίσω από τα δεδομένα είναι σημαντική. Οι στατιστικές μπορούν μόνο να βοηθήσουν στη λήψη αποφάσεων σχετικά με τους αριθμούς και τα συμπεράσματα σχετικά με τις διαδικασίες που τα παρήγαγαν. Δεν μπορούν να κάνουν αυτές τις διαδικασίες σημαντικές ή τη γη να καταστρέψει. Η σημασία είναι κάτι που πρέπει να κρίνετε μόνοι σας — και κανένα στατιστικό τεστ δεν μπορεί να το κάνει αυτό για εσάς.
Η παλινδρόμηση δεν είναι πάντα γραμμική
Όταν προσπαθείτε να προσαρμόσετε ένα μοντέλο παλινδρόμησης σε ένα scatterplot, ο πειρασμός είναι να χρησιμοποιήσετε αμέσως μια γραμμή. Αυτό είναι το καλύτερα κατανοητό μοντέλο παλινδρόμησης, και όταν το καταλαβαίνετε, οι κλίσεις και οι ανακοπές δεν είναι τόσο τρομακτικές.
Αλλά η γραμμική παλινδρόμηση δεν είναι το μόνο είδος παλινδρόμησης. Είναι δυνατό να χωρέσετε μια καμπύλη μέσα από ένα διάγραμμα διασποράς. Μην ξεγελιέστε: Οι στατιστικές έννοιες πίσω από την καμπυλόγραμμη παλινδρόμηση είναι πιο δύσκολο να κατανοηθούν από τις έννοιες πίσω από τη γραμμική παλινδρόμηση.
Ωστόσο, αξίζει να αφιερώσετε χρόνο για να κατακτήσετε αυτές τις έννοιες. Μερικές φορές, μια καμπύλη ταιριάζει πολύ καλύτερα από μια γραμμή.
Η προέκταση πέρα από ένα δείγμα scatterplot είναι κακή ιδέα
Είτε εργάζεστε με γραμμική παλινδρόμηση είτε με καμπυλόγραμμη παλινδρόμηση, έχετε κατά νου ότι είναι ακατάλληλο να γενικεύετε πέρα από τα όρια του διασκορπισμού.
Ας υποθέσουμε ότι έχετε δημιουργήσει μια σταθερή προγνωστική σχέση μεταξύ μιας δοκιμασίας ικανότητας στα μαθηματικά και της απόδοσης σε μαθήματα μαθηματικών και το scatterplot σας καλύπτει μόνο ένα στενό εύρος δεξιοτήτων στα μαθηματικά. Δεν έχετε τρόπο να ξέρετε αν η σχέση αντέχει πέρα από αυτό το εύρος. Οι προβλέψεις εκτός αυτού του εύρους δεν είναι έγκυρες.
Το καλύτερο στοίχημά σας είναι να επεκτείνετε το scatterplot δοκιμάζοντας περισσότερους ανθρώπους. Ίσως διαπιστώσετε ότι η αρχική σχέση λέει μόνο ένα μέρος της ιστορίας.
Εξετάστε τη μεταβλητότητα γύρω από μια γραμμή παλινδρόμησης
Η προσεκτική ανάλυση των υπολειμμάτων (οι διαφορές μεταξύ των παρατηρούμενων και των προβλεπόμενων τιμών) μπορεί να σας πει πολλά για το πόσο καλά ταιριάζει η γραμμή στα δεδομένα. Μια θεμελιώδης υπόθεση είναι ότι η μεταβλητότητα γύρω από μια γραμμή παλινδρόμησης είναι ίδια πάνω και κάτω στη γραμμή. Εάν δεν είναι, το μοντέλο μπορεί να μην είναι τόσο προγνωστικό όσο νομίζετε. Εάν η μεταβλητότητα είναι συστηματική (μεγαλύτερη μεταβλητότητα στο ένα άκρο παρά στο άλλο), η καμπυλόγραμμη παλινδρόμηση μπορεί να είναι πιο κατάλληλη από τη γραμμική. Το τυπικό σφάλμα εκτίμησης δεν θα είναι πάντα ο δείκτης.
Ένα δείγμα μπορεί να είναι πολύ μεγάλο
Είτε το πιστεύετε είτε όχι, αυτό συμβαίνει μερικές φορές με τους συντελεστές συσχέτισης. Ένα πολύ μεγάλο δείγμα μπορεί να κάνει έναν μικρό συντελεστή συσχέτισης στατιστικά σημαντικό.
Αλλά τι σημαίνει πραγματικά αυτός ο συντελεστής συσχέτισης; Ο συντελεστής προσδιορισμού —r2 — είναι μόλις 0,038, που σημαίνει ότι η SSRegression είναι μικρότερη από το 4 τοις εκατό του SSTotal. Αυτός είναι ένας πολύ μικρός συνειρμός.
Κατώτατη γραμμή: Όταν εξετάζετε έναν συντελεστή συσχέτισης, προσέξτε το μέγεθος του δείγματος. Εάν είναι αρκετά μεγάλο, μπορεί να κάνει μια ασήμαντη συσχέτιση να αποδειχθεί στατιστικά σημαντική. (Χμμ... σημασία — ορίστε πάλι!)
Καταναλωτές: Γνωρίστε τους άξονες σας
Όταν κοιτάτε ένα γράφημα, βεβαιωθείτε ότι γνωρίζετε τι υπάρχει σε κάθε άξονα. Βεβαιωθείτε ότι κατανοείτε τις μονάδες μέτρησης. Καταλαβαίνετε την ανεξάρτητη μεταβλητή; Καταλαβαίνετε την εξαρτημένη μεταβλητή; Μπορείτε να περιγράψετε το καθένα με δικά σας λόγια; Εάν η απάντηση σε οποιαδήποτε από αυτές τις ερωτήσεις είναι "Όχι", δεν καταλαβαίνετε το γράφημα που βλέπετε.
Όταν κοιτάτε ένα γράφημα σε μια τηλεοπτική διαφήμιση, να είστε πολύ προσεκτικοί εάν εξαφανιστεί πολύ γρήγορα, προτού μπορέσετε να δείτε τι υπάρχει στους άξονες. Ο διαφημιζόμενος μπορεί να προσπαθεί να δημιουργήσει μια παρατεταμένη εσφαλμένη εντύπωση σχετικά με μια ψεύτικη σχέση μέσα στο γράφημα. Η γραφική σχέση μπορεί να είναι εξίσου έγκυρη με αυτό το άλλο βασικό στοιχείο της τηλεοπτικής διαφήμισης — επιστημονική απόδειξη μέσω κινουμένων σχεδίων: Μικροσκοπικές κινούμενες βούρτσες απολέπισης που καθαρίζουν δόντια κινουμένων σχεδίων ενδέχεται να μην εγγυώνται απαραίτητα πιο λευκά δόντια για εσάς εάν αγοράσετε το προϊόν.
Η γραφική παράσταση μιας κατηγορικής μεταβλητής σαν να είναι ποσοτική μεταβλητή είναι απλώς λάθος
Έτσι, είστε σχεδόν έτοιμοι να διαγωνιστείτε στην παγκόσμια σειρά Rock-Paper-Scissors. Κατά την προετοιμασία για αυτό το διεθνές τουρνουά, μετρήσατε όλους τους αγώνες σας από τα τελευταία δέκα χρόνια, αναφέροντας το ποσοστό των φορών που κερδίσατε όταν έπαιξατε κάθε ρόλο.
Για να συνοψίσετε όλα τα αποτελέσματα, χρησιμοποιήστε τις δυνατότητες γραφικών του Excel για να δημιουργήσετε ένα γράφημα.
Τόσοι πολλοί άνθρωποι δημιουργούν αυτού του είδους τα γραφήματα — άτομα που θα έπρεπε να γνωρίζουν καλύτερα. Η γραμμή στο γράφημα υποδηλώνει συνέχεια από το ένα σημείο στο άλλο. Με αυτά τα δεδομένα, φυσικά, αυτό είναι αδύνατο. Τι υπάρχει μεταξύ πέτρας και χαρτιού; Γιατί απέχουν ίσες μονάδες; Γιατί οι τρεις κατηγορίες έχουν αυτή τη σειρά;
Με απλά λόγια, ένα γραμμικό γράφημα δεν είναι το κατάλληλο γράφημα όταν τουλάχιστον μία από τις μεταβλητές σας είναι ένα σύνολο κατηγοριών. Αντίθετα, δημιουργήστε ένα γράφημα στήλης. Ένα γράφημα πίτας λειτουργεί και εδώ, επειδή τα δεδομένα είναι ποσοστά και έχετε μόνο μερικές φέτες.
Όποτε χρειάζεται, συμπεριλάβετε τη μεταβλητότητα στο γράφημά σας
Όταν τα σημεία στο γράφημά σας αντιπροσωπεύουν μέσο όρο, βεβαιωθείτε ότι το γράφημα περιλαμβάνει το τυπικό σφάλμα κάθε μέσου όρου. Αυτό δίνει στον θεατή μια ιδέα για τη μεταβλητότητα των δεδομένων — η οποία είναι μια σημαντική πτυχή των δεδομένων.
Τα μέσα από μόνα τους δεν σου λένε πάντα όλη την ιστορία. Αξιοποιήστε κάθε ευκαιρία για να εξετάσετε αποκλίσεις και τυπικές αποκλίσεις. Μπορεί να βρείτε μερικά κρυμμένα ψήγματα. Η συστηματική παραλλαγή — υψηλές τιμές διακύμανσης που σχετίζονται με μεγάλα μέσα, για παράδειγμα — μπορεί να είναι μια ένδειξη για μια σχέση που δεν είχατε δει πριν.
Να είστε προσεκτικοί όταν συσχετίζετε τις έννοιες των σχολικών βιβλίων στατιστικών με το Excel
Εάν σκέφτεστε σοβαρά να κάνετε στατιστική εργασία, πιθανότατα θα έχετε την ευκαιρία να εξετάσετε ένα ή δύο κείμενο στατιστικών στοιχείων. Λάβετε υπόψη ότι τα σύμβολα σε ορισμένους τομείς των στατιστικών δεν είναι τυπικά.
Η σύνδεση των εννοιών των σχολικών βιβλίων με τις στατιστικές συναρτήσεις του Excel μπορεί να είναι μια πρόκληση λόγω των κειμένων και λόγω του Excel. Τα μηνύματα στα παράθυρα διαλόγου και στα αρχεία Βοήθειας μπορεί να περιέχουν σύμβολα διαφορετικά από αυτά για τα οποία διαβάζετε ή μπορεί να χρησιμοποιούν τα ίδια σύμβολα αλλά με διαφορετικό τρόπο. Αυτή η ασυμφωνία μπορεί να σας οδηγήσει να κάνετε μια εσφαλμένη καταχώριση σε μια παράμετρο σε ένα παράθυρο διαλόγου, με αποτέλεσμα ένα σφάλμα που είναι δύσκολο να εντοπιστεί.