Statistica nella scuola media

15 - Campioni distorti.

Requisito essenziale in ogni campionamento è che la scelta degli elementi da sottoporre al rilevamento sia fatta con criteri casuali e che non vi siano condizioni che favoriscano alcuni elementi rispetto ad altri.
Facciamo un paio di esempi: una TV satellitare chiede per alcuni giorni ai propri spettatori di esprimere la propria opinione su una determinata questione. Dopo qualche tempo vengono comunicati i risultati. È evidente che la Tv satellitare non è distribuita in modo diffuso su tutta la popolazione italiana. Il dato rilevato non può dirsi rappresentativo dell'opinione di tutti gli italiani, ma solo di quella di coloro che dispongono di TV satellitare, che ascoltano quel tipo di trasmissioni e che hanno voglia di rispondere.
Un ricercatore vuole trovare la frequenza delle parole della lingua italiana, in base alla loro lunghezza. Si procura un libro e un foglio trasparente grande quanto una pagina, suddiviso in quadretti e poi sorteggia a caso una pagina, sovrappone il trasparente alla pagina sorteggiata, poi sorteggia due numeri relativi alle due coordinate (riga, colonna) individuando così la parola che capita all'interno del quadretto sorteggiato. Sembra tutto regolare. Dobbiamo però considerare il fatto che le parole lunghe occupano un maggior numero di caselle rispetto a quelle corte e ciò favorisce la probabilità di pescarne una lunga rispetto a quella di pescarne una corta. È un chiaro esempio di campione distorto.
La legge dei grandi numeri è abbastanza nota anche tra coloro che non si sono mai occupati di statistica; tuttavia spesso si incontrano fraintendimenti.. Ad esempio, alcuni suppongono che, se un evento si è presentato con una frequenza maggiore del previsto, dovrà in seguito presentarsi con una frequenza minore o viceversa. Basti pensare alla diffusa credenza che i numeri "ritardatari" nel gioco del lotto debbano uscire alle prossime estrazioni con probabilità maggiore rispetto agli altri numeri, dimenticando che le 90 palline con i numeri vengono ogni volta rimesse nell'urna, la quale non ha alcuna "memoria" di quanto è successo in precedenza. Tutti i numeri hanno quindi la stessa probabilità di essere estratti.
Torniamo al nostro campione.
Ovviamente un campione molto grande comporta un certo costo nel rilevamento dei dati richiesti. Ecco che, se non abbiamo assoluta necessità di avere un campione estremamente attendibile (al 99.9%) potremo ridurre l'ampiezza del campione (ovviamente a scapito della precisione); la statistica ci dirà quanto dev'essere grande il campione, in base alla precisione che vogliamo ottenere (sempre in senso probabilistico). Viceversa, dato il campione disponibile,la statistica ci dirà entro quali valori potranno presumibilmente oscillare i dati ricavati dalle informazioni ottenute. Ad esempio, con un campione di circa 40.000 unità è lecito attendersi che un errore minore di 5 millesimi nella frequenza relativa di un evento abbia una probabilità di almeno il 95%. Pensiamo al significato di questa affermazione: un campione di appena 40.000 unità potrebbe essere rappresentativo dell'intera popolazione mondiale, che è di 5,6 miliardi di persone!
Occorre tuttavia, e lo ripetiamo, che i rappresentanti siano scelti veramente "a caso", sorteggiandoli all'interno di tutta la popolazione interessata al rilevamento e in modo che non vi siano privilegiati nella scelta.