studi e riflessioni di un autodidatta: Caso probabilistico e necessità statistica I

I Sono i grandi numeri a garantire la media statistica

Nassim Nicholas Taleb, in "Giocati dal caso" (2001), solleva due problemi riguardo alla casualità in statistica. Il primo lo dobbiamo a Karl Pearson che nel 1902 "sviluppò il primo test di non casualità": analizzando milioni di risultati di una roulette, che allora si chiamava Montecarlo, scoprì che i risultati non erano completamente casuali. "Cosa? La roulette non era casuale! Pearson fu molto sorpreso della scoperta, ma il risultato in sé non dice nulla: sappiamo che una pura estrazione casuale non esiste, perché i risultati dell'estrazione dipendono dalla qualità del meccanismo". "I filosofi della statistica -aggiunge Taleb- lo chiamano "il problema del caso di riferimento", per spiegare che solo in teoria è possibile ottenere una casualità pura, non nella pratica".

Il secondo problema da considerare, come sottolinea Taleb, è il seguente: "Persino i padri della scienza statistica si sono dimenticati che una serie casuale non ha bisogno di esibire alcuna regolarità per sembrare casuale. Tuttavia, dati perfettamente privi di qualsiasi regolarità risulterebbero molto sospetti e potrebbero sembrare creati ad arte". Insomma, "il vero caso non appare casuale", non ha bisogno di apparire senza alcuna apparente regolarità.

Proviamo a fare chiarezza: innanzi tutto il primo problema sollevato da Taleb, relativo al caso prodotto da un meccanismo artificiale, è un falso problema, perché il caso puro appartiene solo ai complessi naturali rappresentandone la sfera dei singoli elementi (come ad esempio il comportamento delle singole molecole di un gas in un recipiente chiuso). Di conseguenza, sebbene "Montecarlo" sia stato creato per produrre eventi casuali, è proprio il fatto stesso di essere un meccanismo artificiale a impedire la manifestazione del puro caso.

Per quanto riguarda il secondo problema: le "serie casuali", si tratta di un vero e proprio ossimoro: infatti, se prendiamo una numerosa serie di lanci di una moneta, non è la serie nel suo complesso a essere casuale, manifestando al contrario una stabile frequenza statistica, ma è il singolo lancio ad essere assoggettato all'instabile probabilità. Ciò che è fondamentale per la conoscenza scientifica è la comprensione del rapporto caso-necessità dei fenomeni e processi naturali. Ed è in riferimento ad essi che possiamo stabilire la sfera del caso puro distinguendola dalla sfera della necessità alla quale appartengono le frequenze statistiche (che in se stesse non sono affatto casuali).

Così, se esemplifichiamo i complessi naturali (costituiti da molteplici singoli elementi) assimilandoli alle serie di ripetuti lanci di monete, possiamo comprendere l'essenza del caso, opposto polare della necessità. Lo possiamo fare distinguendo due livelli: il primo concernente piccole serie di eventi (ad esempio pochi lanci di una moneta); il secondo concernente grandi serie di eventi (ad esempio moltissimi lanci di una moneta).

I) Al primo livello può capitare di tutto, Testa e Croce si alternano imprevedibilmente, dando luogo molto raramente alla frequenza 1/2. II) Al secondo livello, invece, i grandi numeri di lanci garantiscono la regolare frequenza 1/2, con minuscoli scostamenti o "errori".

Insomma, al primo livello troviamo in azione il caso nelle sue molteplici manifestazioni, tanto più puro, quanto minori sono i lanci considerati (e dunque il più puro dei casi è il singolo lancio!). Al secondo livello, il caso diminuisce, tanto più quanto più aumenta il numero dei lanci di una serie che nell'insieme assicura sempre più la certezza della necessaria regolarità della frequenza 1/2. E poiché in natura, ossia nei fenomeni e processi naturali, i grandi numeri sono assicurati, la necessità di questa forma di regolarità statistica non viene mai meno.

Ora, senza aver compreso questa dialettica che garantisce il rovesciamento del caso singolo nella necessità complessiva, Taleb crede di potersela cavare considerando solo un lato della opposizione polare, quello riguardante il solo caso. E così crede di aver scoperto che il caso si comporta molto stranamente, e cita come esempio "il ben noto fenomeno della concentrazione dei casi di cancro"; e per illustrare il problema immagina un quadrato diviso in sedici quadrati, verso i quali vengano lanciate a caso sedici freccette. Poi dice che il risultato medio atteso sarà di una freccetta per ogni quadrato.

Poiché qui ci ritroviamo nella situazione I), dei piccoli numeri, la conclusione di Taleb è errata. I piccoli numeri non formano una media. 16 freccette lanciate a caso su 16 quadrati danno inevitabilmente risultati casuali molto lontani dalla media. Se ogni freccetta, invece, raggiungesse un quadrato diverso, allora saremmo in presenza di tiri non casuali, ma garantiti da tiratori scelti. Allora, quando Taleb conclude: "Il risultato medio mostrerà più di una freccetta in un numero limitato di quadrati e nessuna freccetta in molti quadrati", riferisce sì la realtà dei fatti, ma la interpretta scorrettamente. Infatti non può trattarsi di risultato medio: pochi lanci rappresentano il caso quasi puro, che non ha niente a che vedere con la media. (In genetica, a suo tempo, con maggiore consapevolezza statistica, si indicò con il neologismo di "deriva genetica" la tendenza a deviare dalle frequenze medie quando diminuiscono i numeri in gioco.)

Ne consegue che, per rimanere entro la metafora del lancio di monete (o di freccette), la massima deviazione dalla media riguarderà sempre i singoli lanci; un'alta deviazione riguarderà piccoli numeri di lanci, mentre la minima deviazione riguarderà i grandi numeri di lanci. In conclusione, il risultato medio necessario si ottiene, complessivamente, soltanto con un numero di lanci sufficientemente grande.

Ma, nonostante l'erronea impostazione di fondo, dovuta al fatto che l'autore di "Giocati dal caso" concepisce un solo protagonista, il singolo, dimenticando l'altro protagonista, il complesso, egli smaschera un errore molto attuale quando osserva che, se si sovrapponesse una griglia composta di sedici quadrati sulla mappa di una qualsiasi regione e al posto delle freccette considerassimo il numero di cancri individuali, si potrebbero osservare zone più colpite di altre dal fenomeno canceroso, e qualche giornale potrebbe fare scoop su eventuali inquinamenti radioattivi in quelle zone.

Si potrebbe dire di più: l'errore che si compie in questi casi ha una precisa origine, e cioè l'equiparazione di pretese medie alla "norma". Insomma, se si pretende che ciò che vale per le medie generali ottenute su grandi numeri, debba e possa valere anche per piccoli numeri (che non fanno media), in questo modo si ricade nell'equivoco di Quetelet, per il quale ogni singolo individuo per essere normale doveva essere "medio"!

Le conseguenze di questo errore, di questa incomprensione della statistica, si riflettono in ambiti che avrebbero bisogno di maggiori garanzie fornite dalla scienza. Prendiamo ad esempio la Sanità Pubblica. Come intepretare il fenomeno della cosiddetta "malasanità" che scatta come una spada di Damocle ogni volta che casi mortali si concentrano in un ospedale, deviando dalla media nazionale? Se si dimentica che la media è un dato complessivo garantito solo dai grandi numeri (e quindi nei singoli ospedali c'è sempre una imprevedibile "deriva"), si cade nel vecchio errore: come per Quetelet un individuo per essere normale doveva rientrare nella media, allo stesso modo ogni ospedale dovrebbe rientrare nella media nazionale per non incorrere nell'accusa di malasanità.

E' questo un terreno molto infido, che può portare a clamorosi errori di valutazione. Per dare solo una vaga idea della cosa, valga il seguente esempio: immaginiamo un ospedale che per un certo periodo di tempo abbia la fortuna dalla sua, con una frequenza di morti sulla tavola operatoria molto inferiore alla media nazionale. Questa fortuna potrebbe favorire un certo lassismo, provocando alcune morti evitabili senza però avere conseguenze sulla sua favorevole media statistica. Immaginiamo un altro ospedale, nello stesso periodo molto sfortunato, nel quale si concentrino molti casi incurabili e, di conseguenza, un'alta frequenza di mortalità sulla tavola operatoria. Questa sfortuna potrebbe spingere medici e infermieri a dare l'impossibile salvando alcuni casi molto difficili: eppure tutto ciò non apparirebbe perché mascherato da una statistica sfavorevole.

I giornalisti della stampa e della televisione non possono avere le idee chiare su questioni statistiche, sulle quali anche gli esperti fanno confusione, perciò è facile per loro allarmare con notizie di malasanità, spesso attirati da un solo caso tragico. A questi signori si potrebbe consigliare, perciò, un pò di cautela, anche perché se non capiscono nulla di statistica, quando gridano "al lupo" farebbero bene a non dimenticarsi che prima o poi anche loro avranno bisogno di fare visita alla sua tana, pardon, al Pronto soccorso.

studi e riflessioni di un autodidatta

giovedì 17 febbraio 2011

Caso probabilistico e necessità statistica I

ViviStats