Una spiegazione intuitiva del Teorema di Bayes (parte I)

Articolo originale
Eliezer Yudkowsky
2003

Il Teorema di Bayes
per i curiosi e i perplessi;
un’introduzione atrocemente delicata.

I tuoi amici e colleghi stanno parlando di una cosa chiamata “Teorema di Bayes” o “Regola di Bayes”, o di qualcosa chiamato ragionamento bayesiano. E sembra proprio che ne siano veramente entusiasti, così cerchi con google e trovi una pagina che parla del Teorema di Bayes, e…

Ed è questa equazione. Tutto qui. Semplicemente una singola equazione. La pagina che hai trovato ne dà una definizione, ma non spiega che cos’è, o perché è utile, o perché i tuoi amici dovrebbero interessarsene. Sembra una qualsiasi cosa di statistica.

E così arrivi qui. Magari non capisci cosa dice l’equazione. Forse la comprendi in teoria, ma ogni volta che cerchi di metterla in pratica ti perdi nel cercare di ricordare la differenza tra p(a|x) e p(x|a), e se p(a)*p(x|a) deve andare al numeratore o al denominatore. Può darsi che tu veda il teorema, e che tu lo comprenda e sia in grado di usarlo, ma non riesci a capire perché i tuoi amici e/o colleghi sembrano pensare che sia il segreto dell’universo. O forse i tuoi amici portano tutti magliette con il Teorema di Bayes e ti senti tagliato fuori. O sei una ragazza che cerca un ragazzo, ma quello a cui sei interessata non vuole mettersi con una che “non è bayesiana”. Ciò che conta è che Bayes fa figo, e se non conosci Bayes, non sei figo.

Perché un concetto matematico genera questo strano entusiasmo in quelli che lo studiano? Cos’è la cosiddetta rivoluzione bayesiana che sta imperversando nelle scienze e che pretende di incorporare lo stesso metodo sperimentale come suo caso particolare? Qual è il segreto conosciuto solo agli adepti di Bayes? Qual è la luce che hanno visto?

Presto lo saprai. Presto sarai uno di noi.

Anche se si trovano online alcune spiegazioni del Teorema di Bayes, la mia esperienza quando cerco di introdurre qualcuno al ragionamento bayesiano è che le spiegazioni esistenti sono troppo astratte. Il ragionamento bayesiano è molto controintuitivo. La gente non impiega intuitivamente il ragionamento bayesiano, trova molto difficile apprenderlo quando viene insegnato e dimentica rapidamente i metodi bayesiani quando ha finito di studiarli. Questo è ugualmente vero per gli studenti novizi che per professionisti fortemente preparati nel loro campo. Il ragionamento bayesiano è apparentemente una di quelle cose che, come la meccanica quantistica e il test di selezione di Wason, sono inerentemente difficili da capire per noi umani, con le nostre facoltà mentali naturali.

O così sostengono. Qui troverai un tentativo di offrire una spiegazione intuitiva del ragionamento bayesiano – un’introduzione estremamente delicata che fa appello a tutti i modi umani di comprendere i numeri, dalle frequenze naturali alla visualizzazione spaziale. L’obiettivo è di fornire non regole astratte per manipolare numeri, ma il significato dei numeri stessi, e perché le regole sono quelle che sono (e non potrebbero assolutamente essere diverse). Quando avrai finito di leggere questa pagina, vedrai problemi bayesiani nei tuoi sogni.

E ora, cominciamo.


Ecco la descrizione di un problema su una situazione incontrata spesso dai medici:

L’1% delle donne di 40 anni che partecipano agli esami di screening hanno un cancro al seno. L’80% delle donne con cancro al seno risultano positive alla mammografia. Anche il 9.6% delle donne senza cancro al seno risultano positive alla mammografia. Una donna di questa età risulta positiva alla mammografia in un test di routine. Qual è la probabilità che abbia effettivamente un cancro al seno?

Quale pensi che sia la risposta? Se non hai incontrato prima problemi di questo tipo, prenditi un momento per cercare una risposta prima di proseguire.


Ora, supponiamo che ti dica che la maggior parte dei medici danno la stessa risposta sbagliata a questo problema – in genere solo il 15% dei medici ottiene il risultato corretto. (“Davvero? Il 15%? È un numero vero, o una leggenda metropolitana basata su un sondaggio su internet?” È un numero vero. Vedi Casscells, Schoenberger e Grayboys 1978; Eddy 1982; Gigerenzer e Hoffrage 1995; e molti altri studi. È un risultato sorprendente che è facile replicare, per cui è stato ampiamente replicato).

Vuoi pensare di nuovo alla tua risposta? Qui c’è una calcolatrice in javascript se ne hai bisogno. Questa calcolatrice usa le normali regole di precedenza; moltiplicazioni prima delle somme, e così via. Se non sei sicuro, consiglio di usare le parentesi.

Calcolatrice: Risultato:

Nel problema descritto qui sopra, la maggior parte dei medici stimano una probabilità tra il 70% e l’80%, il che è brutalmente errato.

Questa è una versione alternativa del problema, sulla quale i medici se la cavano un po’ meglio:

10 su 1000 donne di 40 anni che partecipano agli esami di screening hanno un cancro al seno. 800 su 1000 donne con cancro al seno risultano positive alla mammografia. Anche 96 donne su 1000 senza cancro al seno risultano positive alla mammografia. Se 1000 donne di questa età fanno il test di screening, quale frazione delle donne positive alla mammografia ha effettivamente un cancro al seno?

Calcolatore: =

E infine, questo è il problema su cui i medici riescono meglio in assoluto, con il 46% – quasi la metà – che ottengono il risultato corretto:

100 su 10.000 donne di 40 anni che partecipano agli esami di screening hanno un cancro al seno. 80 su 100 donne con cancro al seno risultano positive alla mammografia. Anche 950 donne su 9.900 senza cancro al seno risultano positive alla mammografia. Se 10.000 donne di questa età fanno il test di screening, quale frazione delle donne positive alla mammografia ha effettivamente un cancro al seno?

Calcolatore: =

La risposta corretta è 7.8%, che si ottiene come segue: di 10.000 donne, 100 hanno un cancro al seno; 80 di queste 100 sono positive alla mammografia. Delle stesse 10.000 donne, 9.900 non hanno un cancro al seno e, di queste 9.900, altre 950 saranno positive alla mammografia. Questo dà un totale di donne con mammografia positiva di 950+80 cioè 1.030. Di queste 1.030 donne positive alla mammografia, 80 hanno un cancro al seno. Espresso come proporzione, questo dà 80/1.030 cioè 0.07767 o 7.8%.

Per metterla in altri termini, prima dello screening le 10.000 donne possono essere divise in due gruppi:

  • Gruppo 1: 100 donne con cancro al seno.
  • Gruppo 2: 9.900 donne senza cancro al seno.

La somma di questi due gruppi dà un totale di 10.000 pazienti, il che conferma che non abbiamo perso nessuno nei calcoli. Dopo la mammografia, le donne possono essere divise in quattro gruppi:

  • Gruppo A: 80 donne con cancro al seno e positive alla mammografia.
  • Gruppo B: 20 donne con cancro al seno e negative alla mammografia.
  • Gruppo C: 950 donne senza cancro al seno e positive alla mammografia.
  • Gruppo D: 8.950 donne senza cancro al seno e negative alla mammografia.
Calcolatore: =

Come puoi verificare, la somma di tutti e quattro i gruppi è ancora 10.000. La somma dei gruppi A e B, i gruppi con il cancro al seno, corrisponde al gruppo 1; e la somma dei gruppi C e D, i gruppi senza cancro al seno, corrispondono al gruppo 2; quindi effettuare la mammografia non modifica veramente il numero di donne con il cancro al seno. La proporzione delle pazienti con cancro (A + B) rispetto all’intero campione di pazienti (A + B + C + D) è uguale alla probabilità a priori dell’1% che una donna abbia il cancro: (80 + 20) / (80 + 20 + 950 + 8950) = 100 / 10000 = 1%.

La proporzione di pazienti con cancro e risultato positivo, nel gruppo di tutte le pazienti con risultato positivo, è il rapporto tra (A) e (A + C): 80 / (80 + 950) = 80 / 1030 = 7.8%. Se esegui la mammografia su 10.000 pazienti, del totale di 1.030 con mammografia positiva, 80 di queste pazienti positive alla mammografia avranno il cancro. Questa è la risposta corretta, la risposta che un medico dovrebbe dare a una paziente positiva alla mammografia che chiede quale sia la sua probabilità di avere un cancro al seno; se tredici pazienti fanno questa domanda, all’incirca 1 di queste 13 avrà il cancro.

L’errore più comune è di ignorare la frazione originale di donne con cancro al seno, e la frazione di donne senza cancro al seno che ottengono un falso positivo, focalizzandosi solo sulla frazione di donne con cancro al seno e risultato positivo. Per esempio, la grande maggioranza dei medici in questi studi sembra aver pensato che se circa l’80% delle donne con cancro al seno sono positive alla mammografia, allora la probabilità che una donna positiva alla mammografia abbia un cancro al seno dev’essere intorno all’80%.

Per calcolare la risposta finale è necessario sempre considerare tutte e tre le informazioni – la percentuale di donne con cancro al seno, la percentuale di donne senza cancro al seno che ottengono un falso positivo, e la percentuale di donne con un cancro al seno che ottengono un (corretto) risultato positivo.

Per vedere che la risposta finale dipende sempre dalla frazione originale di donne con un cancro al seno, consideriamo un universo alternativo in cui solo una donna su un milione ha un cancro al seno. Anche se la mammografia in questo mondo identifica il cancro al seno in 8 casi su 10, mentre ritorna un falso positivo a una donna senza cancro al seno solo in 1 caso su 10, ci saranno comunque centomila falsi positivi per ogni caso reale di cancro identificato. La probabilità originale che una donna abbia un cancro è così bassa che, anche se una mammografia positiva aumenta la probabilità stimata, la probabilità non è aumentata fino a diventare una certezza, e nemmeno fino a una “possibilità significativa”; la stima di probabilità passa da 1:1.000.000 su 1:100.000.

In modo simile, in un universo alternativo in cui c’è solo una probabilità su un milione che una donna non abbia un cancro al seno, un risultato positivo alla mammografia ovviamente non significa che la paziente abbia l’80% di probabilità di avere un cancro al seno! Se fosse così la stima di probabilità di avere un cancro al seno sarebbe drasticamente ridotta dopo essere risultata positiva alla mammografia – una probabilità dell’80% di avere il cancro è molto meno del 99.9999%! Se effettuiamo dieci milioni di mammografie a donne di questo mondo, circa otto milioni di donne con il cancro al seno risulteranno correttamente positive, mentre una donna senza cancro otterrà un falso positivo. Così, se risulti positiva alla mammografia in questo universo alternativo, la tua probabilità di avere un cancro al seno aumenta da 99,9999% a 99,999987%. Cioè la tua probabilità di essere sana scende da 1:1.000.000 a 1:8.000.000.

Questi due esempi estremi aiutano a dimostrare che il risultato della mammografia non sostituisce la precedente informazione sulla probabilità del paziente di avere un cancro; la mammografia sposta la stima di probabilità in direzione del risultato. Un risultato positivo sposta verso l’alto la probabilità originale; un risultato negativo la sposta verso il basso. Per esempio, nella versione originale del problema, in cui l’1% delle donne hanno un cancro, l’80% delle donne con cancro sono positive alla mammografia e il 9,6% delle donne senza un cancro risultano positive alla mammografia, un risultato positivo alla mammografia sposta verso l’alto la probabilità dall’1% al 7,8%.

La maggior parte delle persone che incontrano per la prima volta problemi di questo tipo, effettuano mentalmente l’operazione di sostituire la probabilità originale dell’1% con la probabilità dell’80% che una donna con il cancro sia positiva alla mammografia. Può sembrare una buona idea, ma semplicemente non funziona così. “La probabilità che una donna positiva alla mammografia abbia un cancro al seno” non è affatto la stessa cosa di “la probabilità che una donna con un cancro al seno sia positiva alla mammografia”; sono diverse tra loro come mele e formaggio. Per trovare qual è la risposta finale, “la probabilità che una donna positiva alla mammografia abbia un cancro al seno”, sono necessarie tutte e tre le informazioni del problema – “la probabilità a priori che una donna abbia un cancro al seno”, “la probabilità che una donna con un cancro al seno sia positiva alla mammografia” e “la probabilità che una donna che non ha un cancro al seno sia positiva alla mammografia”.

Per verificare che la risposta finale dipende sempre dalla probabilità che una donna che non ha un cancro al seno risulti positiva alla mammografia, consideriamo un esame alternativo, chiamiamolo mammografia+. Come il test originale, mammografia+ è positiva per l’80% delle donne con un cancro al seno. Tuttavia la mammografia+, su donne senza cancro al seno, risulta positiva solo in un caso su un milione – mammografia+ ha la stessa percentuale di falsi negativi ma una percentuale di falsi positivi enormemente più bassa. Supponiamo che una paziente risulti positiva alla mammografia+. Qual è la probabilità che abbia un cancro al seno? Con questo nuovo test, è praticamente una certezza – 99,988%, cioè 1 probabilità su 8.082 di essere sana.

Calcolatore: =

Ricordiamo, a questo punto, che né la mammografia, né la mammografia+ modificano il numero effettivo di donne con un cancro al seno. Potrebbe sembrare che “è virtualmente certo che tu abbia un cancro al seno” sia una cosa terribile da dire, che causerà molta preoccupazione e disperazione; che il verdetto più possibilista della precedente versione della mammografia – un 7.8% di possibilità di avere un cancro – fosse molto preferibile. Questo andrebbe sotto il titolo di “Non sparare al latore di cattive notizie”. Il numero di donne che hanno effettivamente il cancro rimane esattamente lo stesso nei due casi. Cambia solo la precisione con cui individuiamo il cancro. Con la mammografia originale, 80 donne con un cancro (che avevano già un cancro, prima della mammografia) vengono inizialmente informate che hanno una probabilità del 7.8% di avere un cancro, generando una quantità X di incertezza e paura, e in seguito esami più dettagliati confermeranno loro l’effettiva presenza del cancro. La mammografia originale comporta anche il fatto che 950 donne che non hanno un cancro al seno vengono informate di una probabilità del 7.8% di avere un cancro, provocando così un’addizionale paura e incertezza dodici volte maggiore. Il nuovo test, mammografia+, non dà a 950 donne un falso positivo, e alle 80 donne con il cancro viene riferito lo stesso fatto che avrebbero comunque imparato, solo che vengono informate prima, e senza un periodo di incertezza nel mezzo. La mammografia+ sarebbe così un test migliore sia in termini di impatto emotivo totale sulle pazienti, sia per il fatto di essere più accurato. Indipendentemente dall’impatto emotivo, resta un fatto che una paziente positiva alla mammografia+ ha una probabilità del 99.988% di avere un cancro al seno.

Naturalmente, il fatto che la mammografia+ eviti di dare a 950 donne sane un falso positivo, significa che tutte le 80 pazienti positive alla mammografia+ saranno pazienti con un cancro al seno. Quindi, se sei positiva alla mammografia+ la tua probabilità di avere un cancro è virtualmente certezza. È proprio perché la mammografia+ non genera tanti falsi positivi (e inutile stress emotivo) che il gruppo (molto più piccolo) di pazienti che risultano positive sarà composto interamente di pazienti che effettivamente hanno un cancro (e che avrebbero comunque cattive notizie in arrivo, indipendentemente da quando arrivano).

Allo stesso modo, supponiamo di avere un esame meno selettivo, mammografia*, che ha ancora una percentuale del 20% di falsi negativi, come nel caso originale. Tuttavia mammografia* ha anche una percentuale dell’80% di falsi positivi. In altre parole, una paziente senza cancro al seno, ha una probabilità dell’80% di ottenere un falso risultato positivo alla mammografia*. Se manteniamo la probabilità a priori dell’1% che una paziente che si presenta allo screening abbia un cancro al seno, qual’è la probabilità che una paziente positiva alla mammografia* abbia un cancro?

  • Gruppo 1: 100 pazienti con cancro.
  • Gruppo 2: 9.900 pazienti senza.

Dopo lo screening con mammografia*:

  • Gruppo A: 80 pazienti con cancro e mammografia* “positiva”.
  • Gruppo B: 20 pazienti con cancro e mammografia* “negativa”.
  • Gruppo C: 7920 pazienti senza cancro e mammografia* “positiva”.
  • Gruppo D: 1980 pazienti senza cancro e mammografia* “negativa”*.
Calcolatore: =

Il risultato è di 80 / 8.000, o 0.01. Questo è esattamente lo stesso della probabilità a priori dell’1% che una paziente abbia un cancro al seno! Un risultato “positivo” alla mammografia* non modifica affatto la probabilità che una donna abbia un cancro al seno. Allo stesso modo si può verificare che anche una mammografia* “negativa” non significa nulla. E infatti deve essere così, perché se la mammografia* ha una percentuale di positivi dell’80% sulle pazienti con un cancro al seno e anche una percentuale dell’80% di falsi positivi per le pazienti che non hanno un cancro, allora il risultato della mammografia* è totalmente non correlato con il cancro al seno. Non c’è nessun motivo di chiamare un risultato “positivo” e l’altro “negativo”; in effetti non c’è nessun motivo di chiamare l’esame una “mammografia”. Puoi buttare via le tue costose attrezzature per la mammografia* e sostituirle con un generatore di numeri casuali che accende una luce rossa l’80% delle volte e una luce verde nel restante 20% dei casi; i risultati saranno gli stessi. Inoltre, non c’è nessun motivo di chiamare la luce rossa “risultato positivo” e la luce verde “risultato negativo”. Potresti avere la luce verde l’80% delle volte e la luce rossa il 20%, o anche una luce blu l’80% delle volte e una luce viola il 20%, e continuerebbe a dare la stessa quantità di informazione sul fatto che la paziente abbia il cancro: assolutamente nessuna informazione.

Possiamo mostrare algebricamente che questo deve essere vero in ogni caso in cui le probabilità di un falso positivo sono uguali a quelle di un positivo vero, e cioè:

  • Gruppo 1: 100 pazienti con cancro.
  • Gruppo 2: 9.900 pazienti senza cancro.

Consideriamo ora un esame in cui la probabilità di un positivo vero e la probabilità di un falso positivo sono uguali allo stesso numero M (nell’esempio precedente, M = 80% or M = 0,8):

  • Gruppo A: 100*M pazienti con cancro e risultato “positivo”.
  • Gruppo B: 100*(1 – M) pazienti con cancro e risultato “negativo”.
  • Gruppo C: 9,900*M pazienti senza cancro e risultato “positivo”.
  • Gruppo D: 9,900*(1 – M) pazienti senza cancro e risultato “negativo”.

La percentuale di pazienti con cancro, all’interno del gruppo di pazienti con risultato “positivo”, è quindi uguale a 100*M / (100*M + 9.900*M) = 100*M / (10.000*M) = 100 / 10.000 = 1%. Questo è vero indipendentemente dal fatto che M sia 80%, 30%, 50%, or 100%. Se abbiamo una mammografia* che risulta “positiva” per il 90% delle pazienti con cancro al seno e risulta anche positiva per il 90% delle pazienti senza cancro al seno, la percentuale di pazienti che risultano “positive” e che hanno il cancro sarà ancora uguale alla percentuale originale di pazienti con cancro, cioè l’1%.

Possiamo rifare lo stesso calcolo sostituendo la probabilità a priori di pazienti con cancro con una percentuale arbitraria P:

  • Gruppo 1: In un campione di pazienti, una frazione P ha un cancro al seno.
  • Gruppo 2: nello stesso campione, una frazione (1 – P) non ha un cancro al seno.

Dopo un “esame del cancro” che risulta “positivo” per una frazione M delle pazienti con cancro al seno, e risulta “positivo” anche per la stessa frazione M delle pazienti senza cancro:

  • Gruppo A: una frazione P*M del campione che ha un cancro e risulta “positivo”.
  • Gruppo B: una frazione P*(1 – M) del campione che ha un cancro e risulta “negativo”.
  • Gruppo C: una frazione (1 – P)*M del campione che non ha un cancro e risulta “positivo”.
  • Gruppo D: una frazione (1 – P)*(1 – M) del campione che non ha un cancro e risulta “negativo”.

La possibilità che una paziente con risultato “positivo” abbia un cancro al seno è quindi la proporzione tra il gruppo A e il gruppo composto A + C, quindi P*M / [P*M + (1 – P)*M] che, cancellando il fattore comune M da numeratore e denominatore dà: P / [P + (1 – P)] che è P / 1 o semplicemente P. Se la frequenza di falsi positivi è la stessa della frequenza dei positivi veri, dopo il test avrai sempre la stessa probabilità che avevi prima del test.

Il che è poi semplice buon senso. Prendiamo ad esempio un “esame” che consiste nel lanciare una monetina; se viene testa, questo ti dice qualcosa sul fatto che la paziente abbia un cancro al seno? No; la moneta ha un 50% di probabilità di cadere di testa se la paziente ha un cancro, e anche un 50% di probabilità di venire testa se la paziente non ha un cancro. Quindi non c’è nessun motivo di chiamare risultato “positivo” né se esce testa, né se esce croce. Non è il fatto che la probabilità sia “50/50” che rende la moneta un cattivo esame; è che le due probabilità “testa per una paziente con cancro” e “testa per una paziente sana” sono uguali. Se la moneta fosse truccata, diciamo con un 60% di probabilità che esca testa, continuerebbe a non essere un esame per il cancro – ciò che rende la moneta un pessimo esame non è il fatto che ha probabilità del 50% di venire testa se la paziente ha il cancro, ma che ha anche una probabilità del 50% di venire testa se la paziente non ha il cancro. Possiamo anche usare un esame che risulta “positivo” il 100% delle volte per le pazienti con cancro, e ancora non aver imparato niente. un esempio di questo esame è “Somma 2 + 2 e vedi se il risultato è 4”. Questo esame risulta positivo il 100% delle volte su pazienti con cancro al seno. Ma risulta positivo anche per il 100% delle pazienti senza cancro al seno. Quindi non abbiamo imparato niente.

La frazione originale di pazienti con il cancro al seno è chiamata la probabilità a priori. La possibilità che una paziente con cancro risulti positiva alla mammografia, e la possibilità che una paziente senza cancro risulti positiva alla mammografia, sono chiamate le due probabilità condizionali. Prese insieme, queste informazioni iniziali sono chiamate i priori. La risposta finale – la stima di probabilità che una paziente abbia un cancro al seno se è positiva alla mammografia – è chiamata probabilità riveduta o probabilità a posteriori. Ciò che abbiamo appena visto è che se le due probabilità condizionali sono uguali, la probabilità a posteriori è uguale alla probabilità a priori.

In effetti i priori possono essere corretti o sbagliati proprio come la risposta finale – riflettono la realtà e possono essere giudicati confrontandoli con la realtà. Ad esempio, se tu pensi che in un dato campione 920 su 10.000 donne abbiano un cancro al seno, mentre il numero effettivo è 100 su 10.000, allora i tuoi priori sono sbagliati. Nel caso del nostro problema, i priori possono essere stati stabiliti mediante tre studi – una ricerca storica di casi di donne con cancro al seno, per vedere quante di loro risultavano positive alla mammografia, uno studio su donne senza cancro al seno per vedere quante di loro risultavano positive alla mammografia e infine uno studio epidemiologico sulla prevalenza del cancro al seno su una certa popolazione.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Chaos Legion wants you!