Una spiegazione intuitiva del teorema di Bayes (parte II)

Cospirazione Bayesiana

Una spiegazione intuitiva del teorema di Bayes (parte II)

Chaos Legion wants you!

Chaos Legion wants you!

Lascia un commento Annulla risposta

Condividi:

Lascia un commento Annulla risposta

Articolo originale
Eliezer Yudkowsky
2003

Questa è la seconda parte dell’articolo originale di Eliezer Yudkowsky sul teorema di Bayes. La traduzione della prima parte è qui.

[NdT. Questa seconda parte dell’articolo è molto lunga, e contiene alcuni passaggi estremamente importanti! Consiglio di leggerla con calma, magari solo un pezzo per volta, assimilando bene un concetto prima di passare all’esempio successivo. A prima vista può sembrare ripetitiva, ma ciascuno degli esempi aggiunge una tessera al mosaico complessivo, l’importante è non farsi prendere dal panico o dalla fretta! Non ti corre dietro nessuno. Non c’è un premio se arrivi in fondo più in fretta. C’è un premio, invece, se arrivi in fondo con calma, metabolizzando tutti i concetti: alla fine scoprirai di aver veramente capito come funziona il Teorema di Bayes.]

Supponiamo che un barile contenga tante piccole uova di plastica. Alcune delle uova sono colorate di rosso, altre di blu. Il 40% delle uova nel barile contiene una perla, mentre il 60% non contiene niente. Il 30% delle uova che contengono una perla sono blu e il 10% delle uova vuote sono blu. Qual è la probabilità che un uovo blu contenga una perla? Per questo esempio i calcoli sono così semplici che dovrebbe essere possibile farli a mente, e consiglio di provarci.

Ma nel caso…

Riassumiamo il problema in modo più sintetico:

$p(perla)=40\%$
$p(blu \vert perla) = 30\%$
$p(blu \vert\neg perla) = 10\%$
$p(perla \vert blu) = ?$

$\neg$ è un’abbreviazione per dire “non”, quindi se “perla” significa “contiene una perla”, $\neg perla$ si legge “non contiene una perla”.

$blu \vert perla$ è un’abbreviazione per “blu se perla” o, più per esteso, “la probabilità che un uovo sia colorato di blu se contiene una perla”. Una cosa che confonde in questa notazione è il fatto che l’implicazione va da destra a sinistra, come in ebraico o in arabo. $blu \vert perla$ significa “ $blu \leftarrow perla$ “, è un’indicazione di quanto la perlità implica la bluità, non quanto la bluità implica la perlità. Questo può confondere le idee, ma è sfortunatamente la notazione standard in teoria delle probabilità.

I lettori familiari con la meccanica quantistica, avranno già incontrato questa peculiarità; in meccanica quantistica, per esempio, $\langle d\vert c\rangle \langle c\vert b\rangle \langle b\vert a\rangle$ si legge come “la probabilità che una particella vada da A a B, poi a C e finisca in D”. Per seguire la particella, bisogna muovere gli occhi da destra a sinistra. Leggendo da sinistra a destra, $\vert$ significa “se”; leggendo da destra a sinistra, $\vert$ significa “implica” o “porta a”. Così, muovendo gli occhi da sinistra a destra, $blu \vert perla$ si legge “blu se perla” o “la probabilità che un uovo sia colorato di blu se contiene una perla”. Muovendo gli occhi da destra a sinistra, $blu \vert perla$ si legge “perla implica blu” o “la probabilità che un uovo che contiene una perla sia colorato di blu”.

L’elemento a destra è quello che conosciamo già o la premessa, l’elemento a sinistra è l’implicazione o la conclusione. Se abbiamo $p(blu \vert perla)=30\%$ , e sappiamo già che un uovo contiene una perla, allora possiamo concludere che c’è una probabilità del 30% che l’uovo sia colorato di blu. E quindi, il fatto finale che stiamo cercando – “la probabilità che un uovo blu contenga una perla” o “la probabilità che un uovo contenga una perla se sappiamo che è colorato di blu” – diventa $p(perla \vert blu)$ .

Torniamo al problema. Noi sappiamo che il 40% delle uova contengono perle e che il 60% delle uova non contengono nulla. Il 30% delle uova che contengono una perla sono blu, quindi il 12% del totale delle uova contengono una perla e sono blu. Il 10% delle uova vuote sono blu, quindi il 6% del totale delle uova sono vuote e blu. Quindi il 18% del totale delle uova sono blu, e il 12% del totale delle uova sono blu e contengono una perla. Allora la probabilità che un uovo blu contenga una perla è di $\frac{12}{18}$ o $\frac{2}{3}$ cioè circa il 67%.

Il programma qui sotto mostra una rappresentazione grafica di questo problema:

Guardando questo grafico è più facile capire perché la risposta dipenda da tutte e tre le probabilità; è la pressione differenziale tra le due probabilità condizionali, $p(blu \vert perla)$ e $p(blu \vert\neg perla)$ che fa slittare la probabilità a priori $p(perla)$ verso la probabilità a posteriori $p(perla \vert blu)$ .

Come prima, possiamo vedere la necessità di tutte e tre le informazioni considerando dei casi estremi (potete inserirne i dati nel grafico per vedere i risultati). In un (grosso) barile nel quale solo un uovo su mille contiene una perla, sapere che un uovo è colorato di blu sposta la probabilità dallo 0.1% allo 0.3% (invece che spostarla dal 40% al 67%). Analogamente, se 999 uova su 1000 contengono una perla, sapere che un uovo è blu sposta la probabilità dal 99,9% al 99,966%; la probabilità che l’uovo non contenga una perla passa da 1/1000 a circa 1/3000. Anche quando cambiamo la probabilità a priori, la pressione differenziale delle due probabilità condizionali sposta sempre la probabilità a posteriori nella stessa direzione. Se impari che un uovo è colorato di blu, la probabilità che contenga una perla aumenta sempre – ma aumenta a partire dalla probabilità a priori, per cui dobbiamo conoscerla per calcolare la risposta finale. 0.1% aumenta fino a 0.3%, 10% aumenta fino a 25%, 40% aumenta fino a 67%, 80% aumenta fino a 92% e 99.9% aumenta fino a 99.966%. Se sei interessato a sapere come variano altre probabilità, puoi inserire la probabilità a priori nel grafico. Puoi anche spostare con il mouse la linea che separa $perla$ e $\neg perla$ nella barra superiore e vedere come cambia la probabilità a posteriori nella barra inferiore.

Studi sul modo di ragionare mostrano che la maggior parte dei medici mentalmente sostituiscono la probabilità originale dell’1% con la probabilità dell’80% che una donna con un cancro risulti positiva alla mammografia. In modo analogo, la maggior parte dei soggetti non familiari con il modo di ragionare bayesiano risponderebbe probabilmente che la probabilità che un uovo blu contenga una perla è del 30%, o forse del 20% (il 30% di probabilità di un positivo vero meno il 10% di un falso positivo). Anche se questa operazione mentale può sembrare una buona idea, non ha senso nel contesto della domanda effettiva. È come l’esperimento in cui chiedi a uno studente di seconda elementare: “Se 18 persone salgono su un autobus, e poi ne salgono altre 7, quanti anni ha l’autista dell’autobus?” Molti bambini rispondono: “Venticinque”. Hanno imparato a riconoscere il fatto che gli viene chiesto di usare un certo procedimento mentale, ma non l’hanno ancora collegato alla realtà. Allo stesso modo, per trovare la probabilità che una donna positiva alla mammografia abbia un cancro al seno, non ha assolutamente nessun senso sostituire la probabilità originale che una donna abbia il cancro con la probabilità che una donna con un cancro sia positiva alla mammografia. E nemmeno si può sottrarre la probabilità di un falso positivo da quella di un positivo vero. Queste operazioni sono altrettanto irrilevanti che sommare il numero dei passeggeri dell’autobus per trovare l’età dell’autista.

Continuo a enfatizzare l’idea che l’evidenza sposta la probabilità perché le ricerche mostrano che la gente usa la visualizzazione spaziale per comprendere i numeri. In particolare, ci sono prove interessanti che noi abbiamo un senso della quantità innato, localizzato nella corteccia parietale inferiore sinistra – pazienti con danni a quest’area possono perdere selettivamente la capacità di sentire che 5 è minore di 8, pur mantenendo la capacità di leggere, scrivere e così via. (Sì, davvero!) La corteccia parietale gestisce all’incirca la capacità di localizzare le cose nello spazio, per cui può essere che il senso umano dei numeri venga da una “linea numerica” o piuttosto una “linea quantitativa” innata. È per questo che suggerisco di visualizzare l’evidenza bayesiana che sposta la probabilità lungo la linea dei numeri; la mia speranza è che questo possa tradurree il ragionamento bayesiano in qualcosa che ha un senso per i meccanismi cerebrali umani innati. (Questo, in effetti è quello che è una spiegazione intuitiva). Per maggiori informazioni, vedi The Number Sense di Stanislas Dehaene.

Uno studio di Gigerenzer e Hoffrage del 1995 ha mostrato come alcuni modi di esprimere in storia i problemi sono molto più adatti a provocare un corretto ragionamento bayesiano. Il modo meno adatto è quello che usa le probabilità. Un modo leggermente migliore è quello che usa le frequenze invece delle probabilità; il problema era sempre lo stesso, ma invece di dire che l’1% delle donne ha un cancro al seno, si dirà che 1 donna su 100 ha un cancro al seno, che 80 donne con il cancro al seno ogni 100 sono positive alla mammografia, e così via. Perché una proporzione maggiore di soggetti mostra un ragionamento bayesiano corretto usando queste parole? Probabilmente perché dire “1 donna su 100” ti spinge a visualizzare concretamente X donne con un cancro, il che porta a visualizzare X donne con cancro e positive alla mammografia, eccetera.

La presentazione più efficiente trovata finora è quella basata sulle cosiddette frequenze naturali – dire che 40 uova su 100 contengono perle, 12 uova contenenti perle su 40 sono blu e 6 uova vuote su 60 sono blu. Una presentazione per frequenze naturali è una in cui l’informazione sulla probabilità a priori è unita alla presentazione delle probabilità condizionali. Se tu stessi imparando le probabilità condizionali delle uova mediante l’esperienza diretta, troveresti – aprendo cento uova – circa 40 uova contenenti una perla delle quali 12 uova blu, e 60 uova vuote delle quali circa 6 sarebbero blu. Nell’apprendere queste probabilità condizionali, vedresti esempi di uova blu che contengono perle il doppio più spesso di uova blu vuote.

Può sembrare che presentare il problema in questo modo sia un po’ “barare”, e se questo fosse un problema in un libro di matematica probabilmente sarebbe barare. Tuttavia, se stiamo parlando di medici reali, noi vogliamo barare; vogliamo che il medico ottenga la conclusione corretta il più facilmente possibile. L’ovvia mossa successiva sarebbe di presentare tutte le statistiche mediche in termini di frequenze naturali. Sfortunatamente, anche se le frequenze naturali sono un passo nella direzione giusta, probabilmente non sono sufficienti. Quando i problemi sono posti in termini di frequenze naturali, la frazione di persone che usa il ragionamento bayesiano aumenta fino a circa metà. Un grosso miglioramento, ma non abbastanza se stiamo parlando di veri medici e veri pazienti.

Una presentazione del problema in frequenze naturali potrebbe essere visualizzato così:

Nella visualizzazione di frequenze, è il contrasto selettivo tra le due probabilità condizionali che modifica la proporzione di uova che contengono una perla. La barra inferiore è più corta della superiore, come il numero di uova blu è inferiore al numero totale di uova. Il grafico di probabilità mostrato prima è in realtà lo stesso grafico di frequenza con la barra inferiore “rinormalizzata”, cioè allungata fino alla stessa lunghezza della barra superiore. Nel grafico delle frequenze, puoi modificare le probabilità condizionali trascinando i bordi destro e sinistro del grafico. (Ad esempio, per modificare la probabilità condizionale $blu \vert perla$ , trascina la linea a sinistra che collega il bordo sinistro della barra superiore con quello della barra inferiore).

Nella visualizzazione di probabilità, puoi vedere che quando le probabilità condizionali sono uguali tra loro non c’è pressione differenziale – le frecce sono della stessa lunghezza – e quindi la probabilità a priori non si sposta tra la barra superiore e l’inferiore. Ma la barra inferiore nella visualizzazione di probabilità è solo una versione rinormalizzata (allargata) della barra inferiore in visualizzazione di frequenze, e la visualizzazione di frequenze mostra perché la probabilità non cambia se le due probabilità condizionali sono uguali. Ecco un caso in cui la proporzione a priori di perle rimane del 40%, e la proporzione di uova colorate di blu resta al 30%, ma il numero di uova vuote blu è anche del 30%:

Se riduciamo due forme dello stesso fattore, le proporzioni relative rimangono uguali a prima. Se riduciamo la parte di sinistra della barra superiore della stessa proporzione di quella di destra, la barra inferiore manterrà le stesse proporzioni della barra superiore – sarà solo più piccola. Se le due probabilità condizionali sono uguali, imparare che un uovo è blu non modifica la probabilità che l’uovo contenga una perla – per la stessa ragione per cui triangoli simili hanno angoli identici; le figure geometriche non cambiano forma quando le rimpiccioliamo di un fattore costante.

In questo caso potremmo dire semplicemente che il 30% delle uova sono blu, dato che la probabilità che un uovo sia blu è indipendente dal fatto che contenga una perla. Applicare un “test” statisticamente indipendente dalla sua condizione, riduce semplicemente il campione. In questo caso, richiedere che l’uovo sia blu non riduce il gruppo delle⋂ né più né meno di quanto riduca il gruppo delle uova senza perla. Riduce semplicemente il numero di uova nel campione.

E questo è come appare il problema originale sotto forma di grafico. L’1% delle donne hanno un cancro, l’80% di queste risultano positive alla mammografia e il 9.6% di donne senza cancro risultano anche loro positive alla mammografia.

Come ora è chiaramente visibile, la mammografia non aumenta la probabilità di che una donna con esito positivo abbia il cancro aumentando il numero di donne con cancro – ovviamente no; se la mammografia aumentasse il numero di casi di cancro nessuno farebbe il test! Tuttavia, richiedere una mammografia positiva è un test di appartenenza che elimina molte più donne senza cancro che donne con cancro. Il numero di donne senza cancro diminuisce di un fattore maggiore di dieci, da 9.900 a 950, mentre il numero di donne con cancro diminuisce solo da 100 a 80. Così la proporzione di 80 su 1.030 è molto maggiore della proporzione di 100 su 10,000. Nel grafico, il settore di sinistra (che rappresenta le donne con cancro) è piccolo, ma la mammografia proietta quasi tutto questo settore sulla barra inferiore. Il settore destro (che rappresenta le donne senza cancro) è grande, ma la mammografia proietta una frazione molto più piccola di questo settore sulla barra inferiore. Ci sono, è vero, meno donne con cancro e positive alla mammografia che donne con cancro – obbedendo alla legge delle probabilità che richiede che $p(A) \leq p(A \cap B)$ . Ma anche se il settore sinistro della barra inferiore è effettivamente un po’ più piccolo, la frazione del settore sinistro sul totale della barra inferiore è più grande – anche se ancora non molto grande. Se la barra inferiore fosse rinormalizzata alla stessa larghezza di quella superiore, mostrerebbe che il settore di sinistra si è allargato. Questo è il motivo per cui la percentuale di “donne con un cancro al seno” nel gruppo “donne positive alla mammografia” è maggiore della percentuale di “donne con un cancro al seno” nella popolazione generale – anche se la percentuale è ancora non molto alta. L’evidenza data da una mammografia positiva sposta la probabilità a priori dell’1% alla probabilità a posteriori del 7.8%.

Supponiamo che ci sia ancora un’altra variante della mammografia, mammografia@, che si comporta come segue. L’1% delle donne in una certa popolazione hanno un cancro al seno. Come la mammografia ordinaria, la mammografia@ risulta positiva nel 9.6% dei casi per donne senza un cancro al seno. Tuttavia, la mammografia@ risulta positiva lo 0% delle volte (diciamo, una volta su un miliardo) per le donne con cancro. Il grafico di questo scenario risulta così:

Cos’è che fa davvero questo esame? Se una paziente viene da voi con un risultato positivo alla mammografia@, cosa le dite?

“Congratulazioni, sei nel ristretto 9.5% della popolazione per il quale questo test stabilisce in maniera definitiva che non hai un cancro.”

Mammografia@ non è un test per il cancro; è un test per individuare le pazienti sane! Poche donne senza cancro al seno risultano positive alla mammografia@, ma solo donne senza cancro al seno. Non molto del settore di destra viene proiettato sulla barra inferiore, ma niente del settore di sinistra viene proiettato. Così un risultato positivo alla mammografia@ significa che la paziente certamente non ha un cancro.

Quello che rende la mammografia un indicatore positivo per il cancro al seno, non è il fatto che qualcuno ha chiamato “positivo” il risultato, ma piuttosto il fatto che c’è una specifica relazione bayesiana tra i risultati dell’esame e la presenza di un cancro. Potremmo chiamare gli stessi risultati “positivo” e “negativo” o “blu” e “rosso” o “James Rutherford”, o non dargli nessun nome, e i risultati dell’esame continuerebbero a spostare la probabilità esattamente allo stesso modo. Per minimizzare la confusione, un risultato che sposta la probabilità di cancro verso l’alto dovrebbe essere chiamato “positivo”, un risultato che la sposta verso il basso “negativo”. Se il risultato dell’esame non è statisticamente correlato alla presenza o assenza di cancro – se le due probabilità condizionali sono uguali – allora non dovremmo proprio chiamarlo un “esame del cancro”! Il significato dell’esame è determinato dalle due probabilità condizionali; qualunque nome venga dato ai risultati è solo una comoda etichetta.

La barra inferiore del grafico della mammografia@ è piccola; mammografia@ è un esame che solo raramente è utile. O meglio, l’esame fornisce solo raramente una forte evidenza, mentre nella maggior parte dei casi fornisce solo un’evidenza debole. Un risultato negativo alla mammografia@ sposta la probabilità – ma non la sposta di molto. Clicca il bottone “risultato” nell’angolo in basso a sinistra del grafico per vedere cosa implica un risultato negativo alla mammografia@. Si può intuire che, siccome l’esame avrebbe potuto dare un risultato positivo su una paziente sana, ma non l’ha fatto, il fatto che l’esame non abbia dato risultato positivo deve significare che la paziente ha una probabilità più alta di avere un cancro – che la sua probabilità di avere un cancro dev’essere spostata in alto dal risultato negativo nel suo “test di salute”.

L’intuizione è corretta! La somma dei gruppi con risultati negativi e positivi deve sempre essere uguale al gruppo di tutte le pazienti. Se il gruppo delle pazienti con risultato positivo ha “più della sua giusta quota” di donne senza cancro al seno, ci dev’essere una proporzione almeno leggermente più alta di donne con cancro nel gruppo dei risultati negativi. Un risultato positivo è un’evidenza rara ma forte in una direzione, mentre un risultato negativo è un’evidenza comune ma molto debole nella direzione opposta. Potremmo chiamarla la Legge della Conservazione delle Probabilità – non è un termine standard, ma la regola di conservazione è reale. Se prendiamo la probabilità modificata di cancro al seno dopo un risultato positivo, moltiplicata per la probabilità di un risultato positivo, e la sommiamo alla probabilità modificata di cancro al seno dopo un risultato negativo, moltiplicata per la probabilità di un risultato negativo, il risultato dovrà sempre essere uguale alla probabilità a priori. Se non conosciamo ancora il risultato dell’esame, la probabilità modificata attesa dopo il risultato dell’esame – considerando entrambi i possibili risultati – dovrà sempre essere uguale alla probabilità a priori.

Nella mammografia ordinaria, ci aspettiamo che l’esame risulti positivo il 10.3% delle volte – 80 donne positive con cancro più 950 positive senza cancro danno 1.030 donne con risultato positivo. Viceversa, la mammografia dovrebbe risultare negativa l’89.7% delle volte: 100% – 10.3% = 89.7%. Un risultato positivo sposta la probabilità da 1% a 7.8%, mentre un risultato negativo la sposta da 1% a 0.22%. Quindi:

$p(cancro \vert positivo) \cdot p(positivo)+p(cancro \vert negativo) \cdot p(negativo) =7.8\% \cdot 10.3\% + 0.22\% \cdot 89.7\% = 1\% = p(cancro)$

come previsto.

Perché “come previsto”? Diamo un’occhiata alle quantità in gioco:

$p(cancro)$ :	0.01	Gruppo 1: 100 donne con cancro al seno
$p(\neg cancro)$ :	0.99	Gruppo 2: 9900 donne senza cancro al seno

$p(positivo \vert cancro)$ :	80.0%	80% di donne con cancro al seno sono positive alla mammografia
$p(\neg positivo \vert cancro)$ :	20.0%	20% di donne con cancro al seno sono negative alla mammografia
$p(positivo \vert \neg cancro)$ :	9.6%	9.6% di donne senza cancro al seno sono positive alla mammografia
$p(\neg positivo \vert \neg cancro)$ :	90.4%	90.4% di donne senza cancro al seno sono negative alla mammografia

$p(cancro \cap positivo)$ :	0.008	Gruppo A: 80 donne con cancro al seno e mammografia positiva
$p(cancro \cap \neg positivo$ :	0.002	Gruppo B: 20 donne con cancro al seno e mammografia negativa
$p(\neg cancro \cap positivo)$ :	0.095	Gruppo C: 950 donne senza cancro al seno e mammografia positiva
$p(\neg cancro \cap \neg positivo)$ :	0.895	Gruppo D: 8950 donne senza cancro al seno e mammografia negativa

$p(positivo)$ :	0.103	1030 donne con mammografia positiva
$p(\neg positivo)$ :	0.897	8970 donne con mammografia negativa

$p(cancro \vert positivo)$ :	7.80%	Probabilità di avere il cancro al seno se la mammografia è positiva: 7.8%
$p(\neg cancro \vert positivo)$ :	92.20%	Probabilità di essere sana se la mammografia è positiva: 92.2%
$p(cancro \vert \neg positivo)$ :	0.22%	Probabilità di avere il cancro al seno se la mammografia è negativa: 0.22%
$p(\neg cancro \vert \neg positivo)$ :	99.78%	Probabilità di essere sana se la mammografia è negativa: 99.78%

Uno degli errori comuni nell’applicare il ragionamento bayesiano, consiste nel mescolare alcune o tutte queste quantità – che, come si può vedere, sono tutte numericamente differenti e hanno significati diversi. $p(A \cap B)$ è uguale a $p(B \cap A)$ , ma $p(A \vert B)$ non è la stessa cosa di $p(B \vert A)$ , e $p(A \cap B)$ è completamente differente da $p(A \vert B)$ . (Non so chi abbia scelto il simbolo simmetrico $\vert$ per indicare “implica”, e poi scelto la direzione da destra a sinistra per l’implicazione, ma è stata probabilmente una cattiva idea).

Per familiarizzarci con tutte queste quantità e con le relazioni tra esse, giocheremo a “segui i gradi di libertà”. Per esempio, le due quantità $p(cancro)$ e $p(\neg cancro)$ hanno tra loro un grado di libertà, a causa della legge generale $p(A)+p(\neg A)=1$ . Se sappiamo ad esempio che $p(\neg cancro)=0,99$ , possiamo ottenere $p(cancro)=1-p(\neg cancro)=0,01$ . Non c’è spazio per dire che $p(\neg cancro)=0,99$ e poi specificare anche che $p(cancro)=0,25$ ; violerebbe la regola che $p(A)+p(\neg A)=1$ .

Anche $p(positivo \vert cancro)$ e $p(\neg positivo \vert cancro)$ hanno solo un grado di libertà tra loro; o una donna con un cancro al seno è positiva alla mammografia, oppure no. D’altra parte, $p(positivo \vert cancro)$ e $p(positivo \vert \neg cancro)$ hanno due gradi di libertà. Possiamo avere la mammografia positiva per l’80% delle pazienti con cancro e per il 9.6% di pazienti sane, o che risulta positiva per il 70% delle pazienti con cancro e il 2% di quelle sane, o persino un esame di salute che risulta “positivo” per il 30% delle pazienti con cancro e per il 92% di quelle sane. Le due quantità, il risultato del test per pazienti con cancro e quello per pazienti sane, sono matematicamente indipendenti tra loro; ciascuno dei due valori non può essere ottenuto in nessun modo dall’altro, e quindi ci sono due gradi di libertà tra loro.

E che dire di $p(positivo \cap cancro)$ , $p(positivo \vert cancro)$ e $p(cancro)$ ? Abbiamo tre quantità; quanti gradi di libertà ci sono qui? In questo caso l’equazione che dev’essere soddisfatta è

$p(positivo \cap cancro)=p(positivo \vert cancro) \cdot p(cancro)$

Questa uguaglianza riduce di uno i gradi di libertà. Se conosciamo la frazione di pazienti con cancro, e la probabilità che una paziente con cancro sia positiva alla mammografia, possiamo dedurre la percentuale di pazienti che hanno un cancro e sono positive alla mammografia con una moltiplicazione. Si può riconoscere questa operazione dal grafico: è nella proiezione della barra superiore sull’inferiore. $p(cancro)$ è il settore sinistro della barra superiore e $p(positivo \vert cancro)$ determina quanto di questo settore viene proiettato sulla barra inferiore, e il settore sinistro della barra inferiore è $p(positivo \cap cancro)$ .

In modo analogo, se sappiamo il numero di pazienti con cancro al seno e positive alla mammografia, e anche il numero totale di pazienti con cancro al seno, possiamo stimare la possibilità che una donna con cancro al seno sia positiva alla mammografia dividendo: $p(positivo \vert cancro)=\frac{p(positivo \cap cancro)}{p(cancro)}$ . In effetti, questo è esattamente il modo in cui questi esami diagnostici vengono calibrati; fai uno studio su 8.520 donne con cancro al seno e vedi che tra queste ci sono 6.816 (o giù di lì) donne con cancro al seno e positive alla mammografia, poi dividi 6.816 by 8.520 per trovare che l’80% delle donne con cancro al seno sono positive alla mammografia. (Incidentalmente, se per errore dividi 8.520 per 6.816 invece del contrario, i tuoi calcoli cominciano a fare cose strane, come sostenere che il 125% delle donne con cancro al seno e positive alla mammografia hanno un cancro al seno. Questo, nella mia esperienza, è un errore frequente nel fare i calcoli bayesiani). Infine, se conosciamo $p(positivo \cap cancro)$ e $p(positivo \vert cancro)$ , possiamo calcolare quante dovevano essere in origine le pazienti con cancro. Ci sono due gradi di libertà condivisi da tre quantità; se ne conosciamo due qualsiasi, possiamo calcolare la terza.

Proviamo con $p(positivo)$ , $p(positivo \cap cancro)$ e $p(positivo \cap \neg cancro)$ . Di nuovo ci sono solo due gradi di libertà tra queste tre variabili. L’equazione che elimina il terzo gradi di libertà è $p(positivo)=p(positivo \cap cancro)+p(positivo \cap \neg cancro)$ . Questo è come è stato calcolato $p(positivo)$ ; determiniamo il numero di donne con cancro al seno positive alla mammografia, e quello delle donne senza cancro al seno positive alla mammografia, quindi sommiamo i due valori per ottenere il totale di donne positive alla mammografia. Sarebbe abbastanza strano fare uno studio per determinare il numero di donne positive alla mammografia – solo questo numero, e niente altro – ma in teoria si potrebbe fare. E se poi si facesse un altro studio per trovare il numero di quelle donne che sono positive alla mammografia e hanno un cancro al seno, sapremmo anche il numero di donne positive alla mammografia senza avere il cancro – una donna positiva alla mammografia o ha un cancro oppure non ce l’ha. In generale, $p(A \cap B)+p(A \cap \neg B)=p(A)$ . Simmetricamente, $p(A \cap B)+p(\neg A \cap B)=p(B)$ .

Infine cosa succede con $p(positivo \cap cancro)$ , $p(positivo \cap \neg cancro)$ , $p(\neg positivo \cap cancro)$ e $p(\neg positivo \cap \neg cancro)$ ? Potremmo essere tentati all’inizio di pensare che ci siano solo due gradi di libertà tra queste quattro quantità – che possiamo, ad esempio, ottenere $p(positivo \cap \neg cancro)$ moltiplicando $p(positivo) \cdot p(\neg cancro)$ , e che così le quattro quantità possano essere trovate date solo le quantità $p(positivo)$ e $p(cancro)$ . Non è così! $p(positivo \cap \neg cancro)=p(positivo) \cdot p(cancro)$ è vera solo se le due probabilità sono statisticamente indipendenti – cioè se la possibilità di avere un cancro al seno non avesse nessuna relazione con l’essere positiva alla mammografia. Come ricorderai, questo equivale a richiedere che le due probabilità condizionali siano uguali tra loro – un’ipotesi che eliminerebbe un grado di libertà. Se ricordiamo che queste quattro quantità corrispondono ai gruppi A, B, C e D, possiamo guardare questi gruppi e renderci conto che, in teoria, potremmo mettere un numero qualsiasi di persone in ciascuno dei gruppi. Se partiamo con un gruppo di 80 donne con cancro e positive alla mammografia, non c’è motivo che ci impedisca di mettere nel secondo gruppo 500 donne con cancro e negative alla mammografia, seguite da un gruppo di 3 donne senza cancro e negative alla mammografia e così via. Così sembra che le quattro quantità abbiano quattro gradi di libertà. E li avrebbero, se non fosse che esprimendole come probabilità, dobbiamo normalizzarle come frazioni del gruppo intero, il che aggiunge il vincolo che

$p(positivo \cap cancro)+p(positivo \cap \neg cancro)=p(\neg positivo \cap cancro)+p(\neg positivo \cap \neg cancro)$

Questa equazione impegna un grado di libertà, lasciando tre gradi di libertà alle quattro quantità. Se conosciamo le frazioni di donne nei gruppi A, B e D, possiamo calcolare la frazione di donne nel gruppo C.

Dati i quattro gruppi A, B, C e D, è immediato calcolare tutto il resto: $p(cancro)=A+B$ , $p(\neg positivo \vert cancro)= \frac{B}{A+B}$ e così via. Dato che ABCD contiene tre gradi di libertà, ne segue che l’intero insieme di 16 probabilità ha solo tre gradi di libertà. Ricordiamo che nei nostri problemi abbiamo sempre bisogno di tre informazioni – la probabilità a priori e le due probabilità condizionali – che, appunto, hanno tre gradi di libertà. In effetti, per i problemi bayesiani, ogni tre quantità con tre gradi di libertà tra loro dovrebbero logicamente specificare l’intero problema. Per esempio, prendiamo un barile di uova con $p(blu)=0,40$ , $p(blu \vert perla)= \frac{5}{13}$ e $p(\neg blu \cap \neg perla)=0,20$ . Date queste informazioni si può calcolare $p(perla \vert blu)$ .

Definendolo a parole:

Supponiamo di avere un barile che contiene una quantità di uova di plastica. Alcune uova contengono una perla, le altre sono vuote. Alcune uova sono blu, le altre rosse. Supponiamo che il 40% delle uova sia blu. $\frac{5}{13}$ delle uova contenenti una perla sono blu e 20% delle uova sono vuote e rosse. Qual è la probabilità che un uovo blu contenga una perla?

Provaci – ti assicuro che è possibile.

Probabilmente non bisognerebbe risolvere questo problema con una calcolatrice javascript; io ho usato una console Python. (In teoria dovrebbero essere sufficienti carta e matita, ma non conosco nessuno che possieda una matita, e quindi non ho potuto provare di persona).

Come controllo sui tuoi calcoli, la quantità (non particolarmente significativa) $\frac{p(\neg perla \vert \neg blu)}{p(perla)}$ viene circa uguale a 0,51? (A parole, la probabilità che un uovo rosso sia vuoto diviso per la probabilità che un uovo qualsiasi contenga una perla è circa il 51%?) Naturalmente usare questa informazione per risolvere il problema sarebbe barare.

Se puoi risolvere questo problema, allora quando torneremo sulla Conservazione della Probabilità, sembrerà assolutamente ovvia. Naturalmente la probabilità rivista media, dopo il test, dev’essere uguale alla probabilità a priori. Naturalmente un’evidenza rara ma forte in una direzione dev’essere controbilanciata da un’evidenza comune ma debole nella direzione opposta.

Perché:

$p(cancro \vert positivo) \cdot p(positivo)+p(cancro \vert \neg positivo) \cdot p(\neg positivo)=p(cancro)$

In termini dei quattro gruppi:

$p(cancro \vert positivo)= \frac{A}{A+C}$

$p(positivo)=A+C$

$p(cancro \cap positivo)=A$

$p(cancro \cap \neg positivo)= \frac{B}{B+D}$

$p(\neg positivo)= B+D$

$p(cancro)= A+B$

Torniamo al barile originale di uova – il 40% delle uova contiene una perla, il 30% delle uova che contengono una perla sono blu e il 10% delle uova vuote sono blu. Il grafico per questo problema è il seguente:

Cosa succede alla probabilità rivista, $p(perla \vert blu)$ , se la proporzione di uova contenenti perla è mantenuta costante, ma il 60% delle⋂ sono blu (invece del 30%), e il 20% delle uova vuote sono blu (invece che 10%)? Puoi scrivere 60% e 20% negli input delle probabilità condizionali e vedere come cambia il grafico – ma puoi immaginare in anticipo cosa succederà?

Se hai immaginato che la probabilità rivista rimane la stessa, perché la barra inferiore raddoppia di lunghezza ma mantiene le stesse proporzioni, congratulazioni! Prenditi un attimo per pensare quanto sei arrivato avanti. Guardando un problema come questo

L’1% delle donne hanno un cancro al seno. L’80% delle donne con cancro al seno sono positive alla mammografia. Il 9.6% delle donne senza cancro al seno sono positive alla mammografia. Se una donna è positiva alla mammografia, qual è la probabilità che abbia un cancro al seno?

la grande maggioranza degli interrogati immagina che circa il 70-80% delle donne positive alla mammografia abbiano un cancro al seno. Ora, guardando un problema come questo

Supponiamo che ci siano due barili che contengono tante piccole uova di plastica. In entrambi i barili, alcune uova sono blu e le altre sono rosse. In entrambi i barili, il 40% delle uova contiene una perla e le altre sono vuote. Nel primo barile il 30% delle uova che contengono una perla sono blu e il 10% delle uova vuote sono blu. Nel secondo barile il 60% delle uova che contengono una perla sono blu e il 20% delle uova vuote sono blu. Preferiresti prendere un uovo blu dal primo barile o dal secondo?

puoi vedere che è intuitivamente ovvio che la probabilità che un uovo blu contenga una perla è la stessa per entrambi i barili. Immagina quanto sarebbe stato difficile arrivarci usando il vecchio modo di pensare!

È intuitivamente ovvio, ma come dimostrarlo? Supponiamo di chiamare P la probabilità a priori che un uovo contenga una perla, di chiamare M la prima probabilità condizionale (che un uovo che contiene una perla sia blu) e N la seconda probabilità condizionale (che un uovo vuoto sia blu). Supponiamo che sia M che N siano aumentati o diminuiti di un fattore arbitrario X – per esempio, nel caso sopra, sono entrambi aumentate di un fattore 2. La probabilità rivista che un uovo blu contenga una perla, resta la stessa?

$p(perla)=P$
$p(blu \vert perla) = M \cdot X$
$p(blu \vert \neg perla) = N \cdot X$
$p(perla \vert blu) = ?$

Da queste quantità, otteniamo i quattro gruppi:

Gruppo A: $p(perla \cap blu) = P \cdot M \cdot X$
Gruppo B: $p(perla \cap \neg blu) = P \cdot (1-(M \cdot X))$
Gruppo C: $p(\neg perla \cap blu) = (1-P) \cdot N \cdot X$
Gruppo D: $p(\neg perla \cap \neg blu) = (1-P) \cdot (1-(N \cdot X))$

La proporzione di uovo che contengono una perla e sono blu, nel gruppo di tutte le uova blu, è quindi il rapporto tra il gruppo A e il gruppo (A+C), che è uguale a $\frac{P \cdot M \cdot X}{P \cdot M \cdot X+(1-P) \cdot N \cdot X}$ . Il fattore X al numeratore e denominatore si cancella, e quindi aumentare o diminuire entrambe le probabilità condizionali di uno stesso fattore non modifica la probabilità rivista.

La probabilità che un test dia un positivo vero divisa per la probabilità che lo stesso test dia un falso positivo è noto come il coefficiente di verosimiglianza del test. Il coefficiente di verosimiglianza di un esame medico, è sufficiente a riassumere tutto quello che c’è di utile da sapere sull’utilità del test?

No, non è sufficiente! Il coefficiente di verosimiglianza riassume tutto quello che c’è da sapere sul significato di un risultato positivo, ma non specifica né il significato di un risultato negativo, né la frequenza con cui il test è utile. Se esaminiamo le formule sopra, mentre $p(perla \vert blu)$ rimane costante, $p(perla \vert \neg blu)$ può cambiare – la X non è eliminata. In un esempio a parole questo fatto curioso potrebbe assomigliare a qualcosa del genere:

Supponiamo che ci siano due barili che contengono tante piccole uova di plastica. In entrambi i barili, alcune uova sono blu e le altre sono rosse. In entrambi i barili, il 40% delle uova contiene una perla e le altre sono vuote. Nel primo barile il 30% delle uova che contengono una perla sono blu e il 10% delle uova vuote sono blu. Nel secondo barile il 90% delle uova che contengono una perla sono blu e il 30% delle uova vuote sono blu. Preferiresti prendere un uovo blu dal primo barile o dal secondo? Preferiresti prendere un uovo rosso dal primo barile o dal secondo?

Per la prima domanda, la risposta è che non ha importanza se prendiamo l’uovo dal primo o dal secondo barile. Per la seconda domanda, tuttavia, le probabilità cambiano – nel primo barile il 34% delle uova rosse contengono una perla, mentre nel secondo barile l’8.7% delle uova rosse contengono una perla! Quindi dovremmo preferire un uovo rosso dal primo barile. Nel primo barile il 70% delle⋂ sono rosse e il 90% delle uova vuote sono rosse. Nel secondo barile il 10% delle⋂ sono rosse e il 70% delle uova vuote sono rosse.

Cos’è successo? Cominciamo con il notare che, controintuitivamente, $p(perla \vert blu)$ e $p(perla \vert \neg blu)$ hanno due gradi di libertà tra di loro, anche se $p(perla)$ è fissato – per cui non c’è motivo che impedisca a una delle due quantità di cambiare mentre l’altra resta costante. Ma non abbiamo appena stabilito una legge per la “Conservazione della Probabilità” che dice che $p(perla \vert |blu) \cdot p(blu)+p(perla \vert \neg blu) \cdot p( \neg blu)=p(perla)$ ? Questa equazione non ci libera di un grado di libertà? No, perché $p(blu)$ non è costante tra i due problemi. La proporzione di uova blu che contengono perla nel secondo barile è uguale a quella nel primo barile, ma una frazione molto maggiore di uova è colorata di blu! Questo modifica il gruppo delle uova rosse in maniera che la loro proporzione cambia. Ecco il grafico per le uova rosse nel secondo barile:

Torniamo all’esempio dell’esame medico. Il coefficiente di verosimiglianza di un esame medico – il numero di positivi veri diviso per il numero di falsi positivi – ci dice tutto quello che c’è da sapere sul significato di un risultato positivo. Ma non ci dice niente sul significato di un risultato negativo, e non ci dice quanto spesso l’esame sia utile. Per esempio, una mammografia che riconosce l’80% delle pazienti con cancro al seno e dà un 9.6% di falsi positivi su pazienti sane, ha lo stesso coefficiente di verosimiglianza di un esame con l’8% di positivi veri e lo 0,96% di falsi positivi. Anche se questi due esami hanno lo stesso coefficiente di verosimiglianza, il primo è più utile in ogni senso – riconosce più spesso la malattia e un risultato negativo è un’evidenza più forte di salute.

Il coefficiente di verosimiglianza per un risultato positivo riassume la pressione differenziale delle due probabilità condizionali per un risultato positivo, e quindi riassume quanto un risultato positivo sposterà la probabilità a priori. Prendiamo un grafico di probabilità, come questo:

Il coefficiente di verosimiglianza della mammografia è quello che determina l’inclinazione della linea. Se la probabilità a priori è dell’1%, conoscendo solo il coefficiente di verosimiglianza è possibile calcolare la probabilità a posteriori dopo un risultato positivo.

Ma, come puoi vedere dal grafico delle frequenze, il coefficiente di verosimiglianza non racconta la storia completa – nel grafico delle frequenze le proporzioni della barra inferiore possono restare fisse mentre cambiano le dimensioni della barra. $p(blu)$ aumenta, ma $p(perla \vert blu)$ non cambia, perché $p(perla \cap blu)$ e $p( \neg perla \cap blu)$ aumentano dello stesso fattore. Ma quando cambi il grafico per guardare a $p( \neg blu)$ , le proporzioni di $p(perla \cap \neg blu)$ e $p(\neg perla \cap \neg blu)$ non restano costanti.

È ovvio che il coefficiente di verosimiglianza non può raccontarci tutta la storia, il coefficiente di verosimiglianza e la probabilità a priori, insieme, sono solo due numeri, mentre il problema ha tre gradi di libertà.

Supponiamo di applicare in successione due esami per il cancro al seno – diciamo una mammografia standard e un altro esame che sia indipendente dalla mammografia. Dato che non conosco un test del genere che sia indipendente dalla mammografia, ne inventerò uno per gli scopi di questo problema, e lo chiamerò il Test di Divisione di Tams-Braylor, che verifica se qualche cellula si divide più rapidamente delle altre cellule. Supponiamo che il Tams-Braylor dia un positivo vero per il 90% delle pazienti con cancro al seno e un falso positivo per il 5% delle pazienti senza cancro. Diciamo che la prevalenza a priori del cancro al seno sia dell’1%. Se una paziente risulta positiva alla mammografia e al Tams-Braylor, qual è al probabilità modificata che abbia un cancro al seno?

Un modo di risolvere questo problema sarebbe di prendere la probabilità modificata da una mammografia positiva, che abbiamo già calcolato essere il 7.8%, e inserirla nell’esame Tams-Braylor come probabilità a priori. Se facciamo così, vediamo che il risultato è circa il 60%.

Ma qui abbiamo supposto di avere prima il risultato positivo alla mammografia, e poi il risultato positivo al test Tams-Braylor. Cosa succede se la paziente ottiene un risultato positivo al Tams-Braylor, seguito da un positivo alla mammografia? Intuitivamente sembra che non dovrebbe avere importanza. I calcoli lo confermano?

Prima effettuiamo l’esame Tams-Braylor a una donna con una proprietà a priori dell’1% di cancro al seno.

Poi eseguiamo una mammografia, che dà un 80% di positivi veri e un 9.6% di falsi positivi, e anche questa risulta positiva.

E guarda! Il risultato è ancora il 60%. (Se non è esattamente uguale è a causa degli arrotondamenti – puoi usare un calcolatore più preciso, o fare i conti delle frazioni a mano, e i numeri saranno esattamente uguali).

La dimostrazione algebrica che le due strategie sono equivalenti è lasciata come esercizio per il lettore. Visivamente, immagina che la barra inferiore del grafico di frequenze per la mammografia proietti un’ulteriore barra usando le probabilità del test Tams-Braylor, e che questa terza barra risulti uguale indipendentemente dall’ordine in cui le probabilità condizionali sono proiettate.

Potremmo anche ragionare che poiché i due esami sono indipendenti, la probabilità che una donna con un cancro al seno sia positiva alla mammografia e al test Tams-Braylor è del 90% * 80% = 72%. E la probabilità che una donna senza cancro ottenga un falso positivo sia alla mammografia che al Tams-Braylor è del 5% * 9.6% = 0.48%. Così se consideriamo l’insieme come un unico esame con coefficiente di verosimiglianza di 72%/0.48%, e lo applichiamo a una donna con l’1% di probabilità a priori di avere un cancro:

…troviamo ancora una volta che il risultato è 60%.

Supponiamo che la prevalenza a priori del cancro al seno in una popolazione sia dell’1%. Supponiamo inoltre che noi, come medici, abbiamo a disposizione un repertorio di tre esami indipendenti. Il nostro primo esame, esame A, la mammografia, ha un coefficiente di verosimiglianza di $\frac{80\%}{9,6\%}=8.33$ . Il secondo esame, esame B, ha un rapporto di verosimiglianza di 18.0 (ad esempio, da 90% su 5%); e il terzo esame, esame C, ha un rapporto di verosimiglianza di 3.5 (che potrebbe venire da 70% su 20%, o da 35% su 10%; non fa differenza). Supponiamo che una paziente risulti positiva a tutti e tre gli esami. Qual è la probabilità che abbia un cancro al seno?

Ecco un trucchetto per semplificare i conti. Le la prevalenza a priori del cancro al seno in una popolazione è dell’1%, allora 1 donna su 100 ha un cancro al seno, e 99 su 100 non ce l’hanno. Quindi, se riscriviamo la probabilità dell’1% come un rapporto, le possibilità sono:

$1:99$

E i coefficienti di verosimiglianza dei tre esami A, B e C sono:

$8,33:1 = 25:3$

$18,00:1 = 18:1$

$3,50:1 = 7:2$

Il rapporto di donne con cancro e donne senza cancro, dopo aver avuto tutti e tre gli esami positivi, sono :

$1 \cdot 25 \cdot 18 \cdot 7:99 \cdot 3 \cdot 1 \cdot 2=3150:594$

Per trovare la probabilità dal rapporto, scriviamo:

$\frac{3150}{3150+594}=84\%$

Questo funziona sempre, indipendentemente da come sono scritti i rapporti; cioè 8,33:1 è esattamente la stessa cosa di 25:3 o 75:9. Non ha importanza in quale ordine vengono effettuati gli esami, o in quale ordine vengono calcolati i risultati. La dimostrazione è lasciata come esercizio per il lettore.

E. T. Jaynes, in “Probability Theory With Applications in Science and Engineering”, suggerisce che credibilità ed evidenza dovrebbero essere misurati in decibel.

Decibel?

I decibel sono usati per misurare differenze di intensità esponenziali. Per esempio, se il suono di un clacson da macchina porta 10.000 volte più energia (per metro quadro per secondo) di una sveglia, il clacson sarà 40 decibel più forte della sveglia. Il suono di un uccello che canta potrebbe portare 1.000 volte meno energia della sveglia, e quindi essere 30 decibel più debole. Per calcolare il numero dei decibel, si prende il logaritmo in base 10 e si moltiplica per 10.

$decibel=10 \log_{10}{intensit\grave{a}}$

$intensit\grave{a}=10^\frac{decibel}{10}$

Supponiamo di partire con una probabilità dell’1% che una donna abbia un cancro al seno, corrispondente a un rapporto di 1:99. E poi somministriamo tre esami con coefficienti di verosimiglianza di 25:3, 18:1 e 7:2. Potremmo moltiplicare questi numeri… oppure potremmo sommare i loro logaritmi:

$10 \log_{10}{\frac{1}{99}}=-20$

$10 \log_{10}{\frac{25}{3}}=9$

$10 \log_{10}{\frac{18}{1}}=13$

$10 \log_{10}{\frac{7}{2}}=5$

Partiamo con una forte improbabilità che una donna abbia un cancro al seno – il livello di credibilità è a -20 decibel. Poi arrivano i risultati di tre esami, corrispondenti a 9, 13 e 5 decibel di evidenza. Questo aumenta il livello di credibilità di un totale di 27 decibel, cioè porta il livello iniziale di -20 a una credibilità a posteriori di 7 decibel. Così il rapporto sale da 1:99 a 5:1, e la probabilità passa da 1% a circa 83%.

Davanti a te c’è uno zainetto contenente 1000 fiche da poker. Inizialmente gli zainetti erano due, uno contenente 700 fiche rosse e 300 blu, l’altro con 300 fiche rosse e 700 blu. Ho tirato una moneta per determinare quale zainetto prendere, per cui la probabilità che quello davanti a te sia lo zainetto “rosso” è del 50%. Ora tu estrai a caso delle fiche, una per volta, e le rimetti dentro dopo averle guardate. In 12 tentativi trovi 8 rossi e 4 blu. Qual è la probabilità che questo sia lo zainetto a dominanza rossa?

Prova a fare il conto a mente. Non importa che sia il risultato esatto, basterebbe un’approssimazione grossolana. Quando sei pronto, prosegui.

Secondo uno studio effettuato nel 1966 da Lawrence Phillips e Ward Edwards, la maggior parte risponde a questo problema con una stima nell’intervallo dal 70% all’80%. Hai previsto una probabilità sostanzialmente più alta di così? In tal caso, congratulazioni – Ward Edwards scrive che molto raramente una persona risponde correttamente, anche con persone relativamente familiari al ragionamento bayesiano. La risposta corretta è 97%.

Il coefficiente di verosimiglianza per il risultato “fiche rossa” è di 7/3, mentre il coefficiente di verosimiglianza per il risultato “fiche blu” è di 7/3. Quindi una fiche blu è esattamente la stessa quantità di evidenza di una fiche rossa, ma nella direzione opposta – una fiche rossa corrisponde a 3,6 decibel di evidenza per lo zainetto rosso, mentre una fiche blu è -3.6 decibel di evidenza. Se estrai una fiche rossa e una blu, si annullano a vicenda. Quindi il rapporto tra le estrazioni rosse e quelle blu non ha importanza; conta solo l’eccesso di rossi sopra i blu. In dodici estrazioni c’erano otto rossi e quattro blu; quindi quattro fiche rosse in più rispetto alle blu. Quindi le possibilità a posteriori saranno:

$7^4:3^4 = 2401:81$

che è circa 30:1, cioè circa il 97%.

La credibilità a priori partiva a 0 decibel e c’è all’incirca un totale di 14 decibel di evidenza, e infatti questo corrisponde a possibilità di circa 25:1 cioè circa il 96%. Di nuovo, c’è qualche imprecisione dovuta agli arrotondamenti, ma se avessimo fatto i calcoli esatti i risultati sarebbero stati identici.

Adesso possiamo vedere intuitivamente che il problema degli zainetti avrebbe avuto esattamente la stessa risposta, ottenuta in esattamente lo stesso modo, se avessimo estratto sedici fiche e ne fossero risultate dieci rosse e sei blu.

Sei un meccanico che ripara sarchiaponi. Quando un sarchiapone si rompe, il 30% delle volte è dovuto a un tubo intasato, Se il tubo di un sarchiapone è intasato, c’è il 45% di probabilità che scuotendo il sarchiapone faccia scintille. Se il tubo di un sarchiapone non è intasato c’è solo il 5% di probabilità che scuotendolo faccia scintille. Un cliente ti porta un sarchiapone difettoso. Lo scuoti e vedi che fa scintille. Qual è la probabilità che un sarchiapone che fa scintille abbia il tubo intasato?

Qual è la sequenza di operazioni aritmetiche che hai fatto per risolvere questo problema

(45% * 30%) / (45% * 30% + 5% * 70%)

Allo stesso modo, per calcolare la probabilità che una donna positiva alla mammografia abbia il cancro al seno, abbiamo calcolato:

$\frac{p(positivo \vert cancro) \cdot p(cancro)}{p(positivo \vert cancro) \cdot p(cancro)+p(positivo \vert \neg cancro) \cdot p(\neg cancro)}$

che equivale a

$\frac{p(positivo \cap cancro)}{p(positivo \cap cancro)+p(positivo \cap \neg cancro)}$

che equivale a

$\frac{p(positivo \cap cancro)}{p(positivo)}$

che equivale a

$p(cancro \vert positivo)$

La forma generale di questo calcolo è nota come Teorema di Bayes o Regola di Bayes:

$p(A \vert X)=\frac{p(X \vert A) \cdot p(A)}{p(X \vert A) \cdot p(A)+p(X \vert \neg A) \cdot p(\neg A)}$

Dato un fenomeno A che vogliamo investigare, e un’osservazione X che è evidenza di A – per esempio, nell’esempio precedente, A è il cancro al seno e X una mammografia positiva – il Teorema di Bayes ci dice come dobbiamo aggiornare la nostra probabilità di A sulla base della nuova evidenza X.

A questo punto il Teorema di Bayes può sembrare banalmente ovvio o addirittura tautologico, pittosto che qualcosa di nuovo ed eccitante. Se è così, questa introduzione ha avuto un completo successo.

Probabilità a priori:

Probabilità condizionali:

Probabilità a posteriori: