Secondo interludio: Grafici e Teorema di Bayes

Con la seconda parte dell’introduzione di Eliezer Yudkowsky al Teorema di Bayes, abbiamo finalmente visto le applicazioni del Teorema al massimo del suo splendore e, nelle intenzioni dell’autore, il lettore dovrebbe ormai essere in grado di apprezzarlo e utilizzarlo nella vita reale.

Come diceva qualcuno, purtroppo non ci chiamiamo tutti Eliezer Yudkowsky, e non tutti noi abbiamo letto le lezioni di Feynman all’età di 11 anni, quindi per qualcuno forse l’argomento non è ancora perfettamente chiaro. È proprio considerando questa ipotesi che scrivo questo secondo interludio, allo scopo di illustrare nei minimi dettagli i passaggi utilizzati nell’articolo precedente per arrivare ai vari risultati.

Prenderemo come esempio (state tranquilli, mi limiterò a un solo esempio!) quello del riparatore di sarchiaponi:

Sei un meccanico che ripara sarchiaponi. Quando un sarchiapone si rompe, il 30% delle volte è dovuto a un tubo intasato, Se il tubo di un sarchiapone è intasato, c’è il 45% di probabilità che scuotendo il sarchiapone faccia scintille. Se il tubo di un sarchiapone non è intasato c’è solo il 5% di probabilità che scuotendolo faccia scintille. Un cliente ti porta un sarchiapone difettoso. Lo scuoti e vedi che fa scintille. Qual è la probabilità che un sarchiapone che fa scintille abbia il tubo intasato?

Sappiamo già, perché l’abbiamo visto nell’articolo precedente, che il risultato cercato è 79,4%. Quello che ci interessa qui è seguire, passo per passo, il metodo che ha permesso di arrivare a quel risultato. Lo faremo utilizzando lo stesso grafico interattivo introdotto nella seconda parte, sezionato in modo tale da poterne analizzare un pezzetto per volta e, nel descrivere i passaggi, faremo molta attenzione a non introdurre nessuna informazione che non sia già presente nella formulazione iniziale del problema.

Partiamo dall’inizio:

Sei un meccanico che ripara sarchiaponi… Un cliente ti porta un sarchiapone difettoso…

G1,00

Il grafico qui sopra è molto semplice: la barra grigia rappresenta l’unica informazione che abbiamo a disposizione finora: prima ancora di esaminare il sarchiapone, sappiamo che è guasto G .

Il numero 1,00 all’interno della barra indica la probabilità: qual è la probabilità che il sarchiapone sia guasto?

Sembra una domanda sciocca, ed effettivamente lo è. La probabilità è chiaramente 1, cioè il 100%. È evidente che se devo riparare un sarchiapone guasto allora sarà sicuramente guasto! Il fatto di indicare quel valore di probabilità (1) ci serve solo a ricordare che quella barra rappresenta la totalità dei casi possibili; tutti i calcoli successivi suddivideranno questa probabilità tra i vari casi possibili.

La prima informazione importante che ci viene data nella descrizione del problema è la probabilità a priori che un sarchiapone guasto abbia il tubo intasato:

… Quando un sarchiapone si rompe, il 30% delle volte è dovuto a un tubo intasato…

Questa informazione è puramente statistica, non ci dice assolutamente se il sarchiapone che abbiamo davanti ha il tubo intasato, ci dice solo qual è la probabilità che il guasto dipenda dal tubo intasato piuttosto che da qualche altra causa.

Naturalmente, il fatto di avere o meno il tubo intasato è indipendente dal fatto che io abbia provato a scuotere il sarchiapone: il test “scuoto il sarchiapone e vedo se fa scintille” non provoca o risolve l’intasamento del tubo. Quindi la nostra probabilità a priori dell’30% (cioè 0,3) divide in due parti la probabilità iniziale sin da prima del test.

Se chiamiamo p(T) la probabilità che il guasto sia il tubo intasato (indipendentemente dal fatto che il nostro sarchiapone sia uno di quelli), la probabilità che un sarchiapone guasto abbia il tubo intasato sarà 0,3 (30%) mentre la probabilità p(\neg T) che il guasto sia altro sarà 0,7 (70%).

G1,00T1,00-0,30=0,700,30¬T0,70

Questa nuova informazione si riflette nel grafico dividendo la barra della probabilità G in due parti: a sinistra abbiamo il segmento rosso corrispondente alla probabilità p(T) , cioè che il guasto sia dovuto al tubo intasato, mentre a destra abbiamo in verde la probabilità p(\neg T) , che il guasto sia dovuto a qualcosa d’altro. I due numeri, come prima, rappresentano le rispettive probabilità: p(T)=0,3 e p(\neg T)=0,7 .

“Ma,” obietterà qualcuno, “questo grafico è inutile, non ci dice niente di nuovo!”

È vero, non ci dice niente che già non sapessimo ma, d’altra parte, non potremmo aspettarci di più: per il momento ci siamo limitati a inserire solo la prima delle informazioni disponibili, la probabilità a priori del 30% che un sarchiapone guasto abbia il tubo intasato. Il grafico non potrà dirci quindi molto di più dell’unico dato che gli abbiamo inserito: al 30% (p=0,3) il sarchiapone guasto ha il tubo intasato, al 70% (p=0,7) non ce l’ha.

Le cose cominciano a farsi interessanti quando prendiamo in considerazione le probabilità condizionali; cominciamo dalla prima:

… Se il tubo di un sarchiapone è intasato, c’è il 45% di probabilità che scuotendo il sarchiapone faccia scintille…

Questo ci dice che, tra i sarchiaponi con il tubo intasato (cioè il gruppo T che abbiamo individuato prima), il 45% (0,45) scuotendolo fa scintille e, di conseguenza, il 55% (0,55) non le fa.

G1,00T0,30¬T0,70S|T0,450,30⋅0,45=0,1350,300-0,135=0,165T∩¬S0,165T∩S0,135

Come si vede dal grafico, possiamo quindi dividere il segmento rosso di sinistra in due parti: la sezione a righe rosse e gialle comprende i falsi negativi, cioè la probabilità che un sarchiapone abbia il tubo intasato ma non faccia scintille, mentre la sezione a righe rosse e blu comprende i positivi veri, cioè la probabilità che un sarchiapone abbia il tubo intasato e faccia scintille.

La percentuale di 0,3 del gruppo T originale viene moltiplicata per 0,45 (prima probabilità condizionale) per ottenere 0,135, la percentuale dei positivi veri; la percentuale dei falsi negativi si calcola sottraendo 0,135 dallo 0,3 del totale dei positivi, e quindi 0,3-0,135=0,165 .

È importante notare che queste percentuali sono ancora riferite alla totalità dei sarchiaponi guasti G ; cioè, ad esempio, la probabilità di un positivo vero è di 0,135 tra tutti i sarchiaponi guasti.

Allo stesso modo, consideriamo adesso la seconda probabilità condizionale:

… Se il tubo di un sarchiapone non è intasato c’è solo il 5% di probabilità che scuotendolo faccia scintille…

Analogamente al caso precedente, questo valore di 5% (0,05) ci permette di dividere in due parti la probabilità che il sarchiapone non abbia il tubo intasato:

G1,00T0,30¬T0,70S|T0,45T∩¬S0,165T∩S0,135¬S|¬T0,050,70⋅0,05=0,0350,700-0,035=0,665¬T∩S0,035¬T∩¬S0,665

Il segmento verde di destra (probabilità che il guasto non sia il tubo intasato) è stato diviso in una parte di falsi positivi, probabilità che il tubo non sia intasato e il sarchiapone faccia scintille, rappresentato dal segmento a righe verdi e blu, e in una parte di negativi veri, probabilità che il sarchiapone non abbia il tubo intasato e non faccia scintille, nel segmento a righe verdi e gialle.

Anche qui per ottenere i valori numerici bastano una moltiplicazione e una sottrazione: la percentuale di 0,7 del gruppo originale \neg T viene moltiplicata per 0,05 (la seconda probabilità condizionale) per ottenere 0,035 che è la frazione dei falsi positivi; sottraendo questo valore dallo 0,7 della percentuale di sarchiaponi senza tubo intasato otteniamo 0,7-0,035=0,665 , la frazione dei negativi veri.

A questo punto abbiamo scomposto la nostra probabilità totale in quattro probabilità parziali che, leggendo il grafico da sinistra a destra sono: 0,165 falsi negativi, 0,135 positivi veri, 0,035 falsi positivi e 0,665 negativi veri. Contro verifica: 0,165+0,135+0,035+0,665=1 ; le quattro probabvilità sommate insieme portano di nuovo a 1, proprio come doveva essere.

Quindi adesso sappiamo quasi tutto quello che c’è da sapere sulla probabilità che un sarchiapone abbia o meno il tubo intasato. Se ad esempio provassimo a scuotere 1000 sarchiaponi guasti, dovremmo aspettarci 165 falsi negativi (tubo intasato e niente scintille), 135 positivi veri (tubo intasato e scintille), 35 falsi positivi (tubo non intasato e scintille) e 665 negativi veri (tubo non intasato e niente scintille).

Quello che però ci chiedeva il problema originale era qualcosa di diverso:

… Un cliente ti porta un sarchiapone difettoso. Lo scuoti e vedi che fa scintille. Qual è la probabilità che un sarchiapone che fa scintille abbia il tubo intasato?

Cioè quello che vogliamo sapere è quanti sono i veri positivi (scintille da un sarchiapone con tubo intasato) rispetto alla totalità degli esami positivi (sarchiaponi che fanno scintille quando li scuoti).

Per farlo, dobbiamo prima scoprire qual è la probabilità complessiva che un sarchiapone guasto faccia scintille:

G1,00T0,30¬T0,70S|T0,45T∩¬S0,165T∩S0,135¬S|¬T0,05¬T∩S0,035¬T∩¬S0,6650,135+0,035=0,17
S0,17

Non era difficile. I positivi veri (0,135) e i falsi positivi (0,035) messi insieme costituiscono l’insieme di tutti i risultati positivi: dopotutto un sarchiapone che fa scintille o ha il tubo intasato (positivo vero) o non ce l’ha (falso positivo), non c’è una terza alternativa. Quindi la probabilità S di ottenere scintille scuotendo il sarchiapone, rispetto al totale dei sarchiaponi guasti G , è 0,135+0,035=0,17 ; nel grafico è indicata da una barra blu, che coincide con l’unione del rosso-blu e del verdi-blu.

Se dividiamo la lunghezza della barra dei positivi, lasciandola separata tra veri e falsi positivi, per questo valore, otteniamo quella che in teoria della probabilità viene chiamata rinormalizzazione: noi vogliamo sapere quanti sono i veri positivi sul totale dei positivi; quindi espandiamo uniformemente la barra dei positivi fino a farla diventare larga 1 e, di conseguenza, i nuovi valori dei veri positivi e dei falsi positivi non sarà più riferito alla totalità dei sarchiaponi guasti G come prima, ma solo al totale dei sarchiaponi che fanno scintille S :

G1,00T0,30¬T0,70S|T0,45T∩¬S0,165T∩S0,135¬S|¬T0,05¬T∩S0,035¬T∩¬S0,665S0,17T|S0,794¬T|S0,2060,135/0,17=0,7940,035/0,17=0,206

A sinistra, rossi bordati di blu, abbiamo la frazione di positivi veri rispetto al totale dei positivi (\frac{0,135}{0,17} \sim 0,794) ; a destra, verdi bordati di blu, abbiamo la frazione dei falsi positivi rispetto al totale dei positivi (\frac{0,035}{0,17} \sim 0,206) .

Abbiamo quindi la risposta alla domanda originale: qual è la probabilità che un sarchiapone guasto che fa scintille abbia il tubo intasato? Circa 0,794, cioè il 79,4%.

Contemporaneamente abbiamo ottenuto anche la risposta complementare: qual è la probabilità che un sarchiapone guasto che fa scintille non abbia il tubo intasato? Circa 0,206, cioè il 20,6%.


Quindi abbiamo risposto alla domanda iniziale; ma è tutto qui quello che possiamo estrarre da questi dati?

In effetti, no. Abbiamo effettivamente completato l’analisi del significato di un risultato positivo, cioè quando il sarchiapone guasto fa scintille, ma non sappiamo ancora niente su quale siano le implicazioni di un risultato negativo, un sarchiapone guasto che non fa scintille.

Poniamoci quindi una seconda domanda, complementare alla precedente:

Un cliente ti porta un sarchiapone difettoso. Lo scuoti e vedi che non fa scintille. Qual è la probabilità che un sarchiapone che non fa scintille abbia ugualmente il tubo intasato?

La domanda è complementare alla precedente, quindi anche il metodo da seguire sarà molto simile; cominciamo con lo scoprire quanti sono in totale gli esami risultati negativi:

G1,00T0,30¬T0,70S|T0,45T∩¬S0,165T∩S0,135¬S|¬T0,05¬T∩S0,035¬T∩¬S0,6650,165+0,665=0,83¬S0,83

Procedendo in modo analogo a prima, sommiamo tra loro i falsi negativi (0,165) e i negativi veri (0,665) per ottenere l’insieme di tutti i risultati negativi. Quindi i negativi \neg S , rispetto al totale dei sarchiaponi guasti G , sono 0,165+0,665=0,83 ; nel grafico sono indicati da una barra gialla, che coincide con l’unione dei rosso-gialli e dei verdi-gialli.

Come prima, rinormalizziamo questo risultato in modo da portare a 1 la lunghezza totale della barra, dividendo le lunghezze per il totale appena trovato. Nella nuova barra rinormalizzata, i valori dei falsi negativi e dei negativi veri non sarà più riferito alla totalità dei sarchiaponi guasti G come prima, ma solo al totale dei negativi \neg S :

G1,00T0,30¬T0,70S|T0,45T∩¬S0,165T∩S0,135¬S|¬T0,05¬T∩S0,035¬T∩¬S0,665¬S0,830,165/0,83=0,1990,665/0,83=0,801T|¬S0,199¬T|¬S0,801

A sinistra, rossi bordati di giallo, abbiamo la frazione di falsi negativi rispetto al totale dei negativi (\frac{0,165}{0,83} \sim 0,199) ; a destra, verdi bordati di giallo, abbiamo la frazione dei negativi veri rispetto al totale dei negativi (\frac{0,665}{0,83} \sim 0,801) .

Quindi un sarchiapone guasto che non fa scintille quando lo scuoti, ha una probabilità di 0,199, cioè il 19,9% di avere comunque un il tubo intasato e, di conseguenza, l’80,1% di probabilità di non averlo.


Lascio quindi di nuovo la parola a Eliezer Yudkowsky, con la terza e ultima parte della sua introduzione al Teorema di Bayes.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Chaos Legion wants you!