Una spiegazione intuitiva del Teorema di Bayes (parte III)

Articolo originale
Eliezer Yudkowsky
2003

Questa è la terza parte dell’articolo originale di Eliezer Yudkowsky sul teorema di Bayes. Qui ci sono le traduzioni della prima parte e della seconda parte.


Allora, com’è che c’è tanta gente così eccitata dal Teorema di Bayes?

“Credi che scoppierà una guerra nucleare nei prossimi 20 anni? Se no, perché?” Poiché volevo usare alcune risposte comuni a questa domanda in una discussione sulla razionalità, l’ho proposta in un canale IRC, #philosophy.

Uno degli utenti rispose “No” alla domanda, ma aggiunse che una guerra biologica avrebbe spazzato via il “99.4%” dell’umanità entro i successivi dieci anni. Gli chiesi se non pensava che fosse possibile il 100%. “No,” rispose. “Perché no?”, chiesi ancora. “Perché sono un ottimista”. (Roanoke di #philosophy su EFNet chiede che questa affermazione sia attribuita a lui, pur essendo stato avvisato che non verrà messa in buona luce. Buon per lui!) Un’altra persona che rispose alla domanda, disse che non prevedeva una guerra nucleare per 100 anni, perché “Tutte le parti implicate in decisioni che riguardano una guerra nucleare non sono al momento interessate.” “Ma perché estendere l’intervallo a 100 anni?”, gli chiesi. “Pura speranza” fu la sua risposta.

Che cos’è esattamente che rende questi pensieri “irrazionali” – un modo scadente di arrivare alla verità? Ci sono un mucchio di risposte intuitive a questa domanda; per esempio: “Non è razionale credere a qualche cosa solo perché è rassicurante”. Naturalmente è altrettanto irrazionale credere a cose solo perché sono deprimenti; il secondo errore è meno comune, ma ugualmente irrazionale. Altre risposte intuitive possono essere l’idea che “Il fatto che tu sia o meno un ottimista non ha nulla a che fare col fatto che una guerra biologica cancelli la specie umana”, o “La pura speranza non è un’evidenza sulla guerra nucleare perché non è un’osservazione sulla guerra nucleare”.

C’è anche una risposta matematica che è precisa, esatta e contiene tutte queste intuizioni come caso particolare. Questa risposta matematica è nota come Teorema di Bayes.

Per esempio, la risposta “Il fatto che tu sia o meno un ottimista non ha nulla a che fare col fatto che una guerra biologica cancelli la specie umana” può essere tradotta in:

p(tu adesso sei un ottimista | in 100 anni ci sarà una guerra biologica che cancellerà la specie umana) =

p(tu adesso sei un ottimista | in 100 anni ci sarà una guerra biologica che non cancellerà la specie umana)

Poiché le due probabilità per p(X \vert A) e p(X \vert \neg A) sono uguali, il Teorema di Bayes dice che p(A \vert X) = p(A) ; come abbiamo visto in precedenza, quando le due probabilità condizionali sono uguali, la probabilità a posteriori è uguale alla probabilità a priori. Se X e A non sono correlate – statisticamente indipendenti – trovare che X è vero non può essere evidenza della verità di A; l’osservazione di X non modifica la nostra probabilità per A; dire “X” non è un argomento a favore di A.

Ma supponiamo che tu stia discutendo con qualcuno bravo con le parole e che dice qualcosa del tipo: “Ah, ma siccome sono ottimista, avrò maggiori speranze per il domani, mi impegnerò un po’ di più nel mio lavoro, spingerò un pochino l’economia globale, alla fine l’effetto cumulativo potrà mandare qualche soldo in più nelle tasche del ricercatore che alla fine troverà un modo di fermare la guerra biologica – così, vedi, dopotutto i due eventi possono essere correlati, e posso usare uno dei due come evidenza a favore dell’altro”. In un certo senso, questo è corretto – qualsiasi correlazione, non importa quanto debole, è utilizzabile per il Teorema di Bayes; ma il Teorema di Bayes distingue tra evidenze deboli e forti. Cioè, il Teorema di Bayes non solo ci dice cosa è evidenza e cosa no, ma descrive anche la forza dell’evidenza. Il Teorema di Bayes non solo ci dice quando aggiornare le nostre probabilità, ma anche di quanto modificarle. Una correlazione tra speranza e guerra biologica può esistere, ma è molto più debole di quanto il soggetto vuole che sia; sta aggiornando troppo le sue probabilità.

Diciamo che sei una donna che ha appena fatto una mammografia. Prima, calcolavi di avere una probabilità molto bassa di avere un cancro al seno; supponiamo che tu abbia letto da qualche parte le statistiche e che quindi sai che la probabilità è dell’1%. Quando ottieni il risultato della mammografia, positivo, la tua probabilità stimata dovrebbe salire al 7.8%. Non c’è spazio per dire qualcosa del tipo: “Oh, beh, una mammografia positiva non è una prova definitiva, anche un mucchio di donne sane sono positive alla mammografia. Non voglio preoccuparmi troppo presto, e non intendo modificare la mia probabilità fino a che non ho maggiori evidenze. Perché? Perché sono un’ottimista”. E allo stesso modo non ha senso neanche dire: “Beh, una mammografia positiva non è una prova definitiva, ma intendo presumere il peggio finché non ho prove contrarie. Perché? Perché sono pessimista”. La tua probabilità corretta dovrebbe andare al 7.8%, né più, né meno.

Il Teorema di Bayes descrive cos’è che rende qualcosa “evidenza” e quanta evidenza è. I modelli statistici sono giudicati in confronto al metodo bayesiano perché, in statistica, il metodo bayesiano è il meglio che abbiamo a disposizione – il metodo bayesiano definisce il massimo che puoi ottenere da un dato elemento di evidenza, allo stesso modo in cui la termodinamica definisce la massima quantità di lavoro che che si può ottenere da un differenziale di temperatura. Questo è perché puoi sentire scienziati cognitivi parlare di ragionatori bayesiani. Nelle scienze cognitive, ragionatore bayesiano è il termine tecnico specifico che usiamo per intendere mente razionale.

Ci sono anche un certo numero di euristiche generali sul ragionamento umano che si possono imparare dal Teorema di Bayes.

Per esempio, in molte discussioni sul Teorema di Bayes, si possono sentire psicologi cognitivi dire che le persone non tengono sufficientemente conto delle frequenze a priori, intendendo che quando una persona si occupa di un problema in cui c’è una qualche evidenza X che indica che A potrebbe essere vero, tende a giudicare la probabilità di A esclusivamente da quanto l’evidenza X sembra implicare A, senza tener conto della frequenza a priori di A. Se ad esempio pensi, nell’esempio della mammografia positiva, che la probabilità della donna di avere un cancro sia nell’ordine del 70%-80%, allora questo è un tipo di ragionamento insensibile alla frequenza a priori data nel problema; non fa differenza se tanto per cominciare è l’1% o il 10% delle donne ad avere un cancro. “Fai più attenzione alle frequenze a priori!” è una delle molte cose che gli umani dovrebbero ricordarsi sempre per compensare parzialmente le nostre inadeguatezze innate.

Un errore simile consiste nel fare troppa attenzione a p(X \vert A) e non abbastanza a p(X \vert \neg A) nel determinare quanto X è evidenza di A. Il grado in cui un risultato X è evidenza per A dipende non solo dalla forza dell’affermazione “ci aspettiamo di vedere X se è vero A“, ma anche dalla forza dell’affermazione “ci aspettiamo di non vedere se A non è vero. Per esempio, il fatto che stia piovendo implica molto fortemente che l’erba sia bagnata – p(erba.bagnata \vert pioggia) \sim 1 – ma vedere che l’erba è bagnata non significa necessariamente che abbia appena piovuto; magari era accesa l’irrigazione del prato, o si tratta della rugiada del mattino. Poiché p(erba.bagnata \vert \neg pioggia) è significativamente maggiore di zero, p(erba.bagnata \vert pioggia) è significativamente minore di uno. D’altra parte, se l’erba non fosse mai bagnata quando non piove, allora sapere che l’erba è bagnata mostrerebbe sempre che ha piovuto, p(pioggia \vert erba.bagnata) \sim 1 , anche se p(erba.bagnata \vert pioggia)=50\% ; cioè, anche se l’erba si bagnasse solo il 50% delle volte che piove. L’evidenza è sempre il risultato del differenziale tra le due probabilità condizionali. Un’evidenza forte non è il prodotto di una probabilità molto alta che A porti a X, ma il prodotto di una probabilità molto bassa che non-A possa portare a X.

La rivoluzione bayesiana delle scienze è alimentata non solo da sempre più scienziati cognitivi che improvvisamente si accorgono che i fenomeni mentali hanno una struttura bayesiana; non solo da scienziati in tutti i campi che imparano a giudicare i loro metodi statistici confrontandoli con il metodo bayesiano; ma anche dall’idea che la scienza stessa è un caso paticolare del Teorema di Bayes; l’evidenza sperimentale è evidenza bayesiana. I rivoluzionari bayesiani ritengono che quando effettui un esperimento e ottieni evidenza che “conferma” o “smentisce” la tua teoria, questa conferma o smentita è guidata dalle regole bayesiane. Per esempio, devi tenere conto non solo del fatto che la teoria preveda il fenomeno, ma anche se esistono altre possibili spiegazioni che prevedono lo stesso fenomeno. In precedenza, la filosofia della scienza più popolare era probabilmente il falsificazionismo di Karl Popper – questa è la vecchia filosofia che la rivoluzione bayesiana sta attualmente rimpiazzando. L’idea di Karl Popper che le teorie possano essere definitivamente falsificate, ma mai definitivamente confermate, è un altro caso speciale delle regole bayesiane; se p(X \vert A) \sim 1 – cioè se la teoria fa una previsione sicura – allora l’osservazione che \neg X falsifica fortemente A. D’altra parte, se p(X \vert A) \sim 1 , e osserviamo X, questo non conferma definitivamente la teoria; ci può essere qualche altra condizione B tale che p(X \vert B) \sim 1 , nel qual caso osservare X non favorisce A rispetto a B. Perché l’osservazione confermi definitivamente A, noi dovremmo sapere non che p(X \vert A) \sim 1 , ma che p(X \vert \neg A) \sim 0 , che è qualcosa che non possiamo sapere, in quanto non possiamo esaminare tutte le possibili spiegazioni alternative. Per esempio, quando la teoria della Relatività Generale di Einstein ha ribaltato la teoria incredibilmente ben confermata della gravitazione di Newton, risultò che tutte le previsioni di Newton erano solo un caso particolare delle previsioni di Einstein.

Si può persino formalizzare matematicamente la filosofia di Popper. Il coefficiente di verosimiglianza per , \frac{p(X \vert A)}{p(X \vert \neg A)}, determina quanto l’osservazione di X sposti la probabilità di A; il coefficiente di verosimiglianza è quello che dice quanto è forte X come evidenza. Bene, nella tua teoria A, puoi predire con probabilità 1, se vuoi; ma non puoi controllare il denominatore del coefficiente di verosimiglianza, p(X \vert \neg A) – ci sarà sempre qualche altra teoria alternativa che prevede X, e mentre ci accontentiamo della teoria più semplice che soddisfi l’evidenza attualmente nota, potrai sempre incontrare un giorno qualche evidenza che una teoria alternativa prevede, mentre la tua non lo fa. Questo è l’inghippo nascosto che ha ribaltato la teoria della gravitazione di Newton. Quindi c’è un limite a quanto puoi ottenere dalle previsioni confermate; c’è un limite a quanto può diventare alto il coefficiente di verosimiglianza in seguito a evidenze di conferma.

D’altra parte, se incontri un’evidenza Y che è assolutamente non prevista dalla tua teoria, questa è un’evidenza enormemente forte contro la teoria. Se p(Y \vert A) è infinitesimale, il rapporto di verosimiglianza sarà anche lui infinitesimale. Per esempio, se p(Y \vert A) è dello 0.0001%, e p(Y \vert \neg A) è dell’1%, allora il coefficiente di verosimiglianza \frac{p(Y \vert A)}{p(Y \vert \neg A)} sarà di 1:10000. -40 decibel di evidenza! O, rovesciando il coefficiente, se p(Y \vert A) è molto piccolo allora \frac{p(Y \vert \neg A)}{p(Y \vert A)} sarà molto grande, il che significa che osservare Y favorisce enormemente \neg A rispetto a A . La falsificazione è molto più forte della conferma. Questa è una conseguenza del fatto notato prima che un’evidenza molto forte non è una conseguenza di una probabilità molto alta che A porti a X, ma la conseguenza di una probabilità molto bassa che non-A possa portare a X. Questa è l’esatta regola bayesiana che sottosta al valore euristico del falsificazionismo popperiano.

Allo stesso modo, la richiesta di Popper che un’idea debba essere falsificabile può essere interpretata come una manifestazione della regola bayesiana della conservazione della probabilità; perché un risultato X sia evidenza positiva per la teoria, un risultato \neg X deve smentire la teoria a un qualche livello. Se cerchiamo di interpretare sia X che \neg X come “conferma” della teoria, la regola bayesiana ce lo impedisce! Per aumentare la probabilità di una teoria devi esporla a un test che può potenzialmente ridurre la sua probabilità; questa non è semplicemente una regola per individuare i tentativi di imbroglio nel processo sociale della scienza, ma una conseguenza della teoria della probabilità bayesiana. D’altra parte, l’idea di Popper che esiste solo la falsificazione e non esistono conferme, è scorretta. Il Teorema di Bayes mostra che la falsificazione è un’evidenza molto più forte della conferma, ma anche la falsificazione è di natura probabilistica; non è governata da regole fondamentalmente diverse dalla conferma, come invece sosteneva Popper.

E così troviamo che molti fenomeni delle scienze cognitive, più il metodo statistico usato dagli scienziati, più il metodo scientifico stesso, risultano tutti essere casi particolari del Teorema di Bayes. Da qui la rivoluzione bayesiana.


{\displaystyle p(A \vert X)=\frac{p(X \vert A) \cdot p(A)}{p(X \vert A) \cdot p(A)+p(X \vert \neg A) \cdot p(\neg A)}}


Perché aspettare così tanto per presentare il Teorema di Bayes, invece di mostrarlo subito all’inizio? Be’…. Perché ci ho già provato in passato; e quello che succede, nella mia esperienza, è che la gente si incasina cercando di applicare il Teorema di Bayes come un insieme di regole mentali senza fondamenta; così il teorema, invece di aiutare, diventa un’altra cosa ancora da ricordare a memoria, così che oltre a cercare di ricordare quante donne con cancro al seno sono positive alla mammografia, il lettore si ritrova a cercare anche di ricordare se è p(X \vert A) che va al numeratore o p(A \vert X) , e se una mammografia positiva corrisponde ad A o a X, e in che direzione va l’implicazione in p(X \vert A) , e quali sono i termini al denominatore, e così via. In questa introduzione atrocemente delicata, ho cercato di mostrare tutti i meccanismi del ragionamento bayesiano senza mai introdurre esplicitamente il teorema come qualcosa in più da dover memorizzare, sperando così di ridurre il numero dei fattori che il lettore deve maneggiare mentalmente.

Persino se sei una di quelle persone fortunate che possono facilmente assimilare e applicare teoremi astratti, il problema delle acrobazie mentali resta qualcosa da tener presente se mai dovrai spiegare il ragionamento bayesiano a qualcun altro.

Se ti accorgi che stai perdendo il filo del ragionamento, il mio consiglio è di dimenticare il Teorema di Bayes come equazione e pensare al grafico. p(A) e p(\neg A) sono in alto. p(X \vert A) e p(X \vert \neg A) sono i fattori di proiezione. p(X \cap A) e p(X \cap \neg A) sono in basso. E p(A \vert X) è uguale alla proporzione di p(X \cap A) in p(X \cap A)+p(X \cap \neg A) . Il grafico non è mostrato qui – ma puoi visualizzarlo nella tua mente?

E se pensare al grafico non funziona, suggerisco di lasciar perdere del tutto il Teorema di Bayes – cerca semplicemente di risolvere lo specifico problema in termini di sarchiaponi, tubi e scintille, o qualunque cosa siano.


Avendo presentato esplicitamente il Teorema di Bayes, possiamo discuterne esplicitamente le sue componenti.


{\displaystyle p(A \vert X)=\frac{p(X \vert A) \cdot p(A)}{p(X \vert A) \cdot p(A)+p(X \vert \neg A) \cdot p(\neg A)}}


Cominceremo da p(A \vert X) . Se mai ti sentissi confuso su qual è A e quale X nel Teorema di Bayes, comincia con p(A \vert X) al lato sinistro dell’equazione; questa è la parte più semplice da interpretare. A è la cosa di cui vogliamo sapere. X è come la stiamo osservando; X è l’evidenza che usiamo per fare inferenze su A. Ricorda che per ogni espressione della forma p(Q \vert P) , noi vogliamo sapere la probabilità di Q dato P, il grado in cui P implica Q – una notazione più sensata, che ormai è troppo tardi per adottare, sarebbe p(Q \leftarrow P) .

p(Q \vert P) è strettamente collegata a p(Q \cap P) , ma non sono la stessa cosa. Espressa come probabilità o frazione, p(Q \cap P) è la frazione di cose che hanno la proprietà Q e la proprietà P tra tutte le cose, cioè la proporzione tra “donne con cancro al seno e mammografia positiva” nel gruppo di tutte le donne. Se il numero totale di donne è 10.000, e 80 donne hanno un cancro al seno e mammografia positiva, allora p(Q \cap P) è 80/10.000 = 0.8%. Possiamo dire che la quantità assoluta, 80, viene normalizzata come una probabilità relativa al gruppo di tutte le donne. O, per renderlo più chiaro, supponiamo che ci siano 641 donne con cancro al seno e mammografia positiva in un campione totale di 89.031 donne. 641 è la quantità assoluta. Se prendiamo una donna a caso dall’intero campione, allora la probabilità di prendere una donna con cancro al seno e mammografia positiva è p(Q \cap P) , or 0,72% (in questo esempio).

Viceversa, p(Q \vert P) è la proporzione di cose che hanno la proprietà Q e la proprietà P tra tutte le cose che hanno P; cioè la proprorzione di donne con cancro al seno e positive alla mammografia, all’interno del gruppo di tutte le donne positive alla mammografia. Se ci sono 641 donne con cancro al seno e positive alla mammografia, 7915 donne positive alla mammografia e 89.031 donne in totale, p(Q \cap P) è la probabilità di trovare una di quelle 641 donne se stai scegliendo a caso dall’intero gruppo di 89,031, mentre p(Q \vert P) è la probabilità di trovare una di quelle 641 donne se stai scegliendo a caso dal gruppo ristretto di 7915.

In un certo senso, p(Q \vert P) significa veramente p(Q \cap P \vert P) , ma specificare tutte le volte l’ulteriore P sarebbe ridondante. Noi sappiamo già che ha la proprietà P, quindi la proprietà che stiamo indagando è Q – anche se in realtà stiamo confrontando la grandezza del gruppo Q \cap P con quella del gruppo P, non la grandezza del gruppo Q con quella di P (che non avrebbe senso). Questo è quel che significa prendere la proprietà a destra come data; significa che sappiamo che stiamo lavorando solo all’interno del gruppo di cose che hanno la proprietà P. Quando restringiamo il campo dell’attenzione per vedere solo questo gruppo ridotto, molte altre probabilità cambiano. Se prendiamo P come data, allora p(Q \cap P) diventa semplicemente p(Q) – almeno, relativamente al gruppo P. La vecchia p(Q), la “frequenza delle cose che hanno la proprietà P nell’intero campione”, è sostituita dalla nuova frequenza delle “cose che hanno la proprietà Q all’interno del sottoinsieme degli elementi del campione che hanno la proprietà P”. Se P è data, se P è il nostro intero mondo, allora cercare Q \cap P è la stessa cosa che cercare semplicemente Q.

Se restringi il campo dell’attenzione alla popolazione delle sole uova blu, improvvisamente la “probabilità che un uovo contenga una perla” diventa un numero differente; questa proporzione è diversa per la popolazione delle uova blu che per la popolazione di tutte le uova. Il dato, la proprietà che limita il campo di attenzione, è sempre sul lato destro di p(Q \vert P) ; P diventa il nostro mondo, tutto quello che vediamo, e come effetto del “dato”, P avrà sempre probabilità 1 – che è quello che significa prendere P per dato. Quindi p(Q \vert P) significa “Se P ha probabilità 1, qual è la probabilità di Q?” o “Se limitiamo la nostra attenzione alle sole cose o eventi in cui P è vera, qual è la probabilità di Q?” Q, sull’altro lato del “dato”, non è certa – la sua probabilità può essere 10% o 90% o qualsiasi altro numero. Quindi quando usiamo il Teorema di Bayes, e scriviamo la lato sinistro p(A \vert X) – come modificare la probabilità di A dopo aver visto X, la nuova probabilità di A dato che conosciamo X, il grado in cui X implica A – sappiamo che X è sempre l’osservazione o l’evidenza, mentre A è la proprietà che stiamo investigando, la cosa che vogliamo scoprire.


Il lato di destra del Teorema di Bayes è derivato dal lato di sinistra mediante questi passaggi:

{\displaystyle p(A \vert X)=p(A \vert X)}

{\displaystyle p(A \vert X)=\frac{p(X \cap A)}{p(X)}}

{\displaystyle p(A \vert X)=\frac{p(X \cap A)}{p(X \cap A)+p(X \cap \neg A)}}

{\displaystyle p(A \vert X)=\frac{p(X \vert A) \cdot p(A)}{p(X \vert A) \cdot p(A)+p(X \vert \neg A) \cdot p(\neg A)}}

Il primo passo, da p(A \vert X) a \frac{p(X \cap A)}{p(X)} , può sembrare quasi una tautologia. Il calcolo effettuato è però differente. p(A \vert X) è un singolo numero, la probabilità normalizzata o frequenza di A nel sottogruppo X. \frac{p(X \cap A)}{p(X)} sono in genere le frequenze percentuali di X \cap A e X nell’intero campione, ma il calcolo funziona anche se X \cap A e X sono numeri di persone, eventi o cose. p(cancro \vert positivo) è una singola percentuale/frequenza/probabilità, sempre compresa tra 0 e 1. \frac{positivo \cap cancro}{positivo} può essere misurato sia in probabilità, ad esempio \frac{0,008}{0,103} , o può essere espresso in gruppi di donne, ad esempio \frac{194}{2494} . Fintanto che numeratore e denominatore sono misurati nelle stesse unità, non fa differenza.

Sostituire p(X) al denominatore con p(X \cap A)+p(X \cap \neg A) è un passaggio molto diretto il cui scopo principale è di fare un passo verso l’equazione finale. Tuttavia, un errore comune nei calcoli bayesiani consiste nel dividere p(X \cap A) per p(X \cap \neg A) , invece di dividere p(X \cap A) per p(X \cap A)+p(X \cap \neg A) . Per esempio, facendo i calcoli sul cancro al seno, qualcuno cerca di ottenere la probabilità a posteriori calcolando \frac{80}{950} , invece che \frac {80}{80+950} . Mi piace classificare questo come un errore rose-fiori. A volte, facendo vedere a un bambino piccolo un disegno con otto rose e due tulipani, dirà che l’immagine contiene più rose che fiori (tecnicamente, questo dovrebbe essere chiamato errore di inclusione). Devi sommare le rose ai tulipani per ottenere il numero dei fiori, di cui hai bisogno per trovare la proporzione delle rose nei fiori. Non puoi partire cercando la proporzione tra rose e tulipani, o tra tulipani e rose. Guardando il grafico, la barra inferiore consiste di tutte le pazienti con risultato positivo. È questo che il medico ha davanti: una paziente con risultato positivo. La domanda allora diventa se si tratta di una paziente sana con risultato positivo, o una paziente affetta da cancro con risultato positivo. Per calcolare questa probabilità, dobbiamo cercare la proporzione tra le pazienti con cancro e con risultato positivo tra tutte le pazienti con risultato positivo perché, di nuovo, “una paziente con risultato positivo” è quello che hai effettivamente davanti. Non puoi dividere 80 per 950 perché questo significherebbe cercare la proporzione delle pazienti con cancro e risultato positivo tra le pazienti sane con risultato positivo; è come chiedersi quanti tulipani sono rose, invece di chiedere quanti fiori sono rose. Immaginiamo di usare lo stesso metodo per cercare la percentuale di pazienti sane. Divideremmo 950 per 80 per trovare che il 1187% delle pazienti sono sane. O, per essere precisi, troveremmo che il 1187% delle pazienti con cancro e risultato positivo sono pazienti sane con risultato positivo.

L’ultimo passaggio per la derivazione del Teorema di Bayes consiste nel passare da p(X \cap A) a p(X \vert A) \cdot p(A), sia al numeratore che al denominatore, e da p(X \cap \neg A) a p(X \vert \neg A) \cdot p(\neg A) al denominatore.

Perché? Beh, una risposta è perché p(X \vert A) , p(X \vert \neg A) e p(A) corrispondono alle informazioni iniziali di tutti i problemi che abbiamo visto. Ma perché i problemi sono scritti in quel modo?

Perché in molti casi p(X \vert A) , p(X \vert \neg A) e p(A) sono davvero quello che conosciamo; e questo a sua volta succede perché p(X \vert A) e p(X \vert \neg A) sono spesso le quantità che descrivono direttamente relazioni causali, con le altre quantità derivate da loro e da p(A) come relazioni statistiche. Per esempio, p(X \vert A) , l’implicazione da A a X, dove A quello che vogliamo conoscere e X è il nostro modo per osservarlo, corrisponde all’implicazione tra la presenza di un cancro al seno e una mammografia positiva. Questa non è semplicemente una implicazione statistica ma una relazione causale diretta; una donna è positiva alla mammografia perché ha un cancro al seno. La mammografia è progettata per riconoscere il cancro al seno, ed è un fatto relativo al processo fisico della mammografia che abbia l’80% di probabilità di riconoscere il cancro al seno. Finché il progetto della macchina usata per la mammografia resta costante, p(X \vert A) rimarrà dell’80%, anche se cambia il valore di p(A) – ad esempio, se applichiamo uno screening a un gruppo di donne con altri fattori di rischio, tali che la frequenza a priori di cancro sia del 10% anziché dell’1%. In questo caso, p(X \cap A) cambierà insieme a p(A), e così pure p(X), p(A \vert X) , e così via; ma p(X \vert A) resta all’80%, perché questo è un fatto relativo all’esame mammografico stesso. (Anche se dovremmo verificare questa affermazione prima di farci affidamento; è possibile che ad esempio la mammografia funzioni meglio con alcune forme di cancro al seno che con altre). p(X \vert A) è uno dei fatti semplici da cui vengono ricavati dati complessi come p(X \cap A) ; p(X \vert A) è una relazione causale elementare all’interno di un sistema complesso, e ha una diretta interpretazione fisica. questo è perché il Teorema di Bayes ha la forma che ha; non per risolvere rompicapo matematici, ma per ragionare sull’universo fisico.

Una volta terminata la derivazione, tutte le implicazioni nel lato destro dell’equazione sono nella forma p(X \vert A) o p(X \vert \neg A) , mentre l’implicazione al lato sinistro è p(A \vert X) . Fintanto che ricordi questo, e mantieni correttamente il resto dell’equazione, non ha importanza se parti con p(A \vert X) o con p(X \vert A) al lato sinistro dell’equazione, purché le regole siano applicate in modo consistente – se cominci con la direzione di implicazione p(X \vert A) al lato sinistro, è necessario proseguire con la direzione p(A \vert X) al lato destro. Questo, naturalmente, è solo un cambiare i nomi delle variabili; il punto è di ricordare la simmetria, in modo da ricordare la struttura del Teorema di Bayes.

La simmetria sorge dal fatto che le relazioni causali elementari sono in genere implicazioni da fatti a osservazioni, ad esempio, da cancro al seno a mammografia positiva. I passi di ragionamento elementari sono in genere implicazioni da osservazioni a fatti, ad esempio, da una mammografia positiva al cancro al seno. Il lato sinistro del Teorema di Bayes è un passo elementare inferenziale dall’osservazione di una mammografia positiva alla conclusione di un aumento di probabilità di cancro al seno. L’implicazione è scritta da destra a sinistra, quindi scriviamo p(cancro \vert positivo) al lato sinistro dell’equazione. Il lato destro del Teorema di Bayes descrive i passi elementari causali – ad esempio da cancro al seno a mammografia positiva – e quindi le implicazioni al lato destro del Teorema di Bayes prendono la forma p(positivo \vert cancro) o p(positivo \vert \neg cancro) .

E questo è il Teorema di Bayes. Inferenza razionale a sinistra, causalità fisica a destra; un’equazione con la mente da una parte e la realtà dall’altra. Ricordi come il metodo scientifico risulta come caso particolare del Teorema di Bayes? Volendola mettere in termini poetici, potremmo dire che il Teorema di Bayes lega il ragionamento all’universo fisico.

Bene, abbiamo finito.


Il reverendo Bayes dice:
Bayes-mugshot
Adesso sei un iniziato
della Cospirazione Bayesiana.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Chaos Legion wants you!