Cintura Nera Bayesiana (aka “steven”) cerca di spiegare l’asimmetria tra buoni argomenti e buona autorità, non sembra risolutivo nei commenti a La stupidità a rovescio non è intelligenza, per cui lasciatemi fare un tentativo:
Scenario 1: Barry è un geologo famoso. Charles è un delinquente giovanile quattordicenne, con una lunga fedina penale e occasionali episodi psicotici. Barry parlando con Arthur sostiene un’affermazione contro intuitiva sulle rocce, e Arthur giudica che l’affermazione sia probabile al 90%. Charles presenta un’affermazione altrettanto contro intuitiva sulle rocce, e Arthur le assegna un 10% di probabilità. Chiaramente, Arthur tiene conto dell’autorità di chi ha fatto l’affermazione, per decidere se crederci.
Scenario 2: David sostiene un’affermazione contro intuitiva di fisica, e fornisce ad Arthur una dettagliata spiegazione degli argomenti a favore, incluse le fonti. Ernie fa un’affermazione altrettanto contro intuitiva, ma fornisce un’argomentazione poco convincente che richiede diversi atti di fede. Sia David che Ernie affermano che questa è la migliore spiegazione che possono dare (in generale, non solo ad Arthur). Arthur assegna una probabilità del 90% all’affermazione di David dopo aver sentito la sua spiegazione, ma solo del 10% a quella di Ernie.
Potrebbe sembrare che questi due scenari siano grosso modo simmetrici: entrambi dipendono dal prendere in considerazione delle evidenze utili, autorità forte contro debole o argomentazione forte contro debole.
Ma ora supponiamo che Arthur chieda a Barry e Charles di spiegare in dettaglio le loro affermazioni e di citarne le fonti; e che Barry e Charles presentino argomentazioni altrettanto buone, e che Arthur verifichi tute le fonti da loro citate e queste effettivamente sostengano le affermazioni. Poi Arthur chiede a David ed Ernie le loro credenziali, e risulta che David ed Ernie hanno grosso modo le stesse credenziali — magari sono entrambi clown, magari sono entrambi fisici.
Supponendo che Arthur sia sufficientemente competente da comprendere tutti gli argomenti tecnici mostrati — in caso contrario sarebbero soltanto dei rumori suggestivi — sembrerebbe che Arthur dovrebbe vedere la posizione di David come molto migliore di quella di Ernie, mentre Barry ha al massimo un piccolo vantaggio su Charles.
In effetti, se gli argomenti tecnici sono abbastanza buoni, il vantaggio di Barry su Charles può essere irrilevante. Una buona argomentazione tecnica è una che elimina la necessità di appoggiarsi all’autorità di chi la espone.
Allo stesso modo, se accettiamo davvero l’affermazione di Ernie che la spiegazione che ha dato è la migliore che può dare, il che comprende tutti i passaggi inferenziali seguiti da Ernie e tiene conto di tutto il supporto che Ernie può aver avuto — citando ogni autorità a cui Ernie stesso si appoggia — allora possiamo praticamente ignorare ogni informazione sulle credenziali di Ernie. Ernie può essere un fisico o un clown, non dovrebbe avere importanza. (Di nuovo, supponendo che abbiamo abbastanza competenza tecnica da seguire completamente l’argomentazione. Altrimenti Ernie sta semplicemente pronunciando sillabe mistiche, e che noi “crediamo” o no a queste sillabe dipende molto dalla sua autorità).
Sembra quindi che ci sia un’asimmetria tra argomenti e autorità. Se conosciamo l’autorità che appoggia una posizione, siamo ancora interessati a conoscere gli argomenti a suo favore; ma se conosciamo completamente gli argomenti, abbiamo ben poco da imparare dall’autorità.
Chiaramente (dice il novizio) autorità e argomento sono due tipi di evidenza fondamentalmente diversi, una differenza non giustificabile con i noiosi e puliti metodi della teoria della probabilità Bayesiana. Perché anche se la forza dell’evidenza — 90% contro 10% — è la stessa in entrambi i casi, non si comportano allo stesso modo quando vengono combinate. Come, oh come possiamo giustificare tutto ciò?
Quella che segue è una metà della dimostrazione tecnica di come rappresentare questa differenza nella teoria della probabilità. (Il resto potete accettarlo sulla base della mia autorità personale, e verificare le fonti).
Se p(H|E1) = 90% e p(H|E2) = 9%, qual è la probabilità p(H|E1,E2)? Se imparare che E1 è vera ci porta ad assegnare una probabilità del 90% ad H, e imparare che E2 è vera ci porta ad assegnare una probabilità del 9% ad H, quale probabilità dobbiamo assegnare ad H se impariamo che E1 ed E2 sono entrambe vere? Questo è qualcosa che semplicemente non si può calcolare nella teoria della probabilità dalle sole informazioni fornite. No, l’informazione mancante non è la probabilità a priori di H. E1 e E2 possono non essere indipendenti tra loro.
Supponiamo che H sia “Il marciapiede è scivoloso”, E1 sia “L’irrigatore è acceso”, e E2 sia “È notte”. Il marciapiede diventa scivoloso a partire da 1 minuto dall’accensione dell’irrigatore, e lo rimane fino a quando si spegne, e l’irrigatore sta acceso per 10 minuti consecutivi. Quindi, se sappiamo che l’irrigatore è acceso, la probabilità che il marciapiede sia scivoloso è del 90%. L’irrigatore sta acceso per il 10% delle ore notturne, quindi se sappiamo che è notte, la probabilità che il marciapiede sia scivoloso è del 9%. Se sappiamo che è notte e l’irrigatore è acceso — cioè se conosciamo entrambi i fatti — la probabilità che il marciapiede sia scivoloso è del 90%.
Possiamo rappresentare graficamente la cosa come segue:
Notte -> Irrigatore -> Scivoloso
Il fatto che sia o no Notte causa il fatto che l’Irrigatore sia acceso o spento, e il fatto che l’Irrigatore sia acceso o spento causa il fatto che il marciapiede sia o meno Scivoloso.
La direzione delle frecce è significativa. Se io avesi scritto:
Notte -> Irrigatore <- Scivoloso
Questo avrebbe significato che, se io non so niente sullo stato dell’Irrigatore, le probabilità che sia Notte e che il marciapiede sia Scivoloso sarebbero indipendenti tra loro. Per esempio, supponiamo che io tiri il Dado Uno e il Dado Due, e sommi i risultati per ottenere un Totale:
Dado Uno -> Totale <- Dado Due
Se non mi dici la somma dei due numeri, ma solo che Dado Uno ha riportato un 6, questo non mi dice ancora nulla sul risultato di Dado Due. Ma se mi dici anche che il Totale è 7, so che Dado Due ha dato un 1.
Comprendere quando le varie parti di informazione sono dipendenti o indipendenti l’una dall’altra, date varie conoscenze al contorno, risulta essere una questione alquanto tecnica. I libri da leggere sono Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference e Causality di Judea Pearl. (Se hai solo il tempo per leggerne uno, leggi il primo).
Se sai come leggere i grafi causali, guardando il grafo dei lanci di dadi vedi immediatamente che:
p(dado1,dado2) = p(dado1)*p(dado2)
p(dado1,dado2|totale) ≠ p(dado1|totale)*p(dado2|totale)
Se guardi al diagramma corretto per il marciapiede, vedi i seguenti fatti:
p(scivoloso|notte) ≠ p(scivoloso)
p(scivoloso|irrigatore) ≠ p(scivoloso)
p(scivoloso|notte,irrigatore) = p(scivoloso|irrigatore)
Cioè la probabilità che il marciapiede sia Scivoloso, data la conoscenza dello stato di Irrigatore e Notte, è la stessa probabilità che assegneremmo se sapessimo solo dell’Irrigatore. La conoscenza dello stato dell’Irrigatore ha reso irrilevante sapere se è Notte ai fini delle inferenze sulla Scivolosità del marciapiede.
Questo fenomeno è noto come schermatura, e il criterio che ci permette di leggere dal grafo causale questa indipendenza condizionale è noto come Separazione-D.
Nel caso di argomenti e autorità, il diagramma causale mostra:
Verità -> Bontà dell’argomento -> Parere degli esperti
Se qualcosa è vero, tende necessariamente ad avere argomentazioni a suo favore, e gli esperti di conseguenza osserveranno queste evidenze e cambieranno le loro opinioni. (In teoria!)
Se vediamo che un esperto crede a qualcosa, possiamo da questo inferire all’indietro l’esistenza di un’evidenza (anche se non sappiamo esattamente quale sia questa evidenza), e dall’esistenza di questa evidenza astratta possiamo inferire la verità dell’affermazione.
Ma se noi conosciamo il valore del nodo Argomento, questo D-separa il nodo Verità dal nodo Parere degli esperti, bloccando tutti i percorsi tra questi due, secondo certi criteri tecnici di “blocco dei percorsi” che sembrano abbastanza ovvi in questo caso. Così, anche senza verificare l’esatta distribuzione di probabilità, possiamo leggere dal grafo che:
p(verità|argomenti,esperti) = p(verità|argomenti)
Questo risultato non è in contraddizione con la normale teoria della probabilità. È solo un modo più compatto di esprimere alcuni fatti probabilistici. Potresti ricavare le stesse uguaglianze e diseguaglianze dalla semplice distribuzione di probabilità — ma sarebbe più difficile da notare a occhio. Autorità e argomenti non hanno bisogno di due tipi differenti di probabilità, non più di quanto gli irrigatori da giardino siano fatti di materia ontologicamente differente dalla luce del sole.
Nella pratica, non puoi mai eliminare completamente la dipendenza dall’autorità. È più facile che una buona autorità conosca i controesempi che esistono e devono essere presi in considerazione; un’autorità minore può più facilmente ignorarli, il che rende i suoi argomenti meno affidabili. Questo non è un fattore che tu possa eliminare semplicemente sulla base delle evidenze che entrambi hanno preso in considerazione.
È anche molto difficile ridurre gli argomenti a pura matematica; e viceversa, giudicare correttamente la forza di un passaggio inferenziale può dipendere da intuizioni che non puoi duplicare senza gli stessi trent’anni di esperienza.
È inevitabilmente legittimo assegnare una probabilità leggermente più alta a quello che E. T. Jaynes ti dice sulla probabilità Bayesiana, rispetto a quella che assegneresti alla stessa identica affermazione fatta da Eliezer Yudkowsky. Cinquanta anni di esperienza aggiuntiva non possono influire letteralmente niente.
Ma questa leggera forza dell’autorità conta solo ceteris paribus, e più facilmente essere sopraffatta da argomenti più forti. Ho fatto una correzione minore a uno dei libri di Jaynes — perché l’algebra batte l’autorità.