Mutua informazione e densità nello spazio delle cose

Articolo originale
Eliezer Yudkowsky
23 Febbraio 2008

Supponiamo di avere un sistema X che può essere in uno di 8 stati, che sono tutti equiprobabili (relativamente al tuo attuale stato di conoscenza), e un sistema Y che può essere in uno di4 stati, tutti equiprobabili.

L’entropia di X, come definita ieri, è di 3 bit: dobbiamo porre 3 domande sì-o-no per scoprire lo stato di X. L’entropia di Y, sempre come definita ieri, è di 2 bit: dobbiamo porre 2 domande sì-o-no per conoscere lo stato di Y. Questo può sembrare ovvio, dato che 23=8 e 22=4, quindi 3 domande possono distinguere 8 possibilità, mentre 2 domande possono distinguerne 4; ma ricorda che se le possibilità non sono tutte equiprobabili, possiamo utilizzare un codice più furbo per trovare lo stato di Y usando ad esempio mediamente 1,75 domande. In questo caso tuttavia la massa di probabilità di X è distribuita equamente tra tutti i possibili stati, e lo stesso vale per Y, quindi non possiamo usare nessun codice furbo.

Qual è l’entropia del sistema combinato (X,Y)?

Potremmo essere tentati di rispondere: “Ci vogliono 3 domande per scoprire lo stato di X, e altre 2 per lo stato di Y, quindi ci vogliono in totale 5 domande per trovare gli stati di X e Y.”

Ma cosa succede se le due variabili sono collegate, in modo tale che conoscere lo stato di Y ci dice qualcosa sullo stato di X?

In particolare, supponiamo che X e Y siano o entrambi pari o entrambi dispari.

Ora, se riceviamo un messaggio di 3 bit (facciamo 3 domande) e impariamo che X è nello stato 5, sappiamo che Y è nello stato 1 o nello stato 3, ma non negli stati 2 e 4. Così una singola domanda aggiuntiva “Y è nello stato 3?”, a cui viene risposto “No”, ci dice l’intero stato di (X,Y): X=X5, Y=Y1. E l’abbiamo imparato con un totale di 4 domande.

Viceversa, se impariamo che Y è in stato 4 facendo due domande, serviranno solo altre due domande per scoprire se X è in stato 2, 4, 6, o 8. Di nuovo, quattro domande per imparare lo stato del sistema congiunto.

La mutua informazione di due variabili è definita come la differenza tra l’entropia del sistema congiunto e l’entropia dei sistemi indipendenti: I(X;Y)=H(X)+H(Y)-H(X,Y).

Nel nostro caso c’è un bit di informazione mutua tra i due sistemi: imparare lo stato di X ci fornisce un bit di informazione sullo stato di Y (riduce lo spazio delle possibilità da 4 a 2, una diminuzione di volume di un fattore 2) e imparare lo stato di Y ci dà un bit di informazione su X (riducendo lo spazio delle possibilità da 8 a 4).

E se la massa di probabilità non fosse distribuita uniformemente? Ieri, per esempio, abbiamo discusso il caso in cui Y aveva le probabilità 1/2, 1/4, 1/8 e 1/8 per i suoi quattro stati. Prendiamo questa come distribuzione di probabilità per Y, considerato indipendentemente – se guardiamo Y, senza vedere nient’altro, questo è quello che ci aspetteremmo di vedere. E supponiamo che la variabile Z abbia due stati, 1 e 2, con probabilità 3/8 e 5/8 rispettivamente.

Allora, se e solo se la la distribuzione congiunta di probabilità tra Y e Z è come segue, la mutua informazione tra Y e Z è zero:

Z1Y1: 3/16 Z1Y2: 3/32 Z1Y3: 3/64 Z1Y3: 3/64
Z2Y1: 5/16 Z2Y2: 5/32 Z2Y3: 5/64 Z2Y3: 5/64

Questa distribuzione ubbidisce alla legge:

p(Y,Z) = P(Y)P(Z)

Ad esempio, P(Z_1,Y_2)=P(Z_1) \cdot P(Y2)= \frac{3}{8} \cdot \frac{1}{4}= \frac{3}{32} .

E osserviamo che possiamo recuperare le probabilità marginali (indipendenti) di Y e Z guardando solo la distribuzione congiunta:

P(Y1) = probabilità totale di tutti i modi diversi in cui compare Y1
=P(Z_1,Y_1)+P(Z_2,Y_1)
= \frac{3}{16}+ \frac{5}{16}
= \frac{1}{2}

E così, esaminando solo la distribuzione congiunta, possiamo determinare se le variabili marginali Y e Z sono indipendenti; cioè se la distribuzione congiunta si fattorizza nel prodotto delle distribuzioni marginali; se, per ogni Y e Z, P(Y,Z) = P(Y)P(Z).

Quest’ultimo fatto è significativo perché, per la Regola di Bayes:

P(Y_i,Z_j)=P(Y_i) \cdot P(Z_j)
frac{P(Y_i,Z_j)}{P(Z_j)}=P(Y_i)
P(Y_i \vert Z_j) = P(Y_i)

Che si traduce in, “Dopo aver imparato che Zj, la tua idea su Yi è esattamente quella di prima.”

Quindi, il fatto che la distribuzione si fattorizzi — quando P(Y,Z)=P(Y)P(Z) — è equivalente a dire “Imparare qualcosa su Y non ci dice mai nulla su Z e viceversa”.

Dal che potreste sospettare, correttamente, che non ci sia mutua informazione tra Y e Z. Dove non c’è mutua informazione non c’è evidenza bayesiana, e viceversa.

Supponiamo di aver trattato, nella distribuzione YZ di cui sopra, ogni possibile combinazione di Y e Z come evento separato — così che la distribuzione YZ avrebbe un totale di 8 possibilità, con le probabilità già indicate — e che poi calcoliamo l’entropia della distribuzione YZ allo stesso modo in cui calcoleremmo l’entropia di una qualsiasi distribuzione:

\frac{3}{16} \cdot \log_2(\frac{3}{16})+\frac{3}{32} \cdot \log_2(\frac{3}{32})+\frac{3}{64} \cdot \log_2(\frac{3}{64})+ ... +\frac{5}{64} \cdot \log_2(\frac{5}{64})

Otterremmo lo stesso totale che avremmo calcolando separatamente l’entropia di Y più l’entropia di Z. Non c’è mutua informazione tra le due variabili, quindi la nostra incertezza sullo stato del sistema congiunto non è minore della nostra incertezza sui due sistemi considerati separatamente. (Non mostrerò tutti i calcoli, ma potete farli da soli; e non mostrerò la dimostrazione che questo è vero in generale, ma potete cercare con Google “entropia di Shannon” e “mutua informazione”).

Cosa succede se la distribuzione congiunta non fattorizza? Per esempio:

Z1Y1: 12/64 Z1Y2: 8/64 Z1Y3: 1/64 Z1Y4: 3/64
Z2Y1: 20/64 Z2Y2: 8/64 Z2Y3: 7/64 Z2Y4: 5/64

Se sommiamo le probabilità congiunte per trovare le probabilità marginali, otteniamo che P(Y1) = 1/2, P(Z1) = 3/8, e così via — le probabilità marginali sono uguali a prima.

Ma le probabilità congiunte non sono sempre uguali al prodotto delle probabilità marginali. Per esempio, la probabilità P(Z1Y2) è uguale a \frac{8}{64} , mentre P(Z1)P(Y2) sarebbe uguale a \frac{3}{8} \cdot \frac{1}{4}=\frac{6}{64} . Cioè, la probabilità di incontrare insieme Z1 e Y2, è maggiore di quello che ci aspetteremmo basandoci solo sulle probabilità di incontrare Z1 o Y2 separatamente.

Il che a sua volta implica:

P(Z1Y2) > P(Z1)P(Y2)
P(Z1Y2)/P(Y2) > P(Z1)
P(Z1|Y2) > P(Z1)

Poiché la probabilità di P(Z1Y2) è “insolitamente alta” — cioè maggiore della probabilità che le probabilità marginali indicherebbero di default — ne segue che osservare Y2 è un’evidenza che aumenta la probabilità di Z1. E ragionando per simmetria, osservare Z1 deve favorire Y2.

Poiché ci sono almeno alcuni valori di Y che ci dicono qualcosa su Z (e viceversa) ci dev’essere mutua informazione tra le due variabili; e così troveremo — ne sono sicuro, anche se non ho effettuato i calcoli — che calcolando l’entropia di YZ troveremo un’incertezza totale minore della somma delle entropie indipendenti di Y e Z. H(Y,Z)=H(Y)+H(Z)-I(Y;Z) con tutti i valori necessariamente non negativi.

(Faccio una digressione per far notare che la simmetria dell’espressione per la mutua informazione mostra che Y deve dirci in media su Z altrettanto di quanto Z ci dice su Y. Lascio come esercizio al lettore riconciliare questo fatto con qualunque cosa abbia imparato in un corso di logica sul fatto che, se tutti i corvi sono neri, l’implicazione Corvo(x)->Nero(x) non significa che sia lecito affermare che Nero(x)->Corvo(x). Quanto sembra differente il flusso di probabilità bayesiana, dal rigido arrancare della logica — anche se questa è solo un caso degenere del primo).

“Ma,” chiederai, “cos’ha a che fare tutto questo con l’uso corretto delle parole?”

In Etichette Vuote e poi in Sostituisci il Simbolo con la Sostanza, abbiamo visto la tecnica di sostituire una parola con la sua definizione — l’esempio utilizzato era:

Tutti i [mortale, ~penne, bipede] sono mortali.
Socrate è un [mortale, ~penne, bipede].
Quindi, Socrate è mortale.

Perché allora dovremmo volere una parola per “uomo”? Perché non dire semplicemente “Socrate è un bipede implume mortale”?

Perché è utile avere parole corte per le cose che si incontrano spesso. Se il tuo codice per descrivere proprietà semplici è già efficiente, non sarebbe vantaggioso avere una parola speciale per indicare una congiunzione — come “uomo” per “bipede implume mortale” — a meno che le cose che sono bipedi e implumi e mortali, non si trovino più spesso di quanto le probabilità marginali non poterebbero a prevedere.

Nei codici efficienti, la lunghezza di una parola corrisponde alla probabilità — così il codice per Z1Y2 sarà lungo esattamente come il codice per Z1 più il codice per Y2, a meno che P(Z1Y2) > P(Z1)P(Y2), nel qual caso il codice per la parola sarà più corto della somma dei codici delle sue parti.

E questo a sua volta corrisponde esattamente al caso in cui possiamo inferire alcune proprietà di una cosa guardando le altre sue proprietà. Dev’essere più probabile del default che i bipedi implumi siano anche mortali.

Naturalmente la parola “uomo” descrive in realtà molte più proprietà — quando vedi un’entità di forma umana che parla e porta vestiti, ne puoi inferire una quantità di fatti anatomici, biochimici e cognitivi. Sostituire la parola “uomo” con una descrizione di tutto ciò che sappiamo degli uomini richiederebbe di perdere una quantità assurda di tempo nel parlare. Ma questo è vero solo perché è molto più probabile del default che un bipede implume che parla sia avvelenabile dalla cicuta, abbia le unghie larghe o sia presuntuoso.

Avere una parola per una cosa, piuttosto che limitarsi a elencare le sue proprietà, è un codice più compatto esattamente in quei casi in cui possiamo inferire alcune di queste proprietà dalle altre. (Con la possibile eccezione delle parole molto primitive, come “rosso”, che usiamo per fornire una versione totalmente non compressa delle nostre esperienze sensorie. Ma quando incontriamo un insetto, o anche solo una roccia, stiamo trattando collezioni complesse di proprietà, molto al di sopra del livello delle primitive).

Quindi avere una parola “wiggin” per le persone con occhi verdi e capelli neri, è più utile che dire “persona con occhi verdi e capelli neri”, esattamente quando:

  1. Le persone con occhi verdi hanno più spesso della media i capelli neri (e viceversa), il che significa che possiamo inferire probabilisticamente gli occhi verdi dai capelli neri e viceversa; or
  2. I Wiggins condividono altre proprietà che possono essere inferite a una probabilità maggiore del default. In questo caso dobbiamo osservare separatamente gli occhi verdi e i capelli neri; ma, dopo aver osservato indipendentemente entrambe le proprietà, possiamo inferire probabilisticamente altre proprietà (come la passione per il ketchup).

Si può persino considerare l’atto di definire una parola come una promessa in questo senso. Dire a qualcuno, “Definisco la parola ‘wiggin’ per indicare una persona con occhi verdi e capelli neri”, per un’implicazione di Grice, corrisponde ad affermare che la parola “wiggin” aiuterà in qualche modo a fare inferenze o ad accorciare i messaggi.

Se occhi verdi e capelli neri non hanno una probabilità maggiore del default di essere osservati insieme, né ci sono altre proprietà che li accompagnano con una probabilità maggiore del default, allora la parola “wiggin” è una menzogna: la parola sostiene che certe persone vanno distinte come gruppo, ma non è vero.

In questo caso la parola “wiggin” non aiuta a descrivere la realtà in modo più compatto — non è definita da qualcuno per inviare il messaggio più breve possibile — non ha un ruolo nella spiegazione più semplice. Allo stesso modo, la parola “wiggin” non sarà di nessun aiuto per fare inferenze bayesiane. Anche se non la chiami una menzogna, è sicuramente un errore.

E il modo per dividere la realtà alle giunzioni naturali, è di definire i tuoi confini intorno a concentrazioni inusuali di densità di probabilità nello Spazio delle Cose.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Chaos Legion wants you!