Entropia e codifiche brevi

Articolo originale
Eliezer Yudkowsky
23 Febbraio 2008

Supponi di avere un sistema X che ha la stessa probabilità di essere in ciascuno di 8 possibili stati:

{X₁, X₂, X₃, X₄, X₅, X₆, X₇, X₈.}

C’è una quantità incredibilmente ubiqua — in fisica, matematica e persino in biologia — chiamata entropia; e l’entropia di X è di 3 bit. Questo significa che, in media, dovremo fare tre domande sì-o-no per trovare il valore di X. Per esempio, qualcuno potrebbe dirci il valore di X usando questo codice:

X₁: 001 X₂: 010 X₃: 011 X₄: 100

X₅: 101 X₆: 110 X₇: 111 X₈: 000

Così se io chiedo “il primo simbolo è 1?” e mi viene risposto “sì”, e poi chiedo “il secondo simbolo è 1?” e la risposta è “no”, e poi “il terzo simbolo è 1?” e la risposta è di nuovo “no”, saprò che X era nello stato 4.

Ora supponiamo che il sistema Y abbia 4 possibili stati con le seguenti probabilità:

Y₁: 1/2 (50%) Y₂: 1/4 (25%) Y₃: 1/8 (12.5%) Y₄: 1/8 (12.5%)

In questo caso l’entropia di Y sarà di 1.75, il che significa che possiamo trovare il suo valore ponendo 1.75 domande sì-o-no.

Cosa significa fare una domanda e tre quarti? Supponiamo di designare gli stati di usando i l seguente codice:

Y₁: 1 Y₂: 01 Y₃: 001 Y₄: 000

Per prima cosa chiedi: “Il primo simbolo è 1?” Se la risposta è “sì”, hai già finito: Y è nello stato 1. Questo succede la metà delle volte, quindi il 50% delle volte basta 1 domanda sì-o-no per trovare lo stato di Y.

Supponiamo invece che la risposta fosse “No”. Allora chiedi: “Il secondo simbolo è 1?” Se la risposta è “sì”, hai già finito: Y è nello stato 2. Y e nello stato 2 con una probabilità di 1/4, e ogni volta che Y è in stato 2 lo scopriamo usando due domande sì-o-no, quindi il 25% delle volte ci servono 2 domande per trovare lo stato di Y.

Se la risposta è di nuovo “No”, poni la terza domanda: “Il terzo simbolo è 1?” Se la risposta è “sì”, hai già finito: Y è nello stato 3; se è “no”, Y è nello stato 4. La volta su 8 che Y è in stato 3 richiede tre domande e la volta su 8 che è in stato 4 richiede ancora 3 domande.

(1/2 * 1) + (1/4 * 2) + (1/8 * 3) + (1/8 * 3)
= 0.5 + 0.5 + 0.375 + 0.375
= 1.75.

La formula generale dell’entropia di un sistema S è la somma, estesa a tutti tutti gli $S_i$ , di $-p(S_i) \cdot log_2(p(S_i))$ .

Per esempio, il logaritmo (base 2) di 1/8 è -3. Quindi $-(1/8 \cdot -3) = 0.375$ è il contributo dello stato $S_4$ all’entropia totale: 1/8 delle volte dovremo fare 3 domande.

Non si sempre trovare un codice perfetto per un sistema ma, se si deve trasmettere a qualcuno lo stato di un numero arbitrariamente grande di copie di S in un singolo messaggio, si può trovare un codice arbitrariamente vicino alla perfezione. (Cerca con Google “codifica aritmetica” per un semplice metodo).

Ora, tu potresti chiedere: “Perché non usare il codice 10 per Y₄, invece di 000? Non ci permetterebbe di trasmettere il messaggio più rapidamente?”

Ma se usi il codice 10 per Y₄ , quando qualcuno risponde “Sì” alla domanda “Il primo simbolo è 1?”, tu non sapresti se lo stato del sistema è Y₁ (1) o Y₄ (10). In effetti, se cambi il codice in questo modo, l’intero sistema smette di funzionare — perché se senti “1001”, non sai se significa “Y₄, seguito da Y₂” o “Y₁, seguito da Y₃.”

La morale è che le parole corte sono una risorsa limitata.

La chiave per creare un buon codice — un codice che trasmette i messaggi nel modo più compatto possibile — è di riservare le parole corte per cose che hai bisogno di dire frequentemente, e usare parole più lunghe per cose che non hai bisogno di dire spesso.

Quando porti quest’arte al suo limite, la lunghezza del messaggio di cui hai bisogno per descrivere qualcosa corrisponde esattamente, o quasi esattamente, alla sua probabilità. Questa è la formalizzazione del Rasoio di Occam come Descrizione di Lunghezza Minima o Messaggio a Lunghezza Minima.

E così, persino le etichette che usiamo per le parole non sono del tutto arbitrarie. I suoni che colleghiamo ai nostri concetti possono essere migliori o peggiori, più saggi o più stupidi. Indipendentemente persino da considerazioni riguardanti l’uso comune!

Dico tutto questo perché l’idea che “Puoi fare X in qualunque modo preferisci” è un grosso ostacolo all’apprendere a fare X in modo sensato. “È un paese libero; ho diritto alle mie opinioni” intralcia l’arte di trovare la verità. “Posso definire una parola come preferisco” intralcia l’arte di dividere la realtà alle giunture naturali. E persino l’affermazione apparentemente sensata “Le etichette che attacchiamo alle parole sono arbitrarie” intralcia la consapevolezza della compattezza. E anche la metrica, se è per questo — Tolkien osservò una volta quanto fosse bello il suono della frase “cellar door”; questo è il tipo di consapevolezza necessaria per usare il linguaggio come Tolkien.

La lunghezza delle parole ha anche un ruolo non banale nelle scienze cognitive del linguaggio:

Consideriamo le parole “poltrona”, “sedia”, e “mobilio”. Poltrona è una categoria più specifica di sedia; mobilia è una categoria più generica di sedia. Ma la grande maggioranza delle sedie hanno un uso comune — utilizzi lo stesso tipo di azioni motorie per sedertici sopra, e ti ci siedi per lo stesso tipo di usi (per togliere il tuo peso dai piedi mentre mangi, o leggi, o scrivi o riposi). Le poltrone non si allontanano da questo schema. “Mobilio”, d’altra parte, comprende cose come letti e tavoli che hanno usi differenti, e richiedono funzioni motorie diverse, dalle sedie.

Nella terminologia della psicologia cognitiva, “sedia” è una categoria base.

Le persone hanno la tendenza a parlare, e presumibilmente a pensare, al livello base di categorizzazione — tracciare il confine intorno a “sedia”, piuttosto che alla categoria più specifica “poltrona” o alla più generale “mobilio”. Le persone dicono più facilmente “Puoi sederti su quella sedia” piuttosto che “puoi sederti su quella poltrona” o “puoi sederti su quel mobile”.

E non è una coincidenza che la parola per “sedia” contenga meno sillabe sia di “poltrona” che di “mobile” [NdT. Questo è molto più vero in inglese che in italiano]. Le categorie a livello base, in generale, tendono ad avere nomi corti; e le parole corte tendono in genere a riferirsi a categorie a livello base. Non è una regola perfetta, ovviamente, ma una tendenza riconoscibile. L’uso frequente si accompagna a parole corte; le parole corte con l’uso frequente.

O, come dice Douglas Hofstadter, c’è un motivo se usiamo “il” per dire “il” e “precipitevolissimevolmente” per intendere “precipitevolissimevolmente”, invece di fare precipitevolissimevolmente contrario.

Cospirazione Bayesiana

Entropia e codifiche brevi

Lascia un commento Annulla risposta

Chaos Legion wants you!

X₁: 001	X₂: 010	X₃: 011	X₄: 100
X₅: 101	X₆: 110	X₇: 111	X₈: 000

Condividi:

Lascia un commento Annulla risposta

Chaos Legion wants you!