Entropia e codifiche brevi

Articolo originale
Eliezer Yudkowsky
23 Febbraio 2008

Supponi di avere un sistema X che ha la stessa probabilità di essere in ciascuno di 8 possibili stati:

{X1, X2, X3, X4, X5, X6, X7, X8.}

C’è una quantità incredibilmente ubiqua — in fisica, matematica e persino in biologia — chiamata entropia; e l’entropia di X è di 3 bit. Questo significa che, in media, dovremo fare tre domande sì-o-no per trovare il valore di X. Per esempio, qualcuno potrebbe dirci il valore di X usando questo codice:

X1: 001 X2: 010 X3: 011 X4: 100
X5: 101 X6: 110 X7: 111 X8: 000

Così se io chiedo “il primo simbolo è 1?” e mi viene risposto “sì”, e poi chiedo “il secondo simbolo è 1?” e la risposta è “no”, e poi “il terzo simbolo è 1?” e la risposta è di nuovo “no”, saprò che X era nello stato 4.

Ora supponiamo che il sistema Y abbia 4 possibili stati con le seguenti probabilità:

Y1: 1/2 (50%) Y2: 1/4 (25%) Y3: 1/8 (12.5%) Y4: 1/8 (12.5%)

In questo caso l’entropia di Y sarà di 1.75, il che significa che possiamo trovare il suo valore ponendo 1.75 domande sì-o-no.

Cosa significa fare una domanda e tre quarti? Supponiamo di designare gli stati di usando i l seguente codice:

Y1: 1 Y2: 01 Y3: 001 Y4: 000

Per prima cosa chiedi: “Il primo simbolo è 1?” Se la risposta è “sì”, hai già finito: Y è nello stato 1. Questo succede la metà delle volte, quindi il 50% delle volte basta 1 domanda sì-o-no per trovare lo stato di Y.

Supponiamo invece che la risposta fosse “No”. Allora chiedi: “Il secondo simbolo è 1?” Se la risposta è “sì”, hai già finito: Y è nello stato 2. Y e nello stato 2 con una probabilità di 1/4, e ogni volta che Y è in stato 2 lo scopriamo usando due domande sì-o-no, quindi il 25% delle volte ci servono 2 domande per trovare lo stato di Y.

Se la risposta è di nuovo “No”, poni la terza domanda: “Il terzo simbolo è 1?” Se la risposta è “sì”, hai già finito: Y è nello stato 3; se è “no”, Y è nello stato 4. La volta su 8 che Y è in stato 3 richiede tre domande e la volta su 8 che è in stato 4 richiede ancora 3 domande.

(1/2 * 1) + (1/4 * 2) + (1/8 * 3) + (1/8 * 3)
= 0.5 + 0.5 + 0.375 + 0.375
= 1.75.

La formula generale dell’entropia di un sistema S è la somma, estesa a tutti tutti gli S_i , di -p(S_i) \cdot log_2(p(S_i)) .

Per esempio, il logaritmo (base 2) di 1/8 è -3. Quindi -(1/8 \cdot -3) = 0.375 è il contributo dello stato S_4 all’entropia totale: 1/8 delle volte dovremo fare 3 domande.

Non si sempre trovare un codice perfetto per un sistema ma, se si deve trasmettere a qualcuno lo stato di un numero arbitrariamente grande di copie di S in un singolo messaggio, si può trovare un codice arbitrariamente vicino alla perfezione. (Cerca con Google “codifica aritmetica” per un semplice metodo).

Ora, tu potresti chiedere: “Perché non usare il codice 10 per Y4, invece di 000? Non ci permetterebbe di trasmettere il messaggio più rapidamente?”

Ma se usi il codice 10 per Y4 , quando qualcuno risponde “Sì” alla domanda “Il primo simbolo è 1?”, tu non sapresti se lo stato del sistema è Y1 (1) o Y4 (10). In effetti, se cambi il codice in questo modo, l’intero sistema smette di funzionare — perché se senti “1001”, non sai se significa “Y4, seguito da Y2” o “Y1, seguito da Y3.”

La morale è che le parole corte sono una risorsa limitata.

La chiave per creare un buon codice — un codice che trasmette i messaggi nel modo più compatto possibile — è di riservare le parole corte per cose che hai bisogno di dire frequentemente, e usare parole più lunghe per cose che non hai bisogno di dire spesso.

Quando porti quest’arte al suo limite, la lunghezza del messaggio di cui hai bisogno per descrivere qualcosa corrisponde esattamente, o quasi esattamente, alla sua probabilità. Questa è la formalizzazione del Rasoio di Occam come Descrizione di Lunghezza Minima o Messaggio a Lunghezza Minima.

E così, persino le etichette che usiamo per le parole non sono del tutto arbitrarie. I suoni che colleghiamo ai nostri concetti possono essere migliori o peggiori, più saggi o più stupidi. Indipendentemente persino da considerazioni riguardanti l’uso comune!

Dico tutto questo perché l’idea che “Puoi fare X in qualunque modo preferisci” è un grosso ostacolo all’apprendere a fare X in modo sensato. “È un paese libero; ho diritto alle mie opinioni” intralcia l’arte di trovare la verità. “Posso definire una parola come preferisco” intralcia l’arte di dividere la realtà alle giunture naturali. E persino l’affermazione apparentemente sensata “Le etichette che attacchiamo alle parole sono arbitrarie” intralcia la consapevolezza della compattezza. E anche la metrica, se è per questo — Tolkien osservò una volta quanto fosse bello il suono della frase “cellar door”; questo è il tipo di consapevolezza necessaria per usare il linguaggio come Tolkien.

La lunghezza delle parole ha anche un ruolo non banale nelle scienze cognitive del linguaggio:

Consideriamo le parole “poltrona”, “sedia”, e “mobilio”. Poltrona è una categoria più specifica di sedia; mobilia è una categoria più generica di sedia. Ma la grande maggioranza delle sedie hanno un uso comune — utilizzi lo stesso tipo di azioni motorie per sedertici sopra, e ti ci siedi per lo stesso tipo di usi (per togliere il tuo peso dai piedi mentre mangi, o leggi, o scrivi o riposi). Le poltrone non si allontanano da questo schema. “Mobilio”, d’altra parte, comprende cose come letti e tavoli che hanno usi differenti, e richiedono funzioni motorie diverse, dalle sedie.

Nella terminologia della psicologia cognitiva, “sedia” è una categoria base.

Le persone hanno la tendenza a parlare, e presumibilmente a pensare, al livello base di categorizzazione — tracciare il confine intorno a “sedia”, piuttosto che alla categoria più specifica “poltrona” o alla più generale “mobilio”. Le persone dicono più facilmente “Puoi sederti su quella sedia” piuttosto che “puoi sederti su quella poltrona” o “puoi sederti su quel mobile”.

E non è una coincidenza che la parola per “sedia” contenga meno sillabe sia di “poltrona” che di “mobile” [NdT. Questo è molto più vero in inglese che in italiano]. Le categorie a livello base, in generale, tendono ad avere nomi corti; e le parole corte tendono in genere a riferirsi a categorie a livello base. Non è una regola perfetta, ovviamente, ma una tendenza riconoscibile. L’uso frequente si accompagna a parole corte; le parole corte con l’uso frequente.

O, come dice Douglas Hofstadter, c’è un motivo se usiamo “il” per dire “il” e “precipitevolissimevolmente” per intendere “precipitevolissimevolmente”, invece di fare precipitevolissimevolmente contrario.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Chaos Legion wants you!