Categorie neurali

Articolo originale
Eliezer Yudkowsky
10 Febbraio 2008

In Distinzioni Mascherate, ho parlato di un compito di classificazione di “blovi” e “rubi”. Il blovo tipico è blu, ovale, pelliccioso, cedevole, opaco, luccica al buio e contiene vanadio. Il rubo tipico è rosso, cubico, liscio, duro, traslucido, non luccica al buio e contiene palladio. Per semplicità, dimentichiamoci le caratteristiche di cedevolezza/durezza e opacità/traslucenza. Questo ci lascia con cinque dimensioni nello spazio delle cose: Colore, forma, superficie, luminosità e contenuto.

Supponiamo che io voglia creare una Rete Neurale Artificiale (RNA) per prevedere caratteristiche non osservate dei blovi da quelle osservate. A supponiamo che io sia alquanto naive sulle RNA: ho letto eccitanti libri divulgativi di scienza su come le reti neurali siano distribuite, emergenti e parallele proprio come il cervello umano!! ma non sono capace di derivare le equazioni differenziali per la discesa del gradiente in una rete multilivello non ricorsiva a funzione sigmoide (che è in realtà molto più semplice di quanto sembri).

Quindi potrei disegnare una rete neurale che assomigli a qualcosa di questo tipo:

Rete 1Colore+Blu-RossoForma+Uovo-CuboLuminosità+Brilla-BuioSuperficie+Pelliccioso-LiscioContenuto+Vanadio-PalladioRete 1bVita+Mortale-ImmortaleUnghie+Larghe-ArtigliPenne+No-SìGambe+2-17Sangue+Rosso-Verde fosforescente

La rete 1 serve a classificare i blovi e i rubi. Ma siccome “blovo” è un concetto sintetico e non familiare, ho anche incluso una rete simile 1b per distinguere gli uomini dai Mostri Spaziali, con informazioni da Aristotele (“Tutti gli uomini sono mortali”) e dall’Accademia di Platone (“Bipede implume con unghie larghe”).

Una rete neurale richiede una regola di apprendimento. L’idea ovvia è che quando due nodi sono spesso attivi contemporaneamente, dovremmo aumentare la connessione tra loro – questa è una delle prime regole mai proposte per addestrare una rete neurale, nota come la Regola di Hebb.

Così, se vedi spesso cose che sono sia blu che pellicciose – che quindi attivano contemporaneamente il nodo “colore” in stato + e il nodo “superficie” in stato + – la connessione tra colore e superficie verrà rinforzata, così che colore+ attiverà superficie+, e viceversa. Se vedi cose che sono blu, a forma di uovo e contengono vanadio, questo rafforzerà una mutua connessione positiva tra colore, forma e contenuto.

Diciamo che hai già visto arrivare un sacco di blovi e di rubi dal nastro trasportatore. Ma adesso vedi qualcosa che è pelliccioso, a forma di uovo e – gasp! – rosso porpora (a cui assegneremo un livello di attivazione di “colore” di -2/3). Non hai ancora verificato la luminosità o il contenuto. Cosa prevedere, cosa prevedere?

Quello che succede è che i livelli di attivazione nella Rete 1 rimbalzano per un po’. Da “forma” si trasmette attivazione positiva a “luminosità”, da “colore” attivazione negativa a “contenuto”, attivazione negativa da “contenuto” a “luminosità”… Naturalmente tutti questi messaggi passano parallelamente!! e asincroni!! proprio come nel cervello umano…

Alla fine la Rete 1 si assesta in uno stato stabile, che ha una forte attivazione positiva per “luminosità” e “contenuto”. Si può dire che la rete si “aspetti” (anche se non ha ancora visto) che l’oggetto sarà luminoso al buio e che conterrà vanadio.

E guarda, la Rete 1 mostra questo comportamento nonostante non ci sia nessun nodo che dica esplicitamente se l’oggetto è o no un blovo. Il giudizio è implicito nell’intera rete!!, la blovità è un attrattore!! che sorge come risultato di un comportamento emergente!! dalla regola di apprendimento distribuita!!

Ora, nella vita reale, questo tipo di progetto di rete – per quanto bizzarro possa sembrare – presenta ogni tipo di problemi. Le reti ricorsive non sempre si stabilizzano direttamente: possono oscillare, o mostrare comportamenti caotici, o semplicemente metterci un tempo molto lungo ad assestarsi. Questa è una Cosa Brutta quando vedi qualcosa di grande e giallo e a strisce, e devi aspettare cinque minuti perché la tua rete neurale distribuita si stabilizzi sull’attrattore “tigre”. Potrà essere asincrona e parallela, ma non è in tempo reale.

E ci sono altri problemi, come il fatto di contare due volte l’evidenza quando i messaggi rimbalzano avanti e indietro: se sospetti che un oggetto luccichi al buio, il sospetto attiverà la convinzione che l’oggetto contenga vanadio, che a sua volta attiverà la convinzione che l’oggetto luccichi al buio.

Inoltre, se cerchi di estendere il progetto della Rete 1, richiede O(N^2) connessioni, dove N è il numero di proprietà osservabili.

Come potrebbe essere allora un progetto di rete neurale più realistico?

Rete 2Colore+Blu-RossoForma+Uovo-CuboLuminosità+Brilla-BuioSuperficie+Pelliccioso-LiscioContenuto+Vanadio-PalladioCategoria+Blovo-Rubo

In questa rete, un’onda di attivazione converge nel nodo centrale da ciascun nodo attivato (osservato), e poi rimbalza fuori verso ogni nodo non attivato (non osservato). Questo significa che possiamo calcolare la risposta in un passo solo, invece di aspettare che la rete si assesti – una caratteristica importante in biologia, quando i neuroni lavorano solo a 20Hz. E la rete cresce solo secondo O(N) , invece che O(N^2) .

In effetti, ci sono cose che si possono notare più facilmente con l’architettura della prima rete rispetto alla seconda. La Rete 1 ha una connessione diretta tra ogni due nodi. Così se gli oggetti rossi non luccicano mai al buio, ma gli oggetti rossi e pellicciosi hanno in genere altre caratteristiche da blovo, come la forma ovale e contenere vanadio, la Rete 1 lo può rappresentare facilmente: basta una connessione negativa molto forte tra colore e luminosità, e ancora più potenti connessioni tra superficie e tutti gli altri nodi, eccetto luminosità.

E questa non è una “eccezione particolare” alla regola generale che i blovi sono luminosi – ricorda che nella Rete 1 non c’è un nodo che rappresenti la blovità; la blovità emerge come attrattore nella rete distribuita.

E quindi sì, quelle N^2 connessioni servivano a qualcosa. Ma non a molto. La Rete 1 non è più utile nella maggior parte dei problemi reali, dove raramente vedrai un animale a metà strada tra un gatto e un cane.

(Ci sono anche fatti che non si possono facilmente rappresentare né nella Rete 1 nella Rete 2. Diciamo che colore blu-mare e forma sferoidale, se capitano insieme, indicano sempre la presenza di palladio; ma se presenti individualmente, senza l’altro, ciascuno dei due è una evidenza molto forze della presenza di vanadio. Questo è difficile da rappresentare, in entrambe le architetture, senza aggiungere dei nodi supplementari. Sia la Rete 1 che la Rete 2 incorporano assunzioni implicite sul tipo di strutture ambientali che ci aspettiamo che esistano; nell’apprendimento meccanico, la capacità di trascendere da questo è quello che distingue il bambino dall’adulto).

Nota bene, né la Rete 1 né la Rete 2 sono biologicamente realistiche. Ma sembra abbastanza probabile che, qualunque sia il funzionamento effettivo del cervello, sia in un qualche modo più vicino alla Rete 2 che alla Rete 1. Veloce, economico, espandibile, funziona bene per distinguere cani da gatti: la selezione naturale tende a questo tipo di cose come l’acqua che scende in un paesaggio di fitness.

Sembra un compito abbastanza normale, separare blovi e rubi e metterli nei corrispondenti contenitori. Ma ti accorgeresti se nessuno degli oggetti blu-mare luccica al buio?

Forse, se qualcuno ti facesse vedere venti oggetti che hanno in comune solo il fatto di essere blu-mare, e spegnesse la luce, e nessuno degli oggetti fosse luminoso. Se te lo sbattono in faccia, in altre parole. Forse il fatto di mostrarti tutti questi oggetti blu-mare in un gruppo, spinge il tuo cervello a formare una nuova categoria, e quindi a riconoscere la caratteristica “non luminoso” in questa specifica categoria. Ma probabilmente non te ne accorgeresti se gli oggetti blu-mare fossero sparpagliati in mezzo a cento altri blovi e rubi. Non sarebbe facile o intuitivo accorgersene, non nel modo in cui distinguere cani e gatti è facile e intuitivo.

Oppure: “Socrate è un uomo, tutti gli uomini sono mortali, quindi Socrate è mortale”. Come faceva Aristotele a sapere che Socrate era un uomo? Beh, Socrate non aveva le penne, aveva le unghie larghe, camminava eretto, parlava greco e, beh, aveva la forma generale di un uomo e si comportava come tale. Così il cervello decide, una volta per tutte, che Socrate è un uomo; e da questo inferisce che Socrate è mortale come tutti gli altri uomini finora osservati. Non sembra semplice o intuitivo chiedersi quanto sia associato alla mortalità il fatto di indossare vestiti, piuttosto che usare un linguaggio. Semplicemente, “le cose che portano vestiti e parlano sono uomini” e “gli uomini sono mortali”.

Ci sono bias associati col fatto di cercare di classificare le cose in categorie una volta per tutte? Certo che ci sono. Vedi ad esempio Culto Contro Culto.

Continua…

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Chaos Legion wants you!