Nei loro tratti generali, le RNA di tipo MLP costituiscono degli interessanti e flessibili strumenti quantitativi in grado di rappresentare, in maniera tipicamente non parametrica, relazioni non lineari della forma:
dove
A è lo spazio degli input e
B è lo spazio degli output.
Più precisamente da un punto di vista formale, modelli di questo tipo presentano la medesima struttura di grafi orientati ad archi pesati, i cui nodi siano disposti secondo uno strato di input (costituito da m nodi), uno o più strati intermedi (denominati strati nascosti od anche hidden layer) ed uno strato finale di output (costituito da n nodi). È da sottolineare il fatto che, in generale, il numero dei nodi presenti in ciascuno degli strati nascosti di un modello MLP non può essere determinato a priori Ciascuno strato risulta, inoltre, completamente connesso con gli strati ad esso immediatamente successivi (lo strato di input con il primo strato nascosto, il primo strato nascosto con il secondo strato nascosto e così via fino all'ultimo strato nascosto con lo strato finale di output), senza alcuna connessione tra unità appartenenti ad un medesimo strato (denominate connessioni intrastrato). Grazie a questa morfologia strutturale, il segnale emesso in input viene propagato in modo unidirezionale dallo strato di input stesso, attraverso gli strati nascosti, fino allo strato finale di output.
Ciascun nodo della rete, ad eccezione degli m nodi appartenenti allo strato di input, è in grado di eseguire operazioni di computazione e di trasformazione. In particolare, due sono le funzioni che caratterizzano ognuno di questi nodi:
. la prima determina l'input del nodo, calcolando una "aggregazione" pesata dei segnali confluenti nel nodo medesimo. La funzione di "aggregazione" più comunemente utilizzata, a questo proposito, è la cosiddetta funzione somma, avente la forma seguente:
dove
, è l'input del k-esimo nodo dell'l-esimo strato,
, con i Il = - 1 1 , , K , sono i pesi associati agli archi che connettono gli Il-1 nodi dell'(l-1)-esimo strato con il k-esimo nodo dell'l-esimo strato,
R sono i corrispondenti segnali che confluiscono nel nodo stesso provenienti da ciascuno dei nodi presenti nell'(l-1)-esimo strato e
R è un parametro di soglia denominato bias (per maggiori dettagli si veda, ad esempio, [Hecht-Nielsen, 1990]). Il bias può essere considerato come il peso associato ad un (fittizio) ( Il- + 1 1)-esimo arco confluente nel nodo, vale a dire che propaga il segnale costante ;
. la seconda funzione determina l'output del nodo, trasformando l'input , nel valore di output , con . In particolare, se si verifica che l=L, allora gli output considerati sono esattamente quelli associati ai nodi appartenenti allo strato di output, cioè sono gli n elementi del vettore di output del modello MLP preso in esame. Una delle funzioni di trasformazione che viene più comunemente utilizzata è
la cosiddetta funzione di trasferimento (o di attivazione) logistica, avente la forma seguente:
dove
è un parametro denominato shift e
è un parametro denominato gain, entrambi associati al k-esimo nodo dell'l-esimo strato (per maggiori dettagli si veda, ad esempio, [Hecht-Nielsen,1990]).
Figura 2.1 - RNA di tipo MLP
Degno di nota è il fatto che una funzione di questo tipo può essere considerata come una smooth version di un classificatore multicategoria.
La sostanziale abilità già dimostrata dai modelli MLP in varie tipologie di applicazioni è proprio dovuta alla presenza di una struttura fondamentale di questo tipo, espressamente diffusa e parallela. Naturalmente, in questa classe di modelli rivestono un
ruolo essenziale i parametri liberi, cioè i pesi , , , con
. Allo scopo di determinare i loro valori "ottimali" si utilizza un algoritmo fondato sulla metodologia (classica) di EBP.
Successivo: L'algoritmo di Error Back Propagation (EPB)
Sommario: Indice