La kernel regression è un metodo statistico non parametrico che appartiene al campo di ricerca usualmente chiamato modellamento di smussamento locale. È un metodo che non assume nessun tipo di generalizzazione sulla struttura dei dati fino al tempo in cui vengono effettuate le previsioni. La kernel regression fonda la sua efficacia e la sua efficienza su varie caratteristiche: − mancanza di qualsiasi tipo di ipotesi sui dati, se non quella di stazionarietà in media ed il più possibile in varianza; − capacità di trattare efficientemente serie lunghissime di dati, anche decine di migliaia; − capacità di sviluppare modelli con molte dimensioni; − una buona componente tecnologica: la complessità computazionale gioca un ruolo rilevante nella scelta dei vari parametri che entrano in gioco nell’elaborazione del modello (cap. 3.4); − può essere implementata con altre metodologie per generare algoritmi ibridi ad alta performance (cap. 4.5).
Tutte queste caratteristiche rendono la kernel regression un’applicazione interessante nel campo finanziario, come del resto in tutte quelle discipline in cui la mole di dati e la dimensione del modello è elevata.
Il primo passo da compiere per sviluppare la metodologia è stabilire l’insieme dei candidate predictors, ovvero l’insieme delle variabili indipendenti che si ritiene possano concorrere con pesi differenti all’apprendimento e alla successiva previsione della variabile dipendente (y), tipicamente la variazione dei prezzo di chiusura.
Normalmente quando si modellano dati finanziari il numero di candidate predictors è molto elevato, anche nell’ordine di centinaia, tuttavia questo numero è vincolato da: − complessità del problema che si vuole analizzare (si veda cap. 2.5); − risorse tecnologiche (si veda cap. 3.4); − numero di records disponibili; inoltre, il numero e la scelta dei candidate predictors dipende molto dalla bravura e dall’esperienza dell’analista: una cattiva selezione dei candidate predictors, infatti, porterebbe inevitabilmente a delle previsioni mediocri, se non pessime, anche se sviluppate con metodologie ottime.
Quando non si hanno abbastanza records nella serie storica oggetto d’analisi esistono vari modi di procedere: − combinare le variabili in modo tale che una nuova variabile includa gli effetti di due o più variabili originali (es. analisi in componenti principali); − usare una strategia di modellamento multistage (gli output di uno stadio sono gli input dello stadio successivo); − diminuire l’ampiezza di campionamento dei dati, per esempio passare da intervalli di un’ora ad intervalli di 15 minuti, oppure da intervalli di 15’ ad intervalli di 5’ e così via fino ad arrivare all’intervallo più piccolo possibile chiamato tick; − aumentare il numero di records combinando set di dati simili (merging).
Quando si usano dati per creare modelli è molto utile separarli in tre sottoinsiemi: − learning set (LRN): comprende la gran parte dei punti della serie di dati (~50-60%) e serve per far apprendere al modello l’andamento della serie storica per poi elaborare le previsioni; − testing set (TST): sono i punti che il modello deve in un primo momento stimare ed in un secondo confrontare con y per calcolare alcune misure di performance (cap. 2.6). Il testing set è determinante per scegliere i valori dei parametri e le combinazioni di candidate predictors che danno i risultati migliori in termini di misure di performance: con tecniche di tipo non parametrico, è un set indispensabile per la ricerca del modello; − evaluation set (EVL): sono punti delle serie storiche che sono tenuti da parte (out-of-sample points) per effettuare i test finali (out-ofsample testing).
Questo set viene usato per valutare l’effettiva efficacia previsionale e la robustezza del modello. Il learning set a sua volta può essere statico o dinamico. Si dice che il learning set è dinamico quando ogni record del test set che viene testato è aggiunto al learning set, cioè è utilizzato per aggiornare il learning set per stimare il record di test successivo. Ci sono due modi di rendere il learning set dinamico: − growing option: si lascia che il learning set aumenti man mano che ogni punto di test viene aggiunto; − moving window option: per ogni record del test set aggiunto viene scartato il punto iniziale del learning set, mantenendo costante ad ogni iterazione il numero di punti nel learning set. Il learning set si definisce statico (static option) quando, invece, rimane invariato in tutte le fasi del modellamento.
Riassumendo, le opzioni che saranno presenti nell’algoritmo per lo sviluppo della kernel regression per quanto riguarda l’aggiornamento del learning set sono tre: “growing”, “moving window”, “static”. È chiaro che i risultati che si possono ottenere con ciascuna delle tre opzioni sono differenti perché diversi sono i coefficienti dei polinomi che generano yˆj
La scomposizione del data set può avvenire secondo tre differenti modalità: − null: vengono considerate tutte le osservazioni del data set sia per LRN, che per TST e EVL; − sequential: si ripartiscono in modo sequenziale le osservazioni del data set sulla base delle percentuali di ripartizione assegnate; − fractionary: i records vengono ripartiti in modo “distribuito” sulla base delle percentuali di ripartizione assegnate. La differenza rispetto alla metodologia sequenziale è che i dati non sono successivi fra loro, ma sono distribuiti nell’intero data set.
Nello studio della kernel regression si è applicata la metodologia sequential, ritenuta più idonea, almeno nel learning set, per il modellamento di serie storiche ai fini predittivi; mentre, le percentuali di ripartizione si aggirano attorno al 50% per LRN, 25% per TST e EVL (cap. 4.4), oppure 50% nel LRN e 50% in TST (cap. 4.1, 4.3). Il learning set è sempre stato mantenuto statico, optando per l’ opzione static. Il numero totale dei punti di learning, di testing e di evaluation sarà identificato dai parametri nlrn, ntst e nevl.
Successivo: 2.2 La funzione Kernel
Sommario: Index