Dopo aver partizionato i punti di learning, lo scopo del p-Tree è quello di identificare rapidamente i nearest neighbors di ciascun testing points al fine di stimare i valori di y del test set ( j ). L’albero è usato per determinare le “celle foglie” di ogni punto di test, per alberi di altezza H sono indispensabili una sequenza di H istruzioni condizionali per localizzare la cella appropriata.
È buona abitudine non tentare di stimare valori di y del test set che sono out-of-range, cioè i punti che cadono fuori dall’intervallo che ha per estremi il valore minimo ed il valore massimo del learning set. Dal momento che la superficie che deve essere modellata può risultare altamente non lineare, considerando i punti out-of-range l’estrapolazione potrebbe condurre ad errori elevati.
Concettualmente lo scopo è di utilizzare serie storiche per tentare di costruire dei modelli previsionali, d’altro canto però, i punti del database storico che sono out-of-range possono comportarsi in maniera molto diversa dai punti storici. Nel valutare gli spazi è ragionevole allora scartare tutti i punti del test set che si rivelano out-of-range.
Informazioni aggiuntive per la localizzazione delle “celle foglie” possono essere ricavate mediante la matrice di adiacenza. Se, per esempio, si deve trovare la cella adiacente più vicina alla cella contenente il test point, prima di tutto si dovrà ricorre alla matrice di adiacenza per determinare quali siano le celle adiacenti e poi individuare quali di queste sia la più vicina, dove col termine “più vicina” si può intendere:
la cella che contiene i punti più vicini al test point sulla superficie (o lato se il p-Tree tratta solo due dimensioni: p=2); − la cella con il baricentro più vicino al test point.
Le due definizioni possono condurre a diverse conclusioni, ma tali differenze non sono rilevanti, in quanto, come si è detto, ciò che interessa è una soluzione approssimata. Tuttavia, più la dimensionalità del modello cresce, più il compito di trovare i punti più vicini diventa difficile e per ridurre la complessità computazionale è preferibile usare la tecnica del baricentro.
Il p-Tree viene adoperato per fare previsioni sulla variabile y nel test set, a questo punto si può scegliere tra un vasto assortimento di algoritmi come l’ordine 0, l’ordine 1, l’ordine 2 introdotti nel cap. 2.4, e considerare differenti opzioni di apprendimento: learning set statico o dinamico (cap. 2.1). Dopo aver calcolato yˆ nel test set, si calcolano alcune misure di performance, prima fra tutte VR (cap. 2.6), per valutare il modello. Si procede così, sia nelle fasi di ricerca dei best predictors con la tecnica stepwise (cap. 2.5), sia nella fase di validazione del modello.
Il p-Tree viene allo stesso modo utilizzato nello stadio in cui si effettuano le previsioni vere e proprie, come scritto da Wolberg in risposta ad una mia e-mail (vedi Appendice e-mail).
Successivo: 3.4 Complessità Computazionale
Sommario: Index