Quali fattori spiegano la customer satisfaction? E il default di un’azienda? Come prevedere le vendite di un bene? E il fabbisogno di medici al PS? Introduzione alla Regressione e agli Alberi
A cosa servono la Regressione Lineare e gli Alberi Decisionali
Regressione lineare e alberi decisionali sono due dei metodi più popolari per “spiegare” una variabile target tramite un insieme di input. Se il target è quantitativo, la regressione punta a prevederlo; se è qualitativo, gli alberi puntano a classificarlo.
La regressione lineare esplicita il legame lineare tra una variabile output e una o più variabili input. Spesso, l’ipotesi di linearità approssima la realtà, agevolandone l’interpretazione. Il modello verrà stimato su un campione di dati ma, non di rado, vorremo validarlo in un contesto più ampio, con opportune procedure di statistica inferenziale.Leggi di più
Lo si potrà usare per individuare i livelli di input che danno un certo output, o per prevedere l’output in base a input noti. Le applicazioni sono innumerevoli: l’ufficio marketing vorrà prevedere l’esito di una campagna pubblicitaria in funzione del budget, dei canali, del messaggio, ecc.; il customer care vorrà sapere quali caratteristiche di un servizio incidono sulla soddisfazione del cliente; un manager sanitario vorrà stimare il fabbisogno di medici in PS in base al bacino di utenza, agli ospedali limitrofi, al giorno della settimana, ecc.
Per migliorare il modello, prima di usarlo, potrà essere utile selezionare solo alcuni predittori, o sintetizzarli in un piccolo numero di variabili “latenti”. Se il range della variabile output è, per natura, limitato – si pensi alla probabilità di default di una società – serviranno accorgimenti per non generare risultati fuori range. Se poi l’ipotesti di linearità non funziona, la si dovrà abbandonare in favore di legami più complessi.
La regressione è un modello globale per i dati: il legame input-output non cambia al variare del range delle variabili. Gli alberi di decisione, invece, sono modelli locali: il legame tra le variabili si modifica a seconda del range considerato. Gli alberi sfruttano gli input per classificare i dati rispetto all’output. Le applicazioni sono simili a quelle della regressione; si tende a privilegiare gli alberi quando l’output è qualitativo e il dataset è di grandi dimensioni, per la maggiore efficienza degli algoritmi che li implementano. Gli alberi, però, hanno problemi di stabiltà: piccole variazioni nei dati possono modificare sensibilmente un albero. Si può allora ricorrere alle random forest, che combinano più alberi per generare un classificatore con performance migliori e ridurre il rischio di overfitting.
Destinatari, didattica e calendario
Il campo di applicazione del Data Science è già oggi sterminato ed è in continua crescita. L’analisi di regressione e gli alberi decisionali, in particolare, trovano applicazione in numerosi ambiti professionali, dal marketing alle vendite, dalla produzione alla qualità, dall’ingegneria al biomedicale. Il corso, di livello intermedio, è destinato a chi voglia conoscere i metodi principali, combinando aspetti concettuali e pratica operativa. Le lezioni, infatti, mixano elementi teorici con esempi e applicazioni, sfruttando software piuttosto comuni.
Sono previste 16 ore di lezione erogate da uno o più Tutor; si suggerisce un minimo di 3-4 ore a settimana. Giorni e orari di lezione vanno concordati con i Tutor; si assicura ogni sforzo per accomodare le preferenze dei partecipanti, entro la finestra 8:00 – 23:00, lun – dom.
Quota di partecipazione
640,00€.
La quota può variare in caso di personalizzazione del programma e si riferisce all’erogazione a un solo partecipante, in aula virtuale. Contatta il nostro Staff per informazioni sul costo del corso in caso di erogazione a due o più partecipanti.
Attestato
Al termine del corso si rilascia un attestato di partecipazione riportante il programma svolto e firmato dal corpo docente. Si può anche richiedere la certificazione delle conoscenze acquisite previo superamento di una prova d’esame.
Programma
-
Regressione lineare: introduzione.
Leggi di piùVerrà introdotto il modello di regressione lineare multipla, per valutare se tra una variabile dipendente (target, risposta) e una o più variabili indipendenti (input, predittori) esiste una relazione approssimativamente lineare e, nel caso, quali siano le sue caratteristiche. Oltre che misurare l’impatto dei predittori sulla risposta, si potrà prevedere la risposta in un nuovo data object i cui predittori siano noti.
-
Regressione lineare: complementi.
Leggi di piùSi vedrà come migliorare la qualità e ampliare il campo di applicazione del modello di regressione. In molti casi, ad esempio, il modello funziona meglio se si utilizza un sottoinsieme dei predittori disponibili, oppure se si impongono vincoli sulla loro dimensione, così da limitare la variabilità delle stime. Quando i regressori sono molti, “sintetizzarli” in un numero più piccolo può migliorare la trattabilità e l’interpretabilità del modello. Quando la risposta è di tipo binario, le variabili vanno trasformate in modo che il modello fornisca risposte nel range [0,1]. Infine, si darà uno sguardo alla regressione non lineare, con la tecnica delle spline, che consente di passare da modelli “globali” a modelli “locali”.
-
Alberi di decisione e di regressione.
Leggi di piùVerranno presentati questi popolari modelli non parametrici per risolvere problemi di classificazione, ma anche di regressione. Pur mostrando, spesso, performance non lontane da quelle di tool più complessi e onerosi sul piano computazionale, gli alberi assicurano l’interpretabilità del risultato e la trasparenza del processo di classificazione/regressione, anche se soffrono problemi di “stabilità”. Possono inoltre essere utilizzati anche per ridurre il numero di attributi, oppure a scopo di clustering guidato da un target.
-
Random forest.
Leggi di piùVerranno introdotte le random forest, un tool che rientra nella famiglia degli ensemble methods, che combinano un insieme di classificatori (o previsori) per ottenerne uno più performante dei singoli componenti. Questi vengono generalmente ottenuti applicando un qualche tool a molteplici dataset generati casualmente, campionando o i data objects, o gli attributi, o entrambi (come nel caso delle random forest, dove il tool è un albero). Il guadagno in accuratezza previsiva è spesso notevole, sebbene venga sacrificata la chiarezza interpretativa.
Personalizzazioni
Valutiamo diverse richieste di personalizzazione del programma: puoi aggiungere argomenti funzionali agli obiettivi formativi, o aggiungere prerequisiti, se pensi di non avere le conoscenze di base necessarie per seguire il corso; puoi richiedere di calibrare la didattica per dare più attenzione agli aspetti teorici o, viceversa, a quelli applicativi.
Vuoi maggiori informazioni?
- Scrivi allo Staff: info@matematicaonvideo.it
- Contatta il Responsabile SFA, Dott. Sandro Bencini, al 339.4169342.
- Prenota un appuntamento online con un nostro consulente per spiegarci le tue esigenze.
Parliamone online