Come si profila la clientela di un’azienda, l’utenza di una PA o quella di un sito web? Come si individuano aree omogenee, prodotti affini, eventi simili? Introduzione alla Cluster Analysis
A cosa serve la Cluster Analysis
La Cluster Analysis consente di raggruppare “oggetti”, descritti da una serie di variabili, in base a qualche criterio di affinità, per evidenziare le caratteristiche specifiche di ciascun gruppo.
Gli “oggetti” possono essere di varia natura: individui, famiglie, imprese, eventi, ecc. Su ognuno si avranno diverse informazioni: per i clienti di un’azienda avremo variabili anagrafiche, comportamentali, socio-economiche; dei pazienti di un ospedale conosceremo dati biomedici; gli eventi sismici sono controllati da rilevazioni geo-fisiche; e così via.Leggi di più
Le ragioni di interesse per il clustering, in genere, dipendono dal contesto: un’azienda potrebbe voler segmentare la propria clientela per differenziare le strategie di marketing; i pazienti con parametri biomedici simili possono essere sottoposti a terapie comuni; in Geologia, ma anche in Astrofisica o in Botanica, i raggruppamenti per affinità possono servire per scopi di classificazione.
In ogni caso, vorremo raggruppare gli oggetti in base a un criterio di affinità che guardi all’insieme delle variabili disponibili, piuttosto che a una singola variabile-target. Stabilito il criterio, ci servirà poi un algoritimo per applicarlo. È qui che i metodi della Cluster Analysis differiscono. Non ne esiste uno migliore in assoluto, ognuno ha pregi e difetti: alcuni generano risultati agevoli da interpretare, ma sono poco maneggevoli su grandi dataset; altri funzionano anche sui big data, ma faticano a individuare gruppi di “forma” complessa, o assegnano gli oggetti ai cluster in maniera non univoca.
Destinatari, didattica e calendario
Il campo di applicazione del Data Science è già oggi sterminato ed è in continua crescita. La Cluster Analysis, in particolare, trova applicazione in numerosi ambiti professionali, dal marketing alle vendite, dalla produzione alla qualità, dall’ingegneria al biomedicale. Il corso, di livello intermedio, è destinato a chi voglia conoscere i principali metodi di clustering, combinando aspetti concettuali e pratica operativa. Le lezioni, infatti, mixano elementi teorici con esempi e applicazioni, sfruttando software piuttosto comuni.
Sono previste 12 ore di lezione erogate da uno o più Tutor; si suggerisce un minimo di 3-4 ore a settimana. Giorni e orari di lezione vanno concordati con i Tutor; si assicura ogni sforzo per accomodare le preferenze dei partecipanti, entro la finestra 8:00 – 23:00, lun – dom.
Quota di partecipazione
480,00€.
La quota può variare in caso di personalizzazione del programma e si riferisce all’erogazione a un solo partecipante, in aula virtuale. Contatta il nostro Staff per informazioni sul costo del corso in caso di erogazione a due o più partecipanti.
Attestato
Al termine del corso si rilascia un attestato di partecipazione riportante il programma svolto e firmato dal corpo docente. Si può anche richiedere la certificazione delle conoscenze acquisite previo superamento di una prova d’esame.
Programma
-
Clustering gerarchico.
Leggi di piùVerranno trattati metodi che raggruppano i singoli oggetti in cluster sempre più grandi (approccio bottom-up o agglomerativo) o che frazionano l’insieme di oggetti in cluster sempre più piccoli (approccio top-down o divisivo). In entrambi i casi, si crea una gerarchia di cluster visualizzabile in una struttura ad albero che ne agevola l’interpretazione e l’utilizzo. Sono metodi applicabili solo a piccoli dataset.
-
Clustering prototype-based.
Leggi di piùVerranno discussi metodi che formano i cluster aggregando gli oggetti intorno a un certo numero di “centri”, in modo tale che la “variabilità” sia minima entro ogni cluster ma massima tra cluster diversi. In altre parole, l’obiettivo è assicurare massima compattezza nei cluster ma massima separazione tra i cluster. Sono metodi applicabili anche a grandi dataset, ma l’interpretazione dei risultati è agevole solo se i cluster hanno forma “regolare” e densità uniforme.
-
Clustering model-based.
Leggi di piùVerranno introdotti metodi che interpretano il dataset come realizzazione di un modello probabilistico che combina diverse distribuzioni di probabilità della stessa famiglia, ma caratterizzate da parametri diversi. Questi parametri, opportunamente calibrati, descrivono i cluster. Gli oggetti non vengono assegnati ai cluster in modo univoco: ogni oggetto può appartenere a un cluster qualsiasi, con una certa probabilità. Il più noto tra questi metodi fa uso della famiglia delle distribuzioni Gaussiane.
-
Clustering density-based.
Leggi di piùVerranno descritti metodi che interpretano i cluster come regioni ad alta densità di oggetti, separate da regioni dove invece la densità degli oggetti è bassa. La partizione del dataset, in genere, non sarà completa, vi saranno oggetti scartati, esclusi da ogni cluster. Sono metodi che riescono a identificare cluster di qualsiasi forma, definendo il loro numero in modo naturale; possono però essere onerosi sotto il profilo computazionale e la caratterizzazione dei cluster può risultare difficile.
-
Clustering SOM-based.
Leggi di piùVerrà introdotto un particolare tipo di rete neurale artificiale, detta Self Organized Map (SOM) o rete di Kohonen. Differisce da altre reti perché il suo addestramento non richiede dati etichettati e si basa sul competitive learning. L’idea di fondo consiste nel mappare opportunamente i dati in uno spazio discreto a bassa dimensione (la mappa, spesso una griglia rettangolare o esagonale) dove sia più semplice identificare i cluster. Le SOM sono anche utilizzate per la data visualization e la dimensionalty reduction.
Personalizzazioni
Valutiamo diverse richieste di personalizzazione del programma: puoi aggiungere argomenti funzionali agli obiettivi formativi o aggiungere prerequisiti, se pensi di non avere le conoscenze di base necessarie seguire il corso; puoi richiedere di calibrare la didattica per dare più attenzione agli aspetti teorici o, viceversa, a quelli applicativi.
Vuoi maggiori informazioni?
- Scrivi allo Staff: info@matematicaonvideo.it
- Contatta il Responsabile SFA, Dott. Sandro Bencini, al 339.4169342.
- Prenota un appuntamento online con un nostro consulente per spiegarci le tue esigenze.
Parliamone online