Exploratory Data Analysis (2002-2003)

Academic Year of the Course: 
2002-2003
Course: 
EC001
Exploratory Data Analysis
Teaching staff: 
Nicola Torelli
Course Outlines: 
The course will introduce techniques and ideas of descriptive statistics and exploratory data analysis. The analysis of real data set will be strongly recommended. The course will also comprise an introduction to basic commands of the software R for data analysis and graphics.
Contents: 
1) Concetti introduttivi Statistica e ricerca empirica. Il metodo statistico nelle scienze sperimentali e osservazionali. Popolazione e campione. Statistica descrittiva e inferenziale. Variabili statistiche. 2) Metodi per la descrizione e la sintesi di insiemi di dati statistici Distribuzioni di frequenza e tabelle statistiche. Tecniche di rappresentazione grafica. Il Diagramma ‘ramo e foglie’. L’istogramma e il diagramma di frequenze cumulate. Indici di tendenza centrale: media aritmetica, mediana e moda. I percentili. Il grafico dei quantili e la funzione cumulata empirica. Altri tipi di media. Indici di variabilità: scarto interquartile, varianza, scarto medio assoluto, scarto quadratico medio. Misure di eterogeneità (Indice di Gini e indice di entropia). Il diagramma ‘a scatola’ (box-plot). La simmetria e cenni sulla curtosi. Confronti fra due o più distribuzioni: il diagramma quantile-quantile. La trasformazione di variabili: trasformazioni lineari, la standardizzazione, trasformazione logaritmica. Modelli teorici per distribuzioni di frequenza. Modelli per distribuzioni discrete e continue. Il modello gaussiano. Uso di grafici quantile-quantile per valutare la conformità dei dati ad un modello teorico. 3) L’analisi delle relazioni fra due variabili statistiche Tabelle di frequenza congiunta. Distribuzioni marginali e condizionate. Media e varianza marginale in funzione delle medie e delle varianze condizionate. Somma di variabili statistiche. L’analisi di due variabili qualitative. Condizione di indipendenza. L’analisi di tabelle 2x2: rischio relativo e rapporto dei prodotti incrociati (Odds ratio). Tabelle IxJ: indice X2 di Pearson. L’analisi della dipendenza con variabile dipendente quantitativa. Box-plot multipli. Il rapporto di correlazione: h2. Diagrammi di dispersione. Covarianza e correlazione. La funzione di regressione. La funzione di regressione lineare. Il criterio dei minimi quadrati e la determinazione di una funzione di regressione parametrica. Indici per la misura dell’adattamento: il coefficiente di determinazione. Metodi diagnostici: analisi dei residui. Funzioni di regressione non lineari e trasformazione delle variabili. Il coefficiente di correlazione semplice. Correlazione spuria e coefficiente di correlazione parziale cenni all’analisi di regressione multipla. 4) Analisi esplorativa di dati statistici attraverso ERRE. Introduzione al linguaggio ERRE. L’uso di ERRE per rappresentazioni grafiche. Box-plot, istogrammi, q-q-plot. Calcolo dei principali indici statistici e uso di funzioni ERRE. Analisi di regressione lineare con ERRE.
Last update: 12-11-2013 - 15:14