Riassunti di statistica

Riassunti di statistica Riassunti di statistica

Riassunti di statistica

Riassunti di statistica

1. Introduzione alla Statistica

La statistica è la scienza che raccoglie, analizza, interpreta e presenta i dati. La statistica può essere divisa in due grandi aree:

  • Statistica descrittiva: si occupa di raccogliere e riassumere i dati attraverso metodi numerici e grafici. Ad esempio, calcolare la media, la mediana, la moda e fare grafici come istogrammi e diagrammi a dispersione.
  • Statistica inferenziale: si occupa di fare previsioni o inferenze sulla popolazione partendo da un campione. Questo tipo di statistica usa il calcolo delle probabilità per fare stime o testare ipotesi.

2. Raccolta dei Dati

I dati possono essere raccolti in vari modi: - Campioni: un sottoinsieme di una popolazione, scelto per rappresentarla. - Popolazione: l’insieme completo di tutti gli individui o oggetti che condividono una caratteristica comune. - Dati qualitativi (nominali): categorie, come il sesso (maschio/femmina) o il colore degli occhi. - Dati quantitativi: numeri che rappresentano quantità, come età, peso, altezza.

3. Misure di Tendenza Centrale

Le misure di tendenza centrale descrivono un “centro” di un insieme di dati. Le più comuni sono:

  • Media (o media aritmetica): la somma di tutti i valori divisa per il numero totale di valori.
  • Mediana: il valore che si trova al centro di un insieme di dati ordinati. Se i dati sono pari, la mediana è la media dei due valori centrali.
  • Moda: il valore che appare con maggiore frequenza in un insieme di dati.

4. Misure di Dispersione

Le misure di dispersione servono a quantificare quanto i dati si distribuiscono attorno alla media. Ci dicono se i dati sono concentrati intorno alla media o se sono molto variabili. Le principali misure di dispersione sono:

1. Varianza

La varianza misura la media dei quadrati delle deviazioni di ogni dato dalla media. È utile per comprendere quanto “si discostano” i valori dalla media, ma ha una limitazione: è espressa nelle unità al quadrato dei dati originari, rendendo difficile l’interpretazione diretta.

La formula della varianza per un campione è: \[ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \] dove: - \(x_i\) sono i valori dei dati, - \(\bar{x}\) è la media campionaria, - \(n\) è il numero di osservazioni.

2. Deviazione Standard

La deviazione standard è la radice quadrata della varianza e ha il vantaggio di essere nelle stesse unità dei dati originali, rendendola più facilmente interpretabile. Indica, in media, di quanto un dato si discosta dalla media.

Formula: \[ S = \sqrt{S^2} \]

3. Range (Intervallo)

Il range o intervallo è la semplice differenza tra il valore massimo e il valore minimo di un insieme di dati: \[ Range = x_{\text{max}} - x_{\text{min}} \] Questo è il metodo più semplice per descrivere la dispersione, ma può essere influenzato da valori estremi (outliers).

4. Intervallo interquartile (IQR)

L’IQR è la differenza tra il terzo quartile (Q3) e il primo quartile (Q1) e fornisce una misura della dispersione che non è influenzata da outliers. È spesso usato nelle rappresentazioni grafiche dei dati (come i box plot).

\[ IQR = Q3 - Q1 \]

5. Distribuzioni di Probabilità

Le distribuzioni di probabilità sono un concetto fondamentale nella statistica e nella teoria della probabilità. Descrivono come si distribuiscono i valori di una variabile casuale. Esistono due tipi principali di distribuzioni: discrete e continue.

1. Distribuzione Normale

La distribuzione normale è la distribuzione di probabilità più comune. È simmetrica e a forma di campana. La sua importanza deriva dal Teorema del Limite Centrale, che afferma che la somma di un numero sufficientemente grande di variabili casuali indipendenti tende ad avere una distribuzione normale, indipendentemente dalla distribuzione originale.

  • È completamente descritta dai suoi due parametri:
    • Media (μ): la posizione del centro della distribuzione.
    • Deviazione standard (σ): determina la larghezza della campana. Una deviazione standard maggiore rende la curva più larga e bassa, mentre una deviazione standard minore rende la curva più stretta e alta.

La distribuzione normale ha la proprietà che: - Circa il 68% dei dati si trova entro un intervallo di una deviazione standard dalla media. - Circa il 95% si trova entro due deviazioni standard. - Circa il 99,7% si trova entro tre deviazioni standard.

La funzione di densità della distribuzione normale è: \[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) \] dove \(\mu\) è la media e \(\sigma\) è la deviazione standard.

2. Distribuzione Binomiale

La distribuzione binomiale è una distribuzione discreta che descrive il numero di successi in una sequenza di \(n\) prove indipendenti, ognuna delle quali ha due possibili esiti: successo (con probabilità \(p\)) o fallimento (con probabilità \(1 - p\)).

La funzione di probabilità della distribuzione binomiale è: \[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \] dove: - \(n\) è il numero di prove, - \(k\) è il numero di successi, - \(p\) è la probabilità di successo in una singola prova, - \(\binom{n}{k}\) è il coefficiente binomiale.

3. Distribuzione di Poisson

La distribuzione di Poisson è una distribuzione discreta che modella il numero di eventi che accadono in un intervallo di tempo o spazio, se gli eventi sono rari e indipendenti. È usata, ad esempio, per modellare il numero di chiamate ricevute da un call center in un’ora.

La funzione di probabilità di Poisson è: \[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \] dove: - \(\lambda\) è la media del numero di eventi, - \(k\) è il numero di eventi osservati, - \(e\) è la base del logaritmo naturale.

4. Distribuzione Exponenziale

La distribuzione esponenziale è spesso usata per modellare il tempo tra eventi in un processo di Poisson. La funzione di densità di probabilità della distribuzione esponenziale è: \[ f(x) = \lambda e^{-\lambda x} \] dove \(\lambda\) è il tasso di arrivo degli eventi.

6. Campionamento

Il campionamento è il processo di selezione di un campione da una popolazione per fare inferenze sulla popolazione stessa. Alcuni tipi di campionamento includono:

  • Campionamento casuale semplice: ogni elemento della popolazione ha la stessa probabilità di essere scelto.
  • Campionamento stratificato: la popolazione viene divisa in sottogruppi (strati) e un campione casuale viene prelevato da ogni strato.
  • Campionamento a grappolo: la popolazione è divisa in gruppi o grappoli, e alcuni grappoli vengono selezionati per essere studiati in dettaglio.
  • Campionamento sistematico: si sceglie ogni n-esimo elemento della popolazione.

7. Stime e Intervalli di Confidenza

Quando lavoriamo con i campioni, vogliamo fare delle inferenze sulla popolazione. Una delle principali tecniche per farlo è la stima.

  • Stima puntuale: è un singolo valore calcolato dal campione che serve come “miglior stima” per il parametro della popolazione.
  • Intervallo di confidenza: è un intervallo di valori che contiene il parametro della popolazione con un certo livello di confidenza. Ad esempio, un intervallo di confidenza al 95% significa che se ripetessimo il campionamento molte volte, il vero parametro della popolazione sarebbe contenuto in questo intervallo nel 95% dei casi.

8. Test di Ipotesi

Il test di ipotesi è una tecnica usata per fare inferenze sulla popolazione a partire da un campione. Si tratta di un processo che coinvolge le seguenti fasi:

  1. Definizione delle ipotesi: l’ipotesi nulla (H₀) è quella che non ci siano differenze o effetti significativi, mentre l’ipotesi alternativa (H₁) è quella che suggerisce una differenza.
  2. Selezione del test statistico: a seconda dei dati, si sceglie un test appropriato, come il test t di Student o il test chi-quadrato.
  3. Calcolo della statistica del test: si calcola una statistica che confronta il campione con l’ipotesi nulla.
  4. Determinazione del valore p: il valore p rappresenta la probabilità di ottenere i dati osservati (o qualcosa di più estremo) se l’ipotesi nulla fosse vera.
  5. Decisione: se il valore p è inferiore al livello di significatività (ad esempio, 0,05), si rifiuta l’ipotesi nulla.

9. Correlazione

La correlazione misura la forza e la direzione della relazione tra due variabili. Può essere positiva (se entrambe le variabili aumentano o diminuiscono insieme) o negativa (se una variabile aumenta mentre l’altra diminuisce).

  • Coefficiente di correlazione di Pearson (r): è il più comune e varia tra -1 e 1. Un valore di r vicino a 1 indica una forte correlazione positiva, mentre un valore vicino a -1 indica una forte correlazione negativa. Un valore vicino a 0 indica una correlazione debole o assente.

    Formula del coefficiente di correlazione di Pearson: \[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \] dove \(x_i\) e \(y_i\) sono i valori delle variabili, e \(\bar{x}\) e \(\bar{y}\) sono le medie.

  • Correlazione vs Causalità: È importante notare che la correlazione non implica causalità. Due variabili possono essere correlate senza che una causi l’altra.

10. Regressione

La regressione è un metodo per modellare la relazione tra una variabile dipendente (y) e una o più variabili indipendenti (x). La regressione può essere semplice o multipla.

  • Regressione lineare semplice: è il caso più semplice, in cui si cerca di adattare una retta ai dati. L’equazione della retta è: \[ y = \beta_0 + \beta_1 x + \epsilon \] dove:

    • \(y\) è la variabile dipendente,
    • \(x\) è la variabile indipendente,
    • \(\beta_0\) è l’intercetta (dove la retta incrocia l’asse y),
    • \(\beta_1\) è il coefficiente angolare (slope) che misura quanto cambia \(y\) quando \(x\) cambia,
    • \(\epsilon\) è l’errore (residuo).
  • Regressione lineare multipla: si estende al caso in cui ci sono più variabili indipendenti. L’equazione diventa: \[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon \] dove \(x_1, x_2, ..., x_n\) sono le variabili indipendenti.

  • Interpretazione dei coefficienti: In regressione, i coefficienti \(\beta_1, \beta_2, ..., \beta_n\) indicano l’effetto delle variabili indipendenti su quella dipendente. Ad esempio, \(\beta_1\) rappresenta l’effetto di \(x_1\) su \(y\), mentre gli altri variabili sono tenuti costanti.

11. Analisi Multivariata

L’analisi multivariata si riferisce a tecniche che analizzano simultaneamente più di due variabili per capire meglio le loro interrelazioni. È utile quando si vuole esplorare dati complessi con più dimensioni. Alcuni metodi comuni di analisi multivariata includono:

  • Analisi delle componenti principali (PCA): è una tecnica di riduzione dimensionale che trasforma i dati in un nuovo sistema di coordinate chiamato componenti principali. Questo permette di ridurre il numero di variabili mantenendo la maggior parte delle informazioni.

  • Analisi delle corrispondenze: è una tecnica che analizza le relazioni tra categorie di variabili qualitative, come quelle provenienti da tabelle di contingenza.

  • Cluster analysis: è una tecnica di classificazione che raggruppa oggetti simili in cluster. Gli oggetti all’interno di un cluster sono più simili tra loro che a quelli di altri cluster.

  • Modelli di equazioni strutturali (SEM): sono utilizzati per esplorare e testare relazioni complesse tra variabili osservate e latenti (non osservabili), come in studi psicologici o sociali.

12. Analisi della Varianza (ANOVA)

L’ANOVA è una tecnica che permette di confrontare le medie di più di due gruppi. È particolarmente utile quando si vuole testare se ci sono differenze significative tra gruppi.

  • ANOVA a una via: confronta le medie di diversi gruppi in base a un solo fattore. Ad esempio, se si vogliono confrontare i punteggi medi di tre diversi gruppi di studenti che hanno ricevuto insegnamenti differenti.

  • ANOVA a due vie: viene utilizzata quando si vogliono esaminare due fattori contemporaneamente, ad esempio, il tipo di insegnamento e il genere degli studenti, per vedere come interagiscono tra loro.

In un test ANOVA, la statistica F viene calcolata come il rapporto tra la variabilità tra i gruppi e la variabilità all’interno dei gruppi. Un valore di F alto indica che è probabile che le differenze tra i gruppi siano significative.

13. Teoria della Probabilità

La teoria della probabilità è la branca della matematica che si occupa di analizzare gli eventi casuali e le loro probabilità. Gli eventi possono essere indipendenti o dipendenti, e la probabilità di un evento è un numero che varia da 0 a 1, con 0 che indica un evento impossibile e 1 che indica un evento certo.

1. Probabilità di un evento

La probabilità di un evento \(A\), scritto come \(P(A)\), è definita come il rapporto tra il numero di casi favorevoli e il numero totale di casi possibili, quando tutti i casi sono ugualmente probabili.

Se \(S\) è l’insieme di tutti i possibili esiti (spazio campionario), la probabilità di un evento \(A \subset S\) è: \[ P(A) = \frac{\text{Numero di esiti favorevoli a } A}{\text{Numero totale di esiti in } S} \]

2. Probabilità Condizionata

La probabilità condizionata è la probabilità che un evento \(A\) si verifichi dato che un altro evento \(B\) è già accaduto. Si calcola come: \[ P(A|B) = \frac{P(A \cap B)}{P(B)} \] dove \(P(A \cap B)\) è la probabilità che entrambi gli eventi \(A\) e \(B\) si verifichino, e \(P(B)\) è la probabilità dell’evento \(B\).

3. Teorema di Bayes

Il Teorema di Bayes è un’importante formula che permette di aggiornare la probabilità di un’ipotesi basata su nuove evidenze. La formula del teorema di Bayes è: \[ P(A|B) = \frac{P(B|A) P(A)}{P(B)} \] dove: - \(P(A|B)\) è la probabilità di \(A\) dato \(B\) (probabilità posteriore), - \(P(B|A)\) è la probabilità di \(B\) dato \(A\) (probabilità del dato), - \(P(A)\) è la probabilità a priori di \(A\), - \(P(B)\) è la probabilità dell’evidenza \(B\).

Il teorema di Bayes è utilizzato in numerosi ambiti, come la diagnosi medica, la classificazione in machine learning, e nella gestione dei rischi.

14. Deviazione standard

La deviazione standard è una misura di dispersione che indica quanto i dati si discostano, in media, dalla media del campione o della popolazione. In altre parole, la deviazione standard ci dà un’idea della “larghezza” della distribuzione dei dati: se la deviazione standard è bassa, i dati sono concentrati intorno alla media; se è alta, i dati sono più sparsi.

Definizione e Formula

La formula per calcolare la deviazione standard dipende dal fatto che stiamo lavorando con un campione o con una popolazione:

1. Deviazione standard della popolazione

Se stiamo lavorando con l’intera popolazione (tutti i dati possibili), la formula della deviazione standard \(\sigma\) è:

\[ \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2} \]

dove: - \(\sigma\) è la deviazione standard della popolazione, - \(N\) è il numero di dati nella popolazione, - \(x_i\) è ogni singolo dato, - \(\mu\) è la media della popolazione (la somma di tutti i dati divisa per il numero totale di dati).

2. Deviazione standard del campione

Se invece stiamo lavorando con un campione della popolazione, la formula della deviazione standard \(s\) è leggermente diversa. Per compensare la sotto-stima della variabilità dovuta all’uso di un campione e non dell’intera popolazione, si usa \(N - 1\) (denominato “gradi di libertà”) al denominatore:

\[ s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \]

dove: - \(s\) è la deviazione standard del campione, - \(n\) è il numero di dati nel campione, - \(x_i\) è ogni singolo dato nel campione, - \(\bar{x}\) è la media del campione.

Interpretazione della Deviazione Standard

La deviazione standard è utile perché fornisce informazioni sul “grado di variazione” o “dispersione” dei dati. Ad esempio:

  • Se la deviazione standard è piccola: i dati sono concentrati attorno alla media. La distribuzione dei dati sarà stretta e alta.
  • Se la deviazione standard è grande: i dati sono molto variabili e distanti dalla media. La distribuzione dei dati sarà più larga e bassa.

Esempio Pratico

Immagina di avere un campione di 5 numeri: 2, 4, 6, 8, 10. Per calcolare la deviazione standard:

  1. Calcola la media del campione: \[ \bar{x} = \frac{2 + 4 + 6 + 8 + 10}{5} = 6 \]

  2. Calcola la somma dei quadrati delle deviazioni dalla media: \[ (2 - 6)^2 = 16, \quad (4 - 6)^2 = 4, \quad (6 - 6)^2 = 0, \quad (8 - 6)^2 = 4, \quad (10 - 6)^2 = 16 \] Somma: \(16 + 4 + 0 + 4 + 16 = 40\)

  3. Calcola la varianza: Poiché è un campione di 5 dati, dividi per \(n - 1 = 5 - 1 = 4\): \[ \text{Varianza} = \frac{40}{4} = 10 \]

  4. La deviazione standard è la radice quadrata della varianza: \[ s = \sqrt{10} \approx 3.16 \]

Quindi, la deviazione standard del campione è circa 3.16. Questo indica che, in media, i dati si discostano dalla media (6) di circa 3.16 unità.

Rilevanza della Deviazione Standard

La deviazione standard è una misura fondamentale in statistica e viene utilizzata in vari contesti: - Analisi dei dati: per capire la variabilità dei dati. - Teorema del limite centrale: è alla base di molte tecniche inferenziali, poiché molte distribuzioni di variabili casuali possono essere approssimate dalla distribuzione normale, che è descritta dalla media e dalla deviazione standard. - Controllo qualità: nelle industrie per monitorare la variabilità di un processo di produzione.

Confronto con altre Misure di Dispersione

La deviazione standard è simile a altre misure di dispersione, come il range o l’intervallo interquartile (IQR), ma ha il vantaggio di essere più sensibile ai valori estremi (outliers), che possono avere un impatto maggiore sulle decisioni statistiche. Tuttavia, per set di dati con molti outliers, altre misure come l’IQR potrebbero essere più informative.


Puoi seguire anche il mio canale YouTube https://www.youtube.com/channel/UCoOgys_fRjBrHmx2psNALow/ con tanti video interessanti


I consigli che offriamo sono di natura generale. Non sono consigli legali o professionali. Quello che può funzionare per una persona potrebbe non essere adatto a un’altra, e dipende da molte variabili.
Per supportare e far crescere il canale in modo semplice, rapido e gratuito, potete fare acquisti su amazon usando il mio link di affiliazione.
Questo implica che io prenda una commissione ogni volta che qualcuno faccia un qualsiasi acquisto utilizzando il mio link di affiliazione https://amzn.to/4cgJ3Ls

Commenti