|
|
| << | < | > | >> |Indice
|
| << | < | > | >> |Pagina XIIIQuesto libro è scritto per un corso introduttivo di statistica o di probabilità e statistica per studenti di ingegneria, informatica, matematica, statistica o scienze naturali. Si presuppone che lo studente possegga le basi dell'analisi matematica. Il Capitolo 1 presenta la statistica dal punto di vista storico, e ne illustra le due branche principali, la statistica descrittiva e quella inferenziale. La prima di esse è sviluppata nel Capitolo 2, che spiega come rappresentare efficacemente un campione di dati in forma grafica o tabellare. Vengono pure introdotte delle quantità che sintetizzano i dati in un numero contenuto di informazioni significative: le statistiche campionarie. In tutti i casi in cui si cercano informazioni su una popolazione numerosa tramite l'esame di un campione casuale ridotto, vi è una certa aleatorietà nell'esperimento, e di conseguenza anche nelle conclusioni a cui si giunge. La teoria della probabilità è quindi indispensabile a formalizzare le conclusioni dell'inferenza statistica, ed è necessario che lo studente ne acquisisca le basi. Quest'ultimo è l'obiettivo del Capitolo 3, che introduce l'idea di esperimento probabilistico, illustra il concetto di probabilità di un evento e presenta gli assiomi della probabilità. Tale studio prosegue e viene sviluppato nel Capitolo 4, che si occupa dei fondamentali concetti di variabile aleatoria e di speranza matematica, e nel Capitolo 5, che passa in rassegna alcuni tipi speciali di variabili aleatorie che emergono spesso nelle applicazioni. Vengono definite le variabili aleatorie binomiali, di Poisson, ipergeometriche, normali, uniformi, gamma, chi-quadro, le t di Student e le F di Fisher. Nel Capitolo 6 studiamo la distribuzione di statistiche campionarie come la media e la varianza campionarie. Mostriamo come usare un notevole risultato della teoria della probabilità, il teorema del limite centrale, per approssimare la distribuzione di probabilità della media campionaria. Inoltre discutiamo la distribuzione congiunta di media e varianza campionaria nel caso fondamentale in cui i dati provengano da una popolazione gaussiana. Il Capitolo 7 mostra come usare i dati per stimare parametri di interesse. Pensiamo ad uno studioso che voglia determinare la frazione dei laghi statunitensi soggetta a piogge acide. Vi sono due tipologie di stimatori sostanzialmente diverse, che si possono considerare. Nel primo caso si stima la quantità in questione con un singolo numero (per esempio si potrebbe ottenere che il 47% circa dei laghi è interessato da piogge acide), mentre nel secondo si ricava una stima che ha la forma di un intervallo di valori (nel nostro esempio si potrebbe trovare che la percentuale di laghi colpiti da piogge acide cade tra il 45% ed il 49%). Il secondo tipo di stimatori ci dice anche il "livello di confidenza" che possiamo avere sulla loro validità. Infatti mentre è quasi impossibile che il valore reale coincida precisamente con quello da noi stimato inizialmente (47%), un intervallo di valori ci consente una maggiore sicurezza, e possiamo avere una certa confidenza (ad esempio del 95%) che la percentuale effettiva sia compresa tra il 45% ed il 49%. Il Capitolo 8 presenta i test di ipotesi, un settore importante che riguarda l'utilizzo dei dati per verificare la plausibilità di ipotesi definite in precedenza. Un esempio di ipotesi statistica valida potrebbe essere che meno del 44% dei laghi americani sia soggetto a piogge acide, e il test su un campione di quei laghi potrebbe permettere di escluderla, oppure accettarla. Viene quindi introdotto il concetto di p-dei-dati, una grandezza che misura il grado di plausibilità dell'ipotesi assegnata, dopo l'osservazione dei dati. Vengono presi in considerazione diversi tipi di test di ipotesi, in particolare quelli riguardanti media e varianza di una o due popolazioni normali, e quelli sui parametri delle distribuzioni di Bernoulli e di Poisson. Il Capitolo 9 si occupa della regressione. Vengono trattate sia la regressione lineare semplice, sia quella multipla, approfondite con lo studio dei residui, tecniche di linearizzazione, minimi quadrati pesati e cenni storici sul fenomeno del regressione alla media di Galton. Il Capitolo 10 introduce l'analisi della varianza. Vengono considerati sia i problemi ad una via sia quelli a due vie (con o senza interazione). Il Capitolo 11 riguarda i test di adattamento, che possono essere usati per verificare se il modello proposto sia compatibile coi dati. Il test classico del chi-quadro viene presentato e applicato alla verifica dell'indipendenza in tabelle di contingenza. La sezione finale del capitolo presenta il test di Kolmogorov-Smirnov, che si usa per verificare se i dati provengano da una distribuzione continua assegnata. Il Capitolo 12 affronta i test di ipotesi non parametrici, che possono essere impiegati quando non si è in grado di stabilire la particolare classe (ad esempio normale, o esponenziale) della distribuzione originale dei dati. Il Capitolo 13 considera il controllo di qualità, una tecnica statistica fondamentale per i processi di fabbricazione e produzione. Vengono affrontate diverse carte di controllo di Shewhart, e anche alcune più sofisticate, basate sulle medie mobili e le somme cumulate. Il Capitolo 14 affronta l'inferenza sul tempo di vita dei sistemi. In questo ambito è la distribuzione esponenziale piuttosto che la normale ad avere un ruolo chiave. Sul sito web dedicato a questo libro (www.apogeonline.com/libri/OO897/allegati/) è disponibile un software statistico liberamente scaricabile e che può essere usato per risolvere la gran parte dei problemi di statistica del testo. Il software è formato da una collezione di programmi. Una prima parte di essi consente di calcolare il p-dei-dati per la maggior parte dei test di ipotesi, compresi quelli sull'analisi della varianza e la regressione. Altri permettono di ottenere le probabilità che definiscono le più importanti distribuzioni. Un ultimo programma infine ha lo scopo di illustrare il Teorema del Limite Centrale; esso considera variabili aleatorie che assumono i valori O, l, 2, 3 e 4 con probabilità che sono assegnate dall'utente assieme ad un intero n, e visualizza la funzione di massa di probabilità della somma di n variabili aleatorie indipendenti con questa distribuzione. Facendo crescere n si può "vedere" la funzione di massa convergere alla forma tipica di una densità di probabilità gaussiana. | << | < | > | >> |Pagina 11 Una introduzione alla statisticaLa raccolta dei dati e la loro analisi sono strumenti indispensabili per capire a fondo la complessa realtà che ci circonda. La statistica è l'arte di apprendere dai dati. Essa si occupa della loro raccolta, della loro descrizione e della loro analisi, guidandoci nel trarre le conclusioni. | << | < | > | >> |Pagina 41.4 Una breve storia della statisticaLa raccolta sistematica di dati sulla popolazione e sull'economia ebbe origine a Venezia e a Firenze durante il Rinascimento. Il termine statistica deriva dalla parola stato, in quanto indicava una raccolta di fatti di interesse per lo stato. L'idea di raccogliere dati si diffuse dall'Italia a tutta l'Europa occidentale, ed entro la prima metà del sedicesimo secolo era generalmente diffusa la consuetudine, presso i governi europei, di richiedere alle parrocchie di registrare nascite, matrimoni e morti. A causa delle tragiche condizioni di salute pubbliche, quest'ultima statistica era di particolare importanza.
Fino al
diciannovesimo secolo, l'alta mortalità registrata in Europa era principalmente
dovuta a malattie epidemiche, guerre e carestie. Tra le epidemie, la peggiore
era la peste. A cominciare dalla Peste Nera del 1348, la peste comparve spesso
per quasi 400 anni. Nel 1562 la città di Londra cominciò a pubblicare
settimanalmente dei bollettini di mortalità, nel tentativo di tenere aggiornata
la corte reale, che stava considerando un trasferimento in campagna. All'inizio
questi bollettini elencavano solo il luogo dei decessi e se si trattasse di
morte per peste. Dal 1625 però furono estesi a comprendere anche le altre cause
di decesso.
----------------------------------------------- Tabella 1.1 Numero totale di decessi in Inghilterra Anno Decessi Di cui per la peste 1592 25886 11503 1593 17844 10662 1603 37294 30561 1625 51758 35417 1636 23359 10400 ----------------------------------------------- Nel 1662 il commerciante inglese John Graunt pubblicò un libro dal titolo Natural and Political Observation Made upon the Bills of Mortality. La Tabella 1.1 è stata estratta da tale libro; elenca il numero annuale di decessi in Inghilterra e quanti di essi furono imputati alla peste, per cinque diversi anni di diffusione del contagio. Graunt pensò di utilizzare i bollettini di mortalità per stimare la popolazione di Londra. Per stimare quella del 1660, ad esempio, Graunt fece delle ricerche in alcune parrocchie e sulle famiglie di vari quartieri, e scoprì che in media c'erano stati quell'anno circa 3 morti ogni 88 persòne. Dividendo per 3 si trova un decesso ogni 88/3 abitanti. Siccome i bollettini riportavano 13200 morti per Londra quell'anno, Graunt stimò che la popolazione complessiva di Londra fosse di circa
Graunt riuscì anche ad impiegare questi dati - ed un po' di intelligenti
supposizioni su quali malattie sono mortali alle diverse età - per stimare le
età al momento dei decessi. (Si ricordi che i bollettini elencavano solo luoghi
e cause delle morti e non le età dei deceduti.) Utilizzò quindi queste
informazioni per compilare delle tabelle che davano la percentuale di
popolazione che muore alle diverse età. La Tabella 1.2 è una di queste tabelle
di mortalità. Essa dice che su 100 nati, 36 morivano prima di arrivare a 6 anni,
24 morivano tra i 6 ed i 15 anni e così via.
----------------------------------------------- Tabella 1.2 Tabella delle mortalità di John Graunt (Le classi di età arrivano fino all'estremo destro escluso. Ad esempio 0-6 significa tutte le età dagli O ai 5 anni.) Tempo di vita Numero di decessi su 100 nascite 0-6 36 6-16 24 16-26 15 26-36 9 36-46 6 46-56 4 56-66 3 66-76 2 76 o più 1 ----------------------------------------------- La stima della speranza di vita era di grande interesse per coloro che si occupavano di rendite vitalizie. Queste ultime sono l'opposto delle assicurazioni sulla vita, poiché inizialmente si versa una somma come investimento e si ha poi diritto alla riscossione di pagamenti regolari per tutta la durata della vita rimanente. Il lavoro di Graunt sulle tabelle di mortalità ispirò nel 1693 le ricerche di Edmund Halley. Halley, lo scopritore dell'omonima cometa (nonché la persona che permise, con incoraggiamenti e supportandola finanziariamente, la pubblicazione dei Principia Mathematica di Isaac Newton), usò le tabelle di mortalità per stabilire con che probabilità una persona di una data età sarebbe vissuta fino ad un qualunque numero di anni. Halley con la sua influenza riuscì a convincere le compagnie assicuratrici che i premi delle assicurazioni dovevano dipendere dall'età dell'assicurato. Dopo Graunt e Halley, la raccolta di dati si accrebbe stabilmente per tutto il resto del diciassettesimo e durante il diciottesimo secolo. Anche Parigi nel 1667 iniziò a registrare i decessi e nel 1730 era ormai pratica comune in tutta Europa annotare anche le età in cui avvenivano. Il termine statistica, che per tutto il diciottesimo secolo veniva usato come abbreviazione di scienza descrittiva dello stato, dal secolo successivo iniziò ad essere associato ai numeri. Entro il 1830 era diventato sinonimo di "scienza numerica" della società. Questo cambiamento di significato fu consentito dalla vasta disponibilità di registrazioni censuarie ed altri dati che, a partire dal 1800 circa, vennero raccolti sistematicamente dai governi dell'Europa occidentale e dagli Stati Uniti. Durante il diciannovesimo secolo, anche se la teoria della probabilità era stata sviluppata da matematici come Jacob Bernoulli, Karl Friedrich Gauss e Pierre-Simon Laplace, il suo uso per studiare risultati statistici era praticamente inesistente, dato che molti statistici di quel tempo sostenevano l'autoevidenza dei dati. In particolare essi non erano tanto interessati a fare inferenza su singoli, quanto sulla società nel suo insieme, e per questo non studiavano campioni statistici, ma cercavano di ottenere dati sempre più completi dell'intera popolazione. L'inferenza probabilistica da un campione alla popolazione era quasi del tutto ignota alla statistica sociale di quel secolo. Negli ultimi anni dell'800, la statistica iniziò ad occuparsi di inferire conclusioni a partire da dati numerici. Tra i fautori di questo approccio vanno ricordati Francis Galton, il cui lavoro di analisi sull'ereditarietà dell'intelligenza introdusse ciò che ora chiamiamo regressione e analisi della correlazione (si veda il Capitolo 9), e Karl Pearson. Pearson sviluppò il test del chi-quadro per verificare la bontà di un fit (si veda il Capitolo 11), e fu il primo direttore del Laboratorio Galton, fondato per donazione di Francis Galton nel 1904. Qui Pearson organizzò un programma di ricerca mirato allo sviluppo di nuovi metodi per la statistica e l'inferenza. Vi si accoglievano studenti avanzati di materie scientifiche ed industriali che venivano ad imparare le tecniche statistiche per poterle poi applicare nei loro campi. Uno dei primi ricercatori ospiti dell'istituto fu W. S. Gosset, un chimico di formazione, che dimostrò la sua devozione a Pearson pubblicando i propri lavori sotto lo pseudonimo di "Student". (Altri sostengono che Gosset non volesse pubblicare con il suo vero nome per timore che i suoi datori di lavoro alla fabbrica di birra Guinness non avrebbero approvato che uno dei loro chimici facesse ricerche di statistica.) Gosset è celebre per aver sviluppato la teoria del test t (si veda il Capitolo 8).
I due campi di maggiore importanza per la statistica applicata dell'inizio
del ventesimo secolo erano la biologia delle popolazioni e l'agricoltura, e ciò
era dovuto al personale interesse dello stesso Pearson e di altri nel
laboratorio, come pure ai notevoli risultati dello scienziato inglese Ronald A.
Fisher. La teoria dell'inferenza sviluppata da questi pionieri (tra i quali
citiamo anche il figlio di Karl Pearson, Egon, ed il matematico di origini
polacche Jerzy Neyman) era abbastanza generale da adattarsi ad un gran numero di
problemi quantitativi e pratici. Per questo, dopo i primi anni del secolo, un
numero rapidamente crescente di persone che si occupavano di scienze, affari e
governo incominciarono a considerare la statistica come il principale strumento
capace di fornire risposte quantitative a problemi scientifici e pratici (si
veda la Tabella 1.3).
----------------------------------------------- Tabella 1.3 L'evoluzione nelle definizioni di statistica La statistica ha quindi per suo oggetto quello di presentare una fedele rappresentazione di uno stato in una determinata epoca. (Quetelet, 1849) Le statistiche sono gli unici strumenti tramite i quali è possibile aprire una breccia nella formidabile barriera di difficoltà che blocca il cammino di chi ricerca la Scienza dell'uomo. (Galton, 1889) La statistica può essere vista come (i) lo studio delle popolazioni, (ii) lo studio della variabilità, (iii) lo studio dei metodi di riduzione dei dati. (Fisher, 1925) La statistica è una disciplina scientifica che si occupa della raccolta, analisi ed interpretazione dei dati ottenuti da osservazioni sperimentali. Questa materia ha una struttura coerente che si basa sulla teoria della probabilità e include molte tecniche differenti che si affiancano alla ricerca e allo sviluppo in tutti i campi della Scienza e della Tecnologia. (E. Pearson, 1936) Statistica è il nome della scienza nonché arte che si occupa delle inferenze non certe - che impiega i numeri per dare risposte sulla natura e sull'esperienza. (Weaver, 1952) La statistica è stata riconosciuta nel ventesimo secolo come lo strumento matematico capace di analizzare i dati degli esperimenti e quelli osservati in ogni contesto. (Porter, 1986) La statistica è l'arte di apprendere dai dati. (Questo libro, 1999) -----------------------------------------------
Attualmente gli accenni alla statistica sono ovunque. In tutti i quotidiani
e le riviste vi sono esempi di statistica descrittiva. L'inferenza statistica
invece è divenuta indispensabile per la salute dell'uomo e la ricerca medica,
per l'ingegneria e gli studi scientifici, per il marketing ed il controllo di
qualità, per l'istruzione, per la contabilità, l'economia, le previsioni
meteorologiche, per i sondaggi e le inchieste, per gli sport, le assicurazioni,
il gioco e per tutti i tipi di ricerca che abbiano delle pretese di
scientificità. La statistica è senza dubbio divenuta parte integrante della
nostra eredità culturale.
|