|
|
| << | < | > | >> |IndicePrefazione XI 1 Introduzione 1 1.1 Uno scenario 2 1.2 La vita nello spazio e nel tempo 3 1.3 I dogmi: centrale e periferico 4 1.4 Osservabili e archivi di dati 7 1.4.1 Cura, annotazione e controllo di qualità 9 1.5 Il World Wide Web 10 1.5.1 Gli URL 12 1.5.2 Le pubblicazioni elettroniche 12 1.6 I computer e la scienza computazionale 12 1.6.1 Programmazione 13 1.7 Classificazione biologica e nomenclatura 17 1.8 Uso delle sequenze per la determinazione delle relazioni filogenetiche 20 1.8.1 Uso di SINE e LINE nella derivazione di relazioni filogenetiche 26 1.9 Ricerca di sequenze simili nelle banche dati: PS1-BLAST 28 1.10 Introduzione alla struttura delle proteine 34 1.10.1 La natura gerarchica dell'architettura delle proteine 36 1.10.2 Classificazione delle strutture proteiche 38 1.11 Predizione e ingegnerizzazione della struttura delle proteine 44 1.11.1 Valutazione critica delle predizioni di struttura (GASP) 45 1.11.2 Ingegneria proteica 46 1.12 Implicazioni cliniche 46 1.12.1 Il futuro 48 2 Organizzazione ed evoluzione del genoma 57 2.1 Genomica e proteomica 57 2.1.1 I geni 57 2.1.2 Le proteine 60 2.1.3 I proteomi 60 2.1.4 Intercettare la trasmissione dell'informazione genetica 63 2.1.5 Mappatura tra mappe 65 2.1.6 Mappe a elevata risoluzione 67 2.2 Individuare i geni nel genoma 70 2.3 Genomi di procarioti 71 2.3.1 Il genoma del batterio Escherichia coli 71 2.3.2 Il genoma dell'archibatterio Methanococcus jannaschii 74 2.3.3 Il genoma di uno dei più semplici organismi: Mycoplasma genitalium 75 2.4 Genomi di eucarioti 76 2.4.1 Il genoma di Saccharomyces cerevisiae (il lievito del panettiere) 78 2.4.2 Il genoma di Caenorhabditis elegans 81 2.4.3 Il genoma di Drosophila melanogaster 82 2.4.4 Il genoma di Arabidopsis thaliana 83 2.5 Il genoma dell'Homo sapiens (il genoma umano) 84 2.5.1 I geni che codificano perproteine 85 2.5.2 Le sequenze ripetute 86 2.5.3 L'RNA 87 2.6 I Single Nucleotide Polymorphisms o SNP 87 2.7 La diversità genetica in antropologia 90 2.7.1 Diversità genetica e identificazione personale 90 2.7.2 Analisi genetica dell'addomesticamento dei bovini 91 2.8 Evoluzione dei genomi 91 2.8.1 Per piacere, passami il gene: il trasferimento genico orizzontale 95 2.8.2 Genomica comparativa degli eucarioti 96 3 Archivi e ricerca dell'informazione 103 3.1 Introduzione 103 3.1.1 Indicizzazione delle banche dati e specificazione dei termini di ricerca 103 3.1.2 Proseguimento della ricerca 105 3.1.3 Analisi dei dati trovati 105 3.2 Gli archivi 105 3.2.1 Banche dati di sequenze di acidi nucleici 106 3.2.2 Banche dati genomiche 108 3.2.3 Banche dati di sequenze proteiche 108 3.2.4 Banche dati di strutture 111 3.2.5 Banche dati specializzate o "boutique" 118 3.2.6 Banche dati di espressione e proteomiche 119 3.2.7 Banche dati di vie metaboliche 121 3.2.8 Banche dati bibliografiche 121 3.2.9 Compendi di banche dati e server di biologia molecolare 122 3.3 Accesso agli archivi 122 3.3.1 Accesso alle banche dati di biologia molecolare 123 3.3.2 Entrez 123 3.3.3 Sequence Retrieval System (SRS) 131 3.3.4 Protein Identification Resource (PIR) 133 3.3.5 Expert Protein Analysis System (Expasy) 136 3.3.6 Ensembl 137 3.4 Dove siamo diretti 139 4 Allineamenti di sequenze e alberi filogenetici 143 4.1 Introduzione agli allineamenti di sequenze 143 4.2 Il dotplot 144 4.3 Dotplots e allineamenti di sequenze 149 4.4 Misura delle similarità di sequenza 154 4.4.1 Assegnazione del punteggio 154 4.5 Valutazione dell'allineamento di due sequenze 157 4.5.1 Variazioni e generalizzazioni 159 4.5.2 Metodi approssimativi per lo screening veloce dei database 159 4.6 L'algoritmo di programmazione dinamica per l'allineamento ottimale di coppie di sequenze 159 4.7 Significato degli allineamenti 165 4.8 Allineamenti multipli di sequenze 168 4.9 Informazioni strutturali ottenibili dagli allineamenti multipli di sequenze 169 4.10 Applicazioni degli allineamenti multipli di sequenze alle ricerche nei database 170 4.10.1 I profili 171 4.10.2 PSI-BLAST 173 4.10.3 Hidden Markov Models (HMM) 175 4.11 Filogenia 177 4.12 Alberi filogenetici 180 4.12.1 Metodi di raggruppamento (clustering) 182 4.12.2 Metodi cladistici 184 4.12.3 Il problema delle diverse velocità evolutive 185 4.12.4 Considerazioni dal punto di vista computazionale 186 5 Struttura delle proteine e scoperta di nuovi farmaci 195 5.1 Introduzione 195 5.2 Stabilità e ripiegamento delle proteine 197 5.2.1 Il grafico di Sasisekharan-Ramakrishnan- Ramachandran descrive le possibili conformazioni della catena principale 197 5.2.2 Le catene laterali 199 5.2.3 Stabilità e denaturazione delle proteine 200 5.2.4 Il ripiegamento delle proteine 202 5.3 Applicazioni dell'idrofobicità 204 5.4 Sovrapposizione di strutture e allineamenti strutturali 208 5.5 DALI (Distance-matrix ALIgnment) 210 5.6 Evoluzione delle strutture proteiche 211 5.7 Classificazione delle strutture proteiche 213 5.7.1 SCOP 213 5.8 Predizione e modelling delle strutture proteiche 214 5.8.1 Valutazione critica delle predizioni di struttura (CASP) 215 5.8.2 Predizione della struttura secondaria 217 5.8.3 Modelling per omologia 221 5.8.4 Riconoscimento del tipo di ripiegamento 224 5.8.5 Riconoscimento del tipo di ripiegamento al CASP2000 227 5.8.6 Calcolo dell'energia conformazionale e dinamica molecolare 228 5.8.7 ROSETTA 230 5.8.8 LINUS 232 5.9 Assegnazione di strutture proteiche ai genomi 234 5.10 Predizione della funzione delle proteine 236 5.10.1 Divergenza di funzione: ortologhi e paraloghi 237 5.11 Scoperta e sviluppo di nuovi farmaci 239 5.11.1 Il composto guida 241 5.11.2 Progettazione dei farmaci con l'aiuto del computer 243 Conclusioni 253 |
| << | < | > | >> |Pagina XII1953 Viene pubblicata la struttura del DNA di Watson e Crick. 1975 F. Ranger, e indipendentemente Maxam e Gilbert, sviluppano dei metodi per sequenziare il DNA. 1977 Viene sequenziato il DNA del batteriofago ØX-174: il primo "genoma completo". 1980 La Corte Suprema americana decide che i batteri geneticamente modificati sono brevettabili. Questa decisione rappresenta la fonte giuridica per il brevetto dei geni. 1981 Sequenziamento del DNA mitocondriale umano: 16569 coppie di basi. 1984 Sequenziamento del genoma del virus di Epstein-Barr: 172281 coppie di basi. 1990 Viene lanciato il Progetto Genoma Umano - durata prevista: 15 anni. 1991 J.C. Venter e colleghi identificano i geni attivi attraverso le Expressed Sequence Tags: sequenze di porzioni iniziali di DNA complementari a RNA messaggeri. 1992 Viene completata la mappa di concatenazione a bassa risoluzione del genoma umano. 1992 Inizia il progetto di Sequenziamento del DNA di Caenorhabditis elegans. 1992 Wellcome Trust e United Kingdom Medical Research Council fondano il Sanger Centre per il Sequenziamento del genoma su larga scala diretto da J. Sulston. 1992 J.C. Venter fonda The Institute for Genome Research (TIGR), in associazione con un progetto per sfruttare commercialmente il Sequenziamento attraverso l'identificazione di geni e la scoperta di farmaci. 1995 Prima sequenza completa di un genoma batterico, Haemophilus influenzae a opera del TIGR. 1996 Mappa a elevata risoluzione del genoma umano: i marcatori sono spaziati di circa 600000 paia di basi. 1996 Completamento del genoma di lievito, la prima sequenza genomica di un eucariote. Maggio 1998 Celera annuncia di essere in grado di completare il Sequenziamento del genoma umano per il 2001. Wellcome risponde aumentando i fondi al Sanger Centre. 1998 Viene pubblicata la sequenza del genoma di Caenorhabditis elegans. Primo settembre 1999 Celera annuncia la sequenza del genoma di Drosophila melanogaster, rendendola pubblica nella primavera del 2000. 1999 Il Progetto Genoma Umano stabilisce un obiettivo: la prima mappatura della sequenza del genoma umano nel 2001 (90% dei geni sequenziato con un'accuratezza maggiore del 95%). Primo dicembre 1999 Viene pubblicata la sequenza completa del primo cromosoma umano. 26 giugno 2000 Annuncio congiunto del Sequenziamento completo del genoma umano. 2003 Cinquantesimo anniversario della scoperta della struttura del DNA. Questa data era l'obiettivo per il completamento della sequenza a elevata qualità del genoma umano da parte del consorzio pubblico. | << | < | > | >> |Pagina XVL'obiettivo del presente libro è che i lettori acquisiscano: • la capacità di apprezzare la natura dell'enorme quantità di informazioni riguardo a noi stessi e alle altre specie che si è resa disponibile;• il senso delle possibilità applicative della bioinformatica alla biologia molecolare, alla clinica medica, alla farmacologia, alle biotecnologie, all'agricoltura, alla medicina forense, all'antropologia e alle altre discipline; • un'utile conoscenza delle tecniche mediante le quali, attraverso il World Wide Web, abbiamo accesso ai dati e ai metodi per analizzarli; • la capacità di apprezzare il ruolo dei computer e dell'informatica nelle ricerche e nelle applicazioni dei dati; • una fiducia nelle proprie abilità di base di recuperare le informazioni, di effettuare calcoli con i dati e di estendere queste abilità a un "lavoro sul campo" autodiretto all'interno del Web;
• un senso di ottimismo riguardo al fatto che i dati e i metodi della
bioinformatica determineranno progressi decisivi nella nostra comprensione della
vita, oltre a miglioramenti nella salute degli uomini e degli altri esseri
viventi.
• Il Capitolo 1 allestisce lo scenario e introduce tutti gli attori principali: le sequenze e le strutture di DNA e di proteine, i genomi e i proteomi, i database e il recupero delle informazioni, il World Wide Web e la programmazione al computer. Prima di sviluppare in dettaglio i singoli argomenti, è importante considerare infatti l'insieme delle loro interazioni. • Il Capitolo 2 presenta la natura dei singoli genomi, compreso quello umano, e le relazioni tra di essi, dal punto di vista biologico. • Il Capitolo 3 impartisce le nozioni di base per l'utilizzo del Web in bioinformatica. Descrive le banche dati di archivi e conduce il lettore attraverso sessioni dimostrative che comportano il recupero di informazioni da alcuni dei principali database in biologia molecolare. • Il Capitolo 4 tratta l'analisi delle relazioni tra le sequenze: allineamenti e alberi filogenetici. Questi metodi sono alla base di alcune delle maggiori sfide computazionali della bioinformatica: individuare specie lontanamente correlate, comprendere la relazione tra i genomi di organismi diversi e tracciare il corso dell'evoluzione a livello molecolare e di specie. • Il Capitolo 5 si sposta nel tridimensionale, poiché tratta la struttura delle proteine e il folding. La sequenza e la struttura devono essere viste in modo strettamente associato, il compito della bioinformatica essendo quello di sviluppare metodi per muoversi avanti e indietro tra di esse il più agevolmente possibile. Comprendere nei dettagli la struttura delle proteine è essenziale per determinarne il meccanismo d'azione, nonché per le applicazioni cliniche e farmacologiche. | << | < | > | >> |Pagina 101.5 Il World Wide WebÈ molto probabile che tutti i lettori abbiano usato il World Wide Web per cercarvi fonti bibliografiche, notizie o per accedere a database di biologia molecolare, per verificare informazioni personali circa individui (amici o colleghi o celebrità) oppure semplicemente per navigare. Fondamentalmente, il Web è un mezzo per stabilire contatti interpersonali e collegamenti fra computer mediante le reti. Esso costituisce un villaggio globale completo, che contiene l'equivalente di biblioteche, uffici postali, negozi e scuole. Voi, gli utenti, eseguite un programma di ricerca sul vostro computer. I browsers più comuni sono Netscape e Internet Explorer. Con questi programmi è possibile leggere e mostrare materiale proveniente da tutto il mondo. Gli stessi programmi presentano anche informazioni di controllo che permettono di seguire le tracce avanti e indietro o di interrompere un percorso di ricerca collaterale. I programmi consentono anche di scaricare informazioni sul vostro computer locale. Il materiale visualizzato contiene collegamenti (link) che vi forniscono la possibilità di saltare ad altre pagine o ad altri siti, aggiungendo nuove dimensioni alla vostra navigazione. Le interconnessioni animano il Web. Quello che fa del cervello umano qualcosa di così speciale non è il numero assoluto dei neuroni, ma piuttosto la densità delle loro interconnessioni. Analogamente, non è il numero delle entries che rende il Web così potente, ma le loro reticolazioni. I collegamenti risultano visibili in ogni momento nel materiale che state visionando. Eseguendo un programma di ricerca, si può visualizzare una pagina o una cornice. Il materiale visualizzato contiene oggetti attivi come parole, tasti o figure. Questi sono usualmente distinti da colori evidenziati. Selezionandoli, si attua un trasferimento a una nuova pagina. Al tempo stesso, si lascia automaticamente una traccia costituita da "briciole elettroniche", in modo tale che si possa ritornare al collegamento chiamante per dare un'ulteriore occhiata alla pagina da cui si è partiti. I collegamenti possono essere interni o esterni. I collegamenti interni possono condurvi ad altre sezioni di un documento corrente, oppure a immagini, filmati o suoni. I collegamenti esterni vi consentono di scendere verso documenti più specializzati, oppure di salire verso documenti di carattere più generale (che forse possono fornire una base per del materiale tecnico); ci si può muovere anche lateralmente verso documenti paralleli (altri documenti sullo stesso soggetto), oppure al di sopra verso directories che mostrano quali altri importanti materiali siano disponibili. La cosa più importante da fare, per iniziare a usare il Web in modo efficiente, è quella di trovare punti di ingresso utili. Una volta che la sessione è iniziata, i collegamenti vi porteranno esattamente dove volete andare. Fra i più importanti siti vi sono i motori di ricerca che costituiscono l'indice dell'intero Web e permettono la ricerca mediante l'uso di parole chiave. Potete fornire uno o più termini (come, per esempio, "fosforilasi", "cambiamento allosterico", "struttura cristallografica"), e il programma di ricerca vi fornirà una lista di collegamenti a siti web che contengono questi termini. Potrete così identificare i siti più importanti per i vostri interessi. Una volta completata con successo una sessione, quando vi collegherete successivamente, la memoria di intersessione dei browsers vi consentirà di riprendere esattamente da dove eravate rimasti. Durante una sessione, mentre state prendendo visione di un documento al quale vorreste ritornare, potete salvare il collegamento in un file di segnalibri o di preferiti (bookmarks o favorites). Durante una sessione successiva, potrete ritornare a uno qualunque di questi siti direttamente, senza dover seguire il percorso dei collegamenti che vi hanno portato a quel sito la prima volta. Il Web non è neppure una via a senso unico: molti documenti del Web comprendono spazi in cui è possibile inserire delle informazioni o lanciare un programma che restituisca risultati all'interno della stessa sessione. Un esempio comune è quello dei motori di ricerca. Molti calcoli di bioinformatica possono oggi essere lanciati proprio attraverso questi web servers. Se i calcoli sono troppo lunghi, i risultati possono non essere restituiti all'interno della stessa sessione, ma essere spediti via e-mail. | << | < | > | >> |Pagina 1233.3.1 Accesso alle banche dati di biologia molecolareCome imparare a muoversi nel Web Sarebbe difficile imparare ad andare in bicicletta leggendo un libro che descrive l'insieme dei movimenti richiesti, e ancor meno uno sulla teoria del giroscopio. Analogamente, il posto adatto per imparare a muoversi nel Web è un terminale con un programma di navigazione. Ciononostante, c'è sempre un certo periodo iniziale di difficoltà e sconcerto. Lo scopo qui è soltanto quello di fornire una temporanea assistenza che vi permetta di partire. Poi, pedalare!
Nelle prossime pagine verranno presentate alcune delle principali banche
dati e si descriveranno i sistemi di ricerca delle informazioni in biologia
molecolare. In ciascun caso, mostreremo ricerche e applicazioni relativamente
semplici. Quando sarà opportuno, verranno sottolineate le proprietà specifiche
di ciascun sistema.
3.3.2 Entrez Il National Center for Biotechnology Information, una componente della United States National Library of Medicine, mantiene alcune banche dati e sistemi di accesso a esse. Entrez offre accesso attraverso le seguenti divisioni di banche dati: • Protein. • Peptide. • Nucleotide. • Structure. • Genome. • Popset (informazioni su popolazioni). • OMIM (Online Mendelian Inheritance in Man). I collegamenti tra diverse banche dati sono un punto di forza del sistema della NCBI. Il punto di partenza per la ricerca di sequenze e strutture è detto Entrez: http:// www.ncbi.nlm.nih.gov/Entrez/.
Prendiamo in considerazione una molecola, la elastasi neutrofila umana, e
cerchiamo delle entry correlate nelle diverse sezioni di Entrez.
Ricerca nella banca dati di proteine Entrez Andare all'indirizzo http://www.ncbi.nlm.nih.gov/Entrez/. Selezionare Protein, inserire i termini di ricerca HUMAN ELASTASE e fare click su Go. Il programma restituisce 390 risposte, di cui il Box sottostante mostra le prime 15. La prima risposta dell'elenco è ELASTASE 1 PRECURSOR [HOMO SAPIENS]; tra le altre risposte si trovano elastasi da altre specie, inibitori dell'elastasi umana e da zanzara, e una tirosil-tRNA sintetasi. (Perché una proteina da zanzara e una tRNA sintetasi dovrebbero comparire in una ricerca per l'elastasi umana? Si veda Weblema 3.9.) Vedremo più avanti in che modo affinare la ricerca per poter escludere queste risposte non pertinenti. Le risposte hanno il seguente formato: in ciascun caso, la prima riga fornisce il nome e i sinonimi della molecola e la specie da cui proviene. Si noti che le lettere dell'alfabeto greco vengono traslitterate in testo. L'ultima riga fornisce collegamenti alle banche dati sorgenti: gi = codice identificativo di GenInfo (GenInfo Identifier, si veda Box pag. 20); gb = numero identificativo di GenBank; sp = Swiss-Prot; pir = Protein Identification Resource; ref = codice del progetto Reference Sequence della NCBI. Le entry trovate comprendono l'elastasi umana e da altre specie, oltre a inibitori dell'elastasi. Entrando nella pagina della entry corrispondente alla prima risposta, si trova il file mostrato nel Box a pag. 125. Le prime righe sono principalmente informazioni che riguardano la gestione della entry da parte della banca dati (codici identificativi, nome della molecola, data di deposizione ecc.). Segue materiale descrittivo come la fonte (in questo caso, uomo) con la classificazione tassonomica completa, menzioni agli scienziati che hanno depositato la entry e riferimenti bibliografici. Per ultima viene elencata l'informazione scientifica specifica: la localizzazione del gene, i suoi prodotti (CDS = coding sequence) e la sequenza stessa (si veda Esercizio 3.2). | << | < | > | >> |Pagina 1754.10.3 Hidden Markov Models (HMM)Gli Hidden Markov Models sono strutture computazionali utilizzate per descrivere pattern precisi che definiscono le famiglie di sequenze omologhe. Gli HMM sono strumenti potenti per identificare correlazioni lontane e per predire i pattern di ripiegamento delle proteine. Essi sono gli unici metodi basati interamente su sequenze (che cioè non utilizzano esplicitamente informazioni strutturali) che possono competere con PSI-BLAST nell'identificare omologie lontane. Gli HMM forniscono buone prestazioni anche a livello di riconoscimento dei motivi di folding, come dimostrato nei programmi CASP. All'interno di un HMM, si trova un allineamento multiplo di sequenza. Tuttavia, gli HMM vengono solitamente presentati come procedure per produrre sequenze. Anche una tabella convenzionale di allineamenti multipli di sequenze può essere utilizzata per produrre sequenze, selezionando gli aminoacidi in posizioni successive, ciascuno dei quali viene scelto a partire da una distribuzione di probabilità posizione-specifica ottenuta da un profilo. Tuttavia, gli HMM hanno un carattere più generale rispetto ai profili. 1. Essi comprendono la possibilità di introdurre dei gap nelle sequenze prodotte, con delle penalità che dipendono dalla posizione del gap stesso. 2. L'applicazione dei profili richiede che l'allineamento multiplo di sequenza sia specificato preliminarmente; i pattern statistici vengono successivamente dedotti dagli allineamenti. Gli HMM eseguono l'allineamento e l'assegnazione delle probabilità contemporaneamente La struttura interna di un HMM mostra il meccanismo utilizzato per produrre le sequenze (Figura 4.6). Cominciate da "Inizio" e seguite alcune delle frecce fino ad arrivare a "Fine". Ogni freccia vi conduce in uno stato del sistema. In corrispondenza di ogni stato, dovete (1) compiere qualche azione (estrarre un residuo per esempio) e (2) scegliere una freccia che vi porti a uno stato successivo. L'azione e la scelta dello stato successivo sono governati da un insieme di probabilità. Associati a ogni stato che produce un residuo sono: una distribuzione di probabilità per i venti aminoacidi e una seconda distribuzione di probabilità per la scelta dello stato successivo. Entrambe queste distribuzioni di probabilità sono calibrate in modo da codificare un'informazione riguardo a una particolare famiglia di sequenze. In questo modo, la stessa cornice generale matematica può adattarsi a molte famiglie di sequenze diverse. Le dinamiche del sistema sono tali che solo lo stato attuale influenza la scelta dello stato successivo: il sistema non ha "memoria della propria storia". Ciò è caratteristico dei processi studiati nel XIX secolo dal matematico russo A.A. Markov. Occorre distinguere la successione degli stati dalla successione degli aminoacidi forniti per formare la sequenza output. Percorsi diversi attraverso il sistema possono produrre la stessa sequenza. Solo la successione dei caratteri emessi è visibile; la sequenza di uno stato che ha prodotto i caratteri rimane interna al sistema, cioè nascosta (in inglese, hidden). In base alla distribuzione delle probabilità associate ai singoli stati, il sistema cattura, o modella, i pattern inerenti a una famiglia di sequenze. Da qui il nome di Hidden Markov Models. Il software per applicare gli HMM all'analisi delle sequenze biologiche permette di ottenere: 1. L'allineamento. Dato un insieme di sequenze omologhe, esso può allinearle e aggiustare le probabilità di transizione e di emissione dei residui in modo da definire un HMM che permetta di identificare i pattern inerenti alle sequenze sottoposte. I.J. Gough, K. Karplus, R. Hughey e C. Chothia hanno prodotto HMM per tutte le superfamiglie contenute in PDB: http://stash.mrc-lmb.cam.ac.uk/SUPERFAMILY/ 2. L'individuazione di omologie lontane. Dato un HMM e una sequenza di prova, si può calcolare la probabilità che un HMM produca la sequenza di prova stessa. Se un HMM allenato su una famiglia nota di sequenze produce la sequenza di prova con una probabilità relativamente elevata, è probabile che la sequenza di prova appartenga alla famiglia. 3. L'allineamento di sequenze addizionali. La probabilità di qualunque sequenza di stati viene computata a partire dalle probabilità delle singole transizioni da stato a stato. Trovare la sequenza più probabile di stati che l'HMM utilizzerebbe per produrre una o più sequenze di prova rivela l'allineamento ottimale con la famiglia di sequenze. | << | < | > | >> |Pagina 1955
Struttura delle proteine e scoperta di nuovi tarmaci
5.1 Introduzione La grande varietà di strutture tridimensionali e di funzioni delle proteine deriva da molecole che hanno delle proprietà fondamentali comuni. Da un punto di vista chimico, le proteine assomigliano alle ghirlande di luci degli alberi di Natale: ogni proteina consiste di una catena principale composta da un polimero lineare (cioè, non ramificato) alla quale sono attaccate a intervalli regolari catene laterali di aminoacidi (Figura 1.6). Il filo che collega le lampadine corrisponde alla catena principale (o spina dorsale) formata da unità ripetitive, mentre la sequenza variabile dei colori delle lampadine corrisponde alla particolare sequenza delie catene laterali. La sequenza aminoacidica di una proteina è determinata dalla sequenza nucleotidica del gene. Le strutture tridimensionali delle molecole proteiche sono determinate, senza ulteriore partecipazione degli acidi nucleici, dalle sequenze monodimensionali dei loro aminoacidi. Le proteine si ripiegano spontaneamente assumendo le loro conformazioni native. In che modo la sequenza aminoacidica codifica per la struttura tridimensionale? Ogni possibile ripiegamento della catena principale porta diversi residui a contatto l'uno con l'altro. Le interazioni della catena principale e delle catene laterali, sia l'una con l'altra sia con il solvente, nonché le restrizioni imposte alla mobilità della catena principale, determinano le stabilità relative delle varie conformazioni. Ciò non è altro che una conseguenza del secondo principio della termodinamica, secondo il quale un sistema a temperatura e pressione costanti trova un equilibrio che rappresenta un compromesso tra la comodità (bassa entalpia, H) e la libertà (alta entropia, S), raggiungendo un valore minimo dell'energia libera di Gibbs G = H — TS, dove T è la temperatura assoluta. (Nelle relazioni umane, il matrimonio è proprio un compromesso di questo genere.) Le proteine sono evolute in modo che uno dei possibili ripiegamenti della catena principale abbia un significativo vantaggio termodinamico rispetto alle altre conformazioni. Questo ripiegamento rappresenta lo stato nativo. Se potessimo calcolare in modo sufficientemente accurato i valori dell'energia e dell'entropia delle diverse conformazioni, e se potessimo anche esaminare con metodi computazionali un insieme abbastanza grande di possibili conformazioni da poter essere certi che comprenda anche quella corretta, sarebbe allora possibile predire a priori con certezza le strutture delle proteine sulla base dei principi fisico-chimici. Questo obiettivo non è stato per ora raggiunto, sebbene siano stati compiuti notevoli progressi in tal senso. La catena principale di ogni proteina nel suo stato nativo percorre una curva nello spazio. Si conoscono oggi le strutture di circa 15000 proteine (tra cui molte di una stessa proteina o di suoi mutanti puntiformi) che mostrano una grande varietà di tipi di ripiegamento. Il primo problema nell'analizzare tali strutture è dato dal modo di presentarle. La Figura 5.1 illustra, per la piccola proteina acilfosfatasi, la difficoltà di interpretare una rappresentazione fedele, molto dettagliata, e il tipo di immagini semplificate che i programmi dei computer producono per darci un accesso visuale al materiale. Un sistema attivo di lavoro a domicilio ha prodotto svariate rappresentazioni semplificate che un bravo illustratore molecolare può combinare per mostrare parti differenti di una struttura a un livello di dettagli finemente regolato.
La zona centrale della Figura 5.1 evidenzia l'andamento della catena
principale dell'acilfosfatasi nello spazio. Due regioni nella parte anteriore
dell'immagine hanno la forma di eliche (come le tipiche insegne dei barbieri
americani) con i loro assi in posizione quasi verticale nell'orientamento
mostrato. L'acilfosfatasi contiene anche quattro filamenti ß, anch'essi con un
orientamento approssimativamente verticale. I quattro filamenti interagiscono
lateralmente a formare e stabilizzare un foglietto ß. Nel pannello inferiore, le
eliche e i filamenti sono rappresentati come "icone": le eliche come cilindri e
i filamenti ß come larghe frecce. La zona superiore della Figura 5.1 mostra
invece la rappresentazione più dettagliata della struttura, che comprende sia la
catena principale sia quelle laterali, e indica l'importanza della
semplificazione per produrre un'immagine comprensibile persino nel caso di una
proteina piccola.
5.2 Stabilità e ripiegamento delle proteine Sebbene non sia ancora possibile predire la struttura delle proteine partendo soltanto dai principi fisici di base, siamo tuttavia in grado di capire la natura generale delle interazioni che determinano tale struttura. Per poter assumere la struttura nativa, una proteina deve ottimizzare sia le interazioni tra i residui sia quelle all'interno di ciascuno di essi. La curva tridimensionale tracciata dalla catena principale impone dei vincoli a tali interazioni. L'esistenza delle conformazioni preferite della catena principale fa sì che i tipi di ripiegamento tendano verso alcuni motivi strutturali ricorrenti: eliche, regioni estese che interagiscono a formare foglietti e vari tipi standard di anse (o turns). | << | < | > | >> |Pagina 2365.10 Predizione della funzione delle proteineIl flusso del ragionamento inferenziale dovrebbe idealmente scorrere nella direzione sequenza —> struttura -> funzione. Ciononostante, sebbene possiamo essere sicuri che sequenze aminoacidiche simili daranno vita a strutture proteiche simili, la relazione tra struttura e funzione è più complessa. Proteine di struttura simile e persino di sequenza simile possono essere impiegate in funzioni molto differenti. Proteine che divergono ampiamente possono conservare funzioni simili. Inoltre, così come molte sequenze diverse sono compatibili con la stessa struttura, proteine non correlate e con tipi di ripiegamento diversi possono svolgere la stessa funzione. Durante l'evoluzione le proteine possono: 1. conservare la funzione e la specificità; 2. conservare la funzione, ma modificare la specificità; 3. passare a svolgere una funzione correlata oppure simile in un contesto metabolico diverso; 4. passare a svolgere una funzione completamente diversa dalla prima. Spesso ci si chiede: quanto deve cambiare la sequenza o la struttura di una proteina prima che cambi la funzione? La risposta è: alcune proteine hanno molteplici funzioni e quindi non cambiano affatto! • Nell'anatra, una lattato deidrogenasi attiva e una enolasi fungono da cristalli nel cristallino dell'occhio, sebbene non incontrino i substrati in situ. In altri casi, i cristalli sono strettamente correlati a questi enzimi, ma qualche divergenza si è già verificata e ha condotto alla perdita dell'attività catalitica (questo dimostra che l'attività catalitica non è necessaria nel cristallino). • Una proteina di E. coli, detta Do oppure DegP oppure HtrA, agisce da chaperonina (catalizzando il ripiegamento delle proteine) a temperature basse, mentre a 42°C si trasforma in una proteasi. Il fondamento logico sembra essere: in condizioni normali o in caso di stress termico moderato, lo scopo è quello di salvare le proteine che stanno incontrando difficoltà nel ripiegamento; in condizioni di stress termico più grave, quando il salvataggio è impossibile, lo scopo diventa quello di riciclarle. • Abbiamo già menzionato l'enzima lipoato deidrogenasi di E. coli che costituisce una subunità fondamentale della piruvato idrogenasi, della 2-ossoglutarato deidrogenasi e del complesso di scissione della glicina. Questi esempi della relazione struttura-funzione si posizionano all'estremità più distante di uno spettro molto ampio di possibili comportamenti. Uno dei problemi è rappresentato dal fatto che non è semplice definire quantitativamente l'idea di una differenza di funzione. Quando due funzioni diverse sono più simili tra di loro rispetto a due altre funzioni diverse? In alcuni casi, una funzione modificata può celare un meccanismo simile. La superfamiglia dell'enolasi, per esempio, contiene svariati enzimi omologhi che catalizzano reazioni diverse con meccanismi che presentano caratteristiche comuni. Questo gruppo comprende l'enolasi stessa, la mandelato racemasi, l'enzima lattonizzante I del muconato e la D-glucarato deidratasi. Ciascuno di questi enzimi agisce formando un intermedio enolato mediante estrazione di un protone da un acido carbossilico. I passaggi successivi della reazione e la natura del prodotto variano da enzima a enzima. Questi enzimi hanno una struttura complessiva molto simile, una variante del tipo di ripiegamento a barile della proteina TIM. Residui diversi nel sito attivo danno vita a enzimi che catalizzano reazioni diverse. | << | < | > | >> |Pagina 2395.11 Scoperta e sviluppo di nuovi farmaciÈ un'esperienza interessante chiedere, in un'aula piena di studenti, quanti di loro sarebbero oggi vivi senza essere stati sottoposti ad almeno un ciclo di terapia farmaceutica durante una malattia seria. (Tale domanda non considera le malattie evitate grazie alle vaccinazioni.) Oppure chiedere agli studenti quanti dei loro nonni ancora viventi avrebbero una qualità di vita molto peggiore senza un regolare trattamento con farmaci. Le risposte sono eloquenti. Esse rivelano altresì la preoccupazione nei confronti dei nuovi ceppi dei microrganismi infettivi resistenti agli antibiotici. In effetti, è necessario sviluppare nuovi farmaci i quali, in combinazione con un'informazione genomica che possa aumentare la loro specificità, allungheranno e miglioreranno le nostre vite. La "carriera" di un farmaco non è comunque facile. Perché un composto chimico possa venire qualificato come un farmaco, esso deve essere: • non nocivo; • efficiente; • stabile (sia chimicamente sia metabolicamente); • somministrabile: il farmaco deve essere assorbito e trasportato fino al sito d'azione; • disponibile (mediante estrazione da fonti naturali o mediante sintesi); • nuovo, cioè brevettabile. I passaggi dello sviluppo di un nuovo farmaco sono riassunti nel Box a pag. 240. Questo processo comprende ricerca scientifica, test clinici per accertare l'assenza di nocività e l'efficacia del farmaco e aspetti economici e legali molto importanti che prevedono la protezione del brevetto e la previsione del ritorno economico su un investimento iniziale molto alto. Per sviluppare un farmaco, inizialmente, dovete scegliere una malattia bersaglio. Vorrete sapere tutto quello che si conosce sulle sue possibili cause, i sintomi, gli aspetti genetici, epidemiologici, le relazioni con altre malattie (umane e animali) e tutti i trattamenti conosciuti. Assumendo che la potenziale utilità di un farmaco giustifica il tempo, la spesa e il lavoro richiesti per svilupparne uno, adesso siete pronti per iniziare.
Dovete sviluppare un saggio opportuno attraverso il quale monitorare i
successi nella prima fase. Se il bersaglio è una proteina nota, il legame a tale
proteina può essere misurato direttamente. Un possibile farmaco antibatterico
può essere testato circa il suo effetto sulla crescita del patogeno. Alcuni
composti possono essere testati circa gli effetti sulla crescita delle cellule
eucariotiche in colture di tessuti. Se un animale da laboratorio è suscettibile
alla malattia, i composti possono essere testati su soggetti animali.
Ciononostante, alcuni composti possono avere effetti diversi sugli animali e
sull'uomo. Per esempio, il tamoxifen, oggi un farmaco ampiamente utilizzato
contro il tumore alla mammella, fu originariamente sviluppato come una pillola
per il controllo delle nascite. In effetti, esso è un ottimo contraccettivo nei
ratti, mentre promuove l'ovulazione nelle donne.
|