Introduccin a los microarrays
Nuevas aproximaciones al estudio de la actividad de los genes
Esquema de la presentacin
Presentacin Introduccin Construccin y uso de microarrays de expresin Experimentos con microarrays Software for microarray data analysis Recursos disponibles en internet Conclusiones y perspectivas
Presentacin
Y quien es l
Alex Snchez
Profesor titular del departamento de Estadstica, de la facultad de Biologa de la Universidad de Barcelona Group Leader del grupo de investigacin Mtodos Estadsticos en Bioinformtica Profesor de Bioinformtica, aqu all y acull
UB, UOC, UVic
The Statistics and Bioinformatics Research Group
A research group arising from the Statistics Department at the Biology School in the University of Barcelona.
Nuestra web
http://estbioinfo.stat.ub.es
Objetivos
Conocer la tecnologa de experimentacin con microarrays Comprender sus posibilidades y limitaciones Familiarizarse con el proceso de experimentacion basado en los microarrays Saber donde acudir para aprender ms
Introduccin-Objetivos
Contenidos
Introduccin
Antecedentes histricos: El cambio de paradigma Que es un microarray Que tipos de microarrays existen Aplicaciones de los microarrays
Experimentos con microarrays
Cmo funciona un microarray de expresin El ciclo de vida de un experimento con microarrays
Introduccin-Contenidos
Introduccin
Antecedentes histricos
La biologa molecular dispone de mltiples tcnicas para medir los niveles de ARN, ADN, protenas o metabolitos
Northern Blot, differential display, SAGE Southern Blott: [similar a los microarrays]
Lo que caracteriza la era post genmica no es lo que se puede medir sino la cantidad de mediciones simultaneas que se pueden realizar
Antecedentes Histricos
Una analoga
En la era pre-genmica la biologa espiaba los genes
Individualmente, de uno en uno Cada gen se poda estudiar a fondo
Antecedentes Histricos
Una analoga (y 2)
En la era prost-genmica se pueden estudiar muchos genes a la vez Pero, como separamos el grano de la paja?
Lo he odo todo
W W W
Antecedentes Histricos
El cambio de paradigma (J. Dopazo)
Con los mismos recursos Con los mismos recursos Obtenemos una imagen de Obtenemos una imagen de menor resolucin pero con menor resolucin pero con una perspectiva ms una perspectiva ms general general
Antecedentes Histricos
Pero, Qu es un microarray?
Un formato experimental, basado en la sntesis o fijacin de sondas, que representan los genes (o proteinas, o metabolitos), sobre un sustrato slido (cristal, plstico, silice,...), y expuestos a las molQues es un microarray
Cmo funciona un microarray
El nivel de hibridacin entre
la sonda especfica (probe) y la molcula diana (target)
se indica generalmente
mediante fluorescencia y se mide por anlisis de imagen
e indica el nivel de expresin del gen
Cmo funciona un microarray
Que tipos de microarrays existen
De Protenas De Tejidos De DNA
Arrays de CGH SNPs
De Expresin
De cDNA De oligonucletidos:
GeneChip Affymetrix Otras marcas
Tipos de microarrays
Tipos de microarrays de expresin
*****
Nylon membrane
Illumina Bead Array
Microarrays de expresin
GeneChip Affymetrix
cDNA microarray
Agilent: Long oligo Ink Jet
Aplicaciones de los microarrays
Los microarrays se han aplicado al estudio de casi cualquier tipo de problema biolgico El numero de publicaciones anuales con la palabra microarray en el ttulo es muy alto y continua creciendo
1600 1400 1200 1000 800 600 400 200 0
98 19
1372 1305
1061
789
434
169 15
99 19
55
00 01 02 03 04 20 05 20
20
20
20
20
Aplicaciones de los microarrays
Estudio de genes que se expresan diferencialmente entre varias condiciones
Sanos/enfermos, mutantes/salvajes, tratados/no tratados
Clasificacin molecular en enfermedades complejas Identificacin de genes caractersticos de una patologa (firma o signature) Prediccin de respuesta a un tratamiento Deteccin de mutaciones y polimorfismos de un nico gen (SNP) Etc, etc, etc
Construccin y uso de los microarrays de expresin
Microarrays de expresin
Existen muchos tipos de microarrays Los principios en que se basan son similares Los detalles de su funcionamiento varan de uno a otro caso En este primer contacto nos centraremos en los arrays de expresin
Arrays de 2 colores (spotted) Arrays de oligonucletidos sintetizados in situ
Microarrays de 2 colores (spotted)
1. 2. 3. 4. 5. Diseo y produccin del chip Preparacin de la muestra Hibridacin Escaneado del chip Anlisis de la imagen
1. Construccin del chip
Las sondas a imprimir se seleccionan de una base de datos (GenBank, dbEST,,,) Tras generar los cDNAs se imprimen en el array
2. Preparacin de la muestra
Tras extraer el RNA de las muestras se marca con un colorante fluorescente distinto (Cy-3 / Cy-5) cada miembro del par a hibridar. Las muestras marcadas se mezclan y preparan para hibridar sobre el array.
3. Hibridacin: sondas + muestras
Targets labeled and mixed
4. Escaneado y captura de la imagen
5. Anlisis de la imagen y cuantizacin
M =
Rg R bgR g , or M CORR = g Gg G g bgG g
Visin general del proceso
Pulse este enlace para visualizar una animacin del proceso
Microarrays sintetizados in situ
Diseo ms avanzado que los de 2 colores Utilizan tecnologas desarrolladas en el entorno de la microelectrnica Algunos rasgos distintivos
No se basan en hibridacin competitiva: cada chip contiene muestras de un solo tipo ( 1 color) Las sondas se sintetizan directamente sobre el chip en vez de sintetizarlas in vitro y adherirlas despus
Los GeneChips de Affymetrix
Affymetrix (www.affymetrix.com) es la compaa lider en este tipo de chips Se denominan genericamente GeneChips Cada gen representado por un conjunto de secuencias cortas que lo caracterizan Algunos chips: genomas completos con ms de 50.000 grupos de sondas! NOTA: Grupos de sondas = Probesets
Probesets, probes, PM & MM
Un grupo de sondas se utiliza para medir niveles de mRNA de un nico gen Cada grupo (probeset) consta de mltiples pares de celdas (probe cells)
Con millones de copias de un oligo de 25bp Organizadas en parejas (probe pairs) con un Perfect Match (PM) y un Mismatch (MM)
PM: coincide exactamente con una parte del gen MM: idntico al PM excepto en el nucletido central reemplazado por su complementario
Ejemplo de grupo de sondas para medir el nivel de expresin de un gen particular
gene sequence ...TGCAATGGGTCAGAAGGACTCCTATGTGCCT... perfect match sequence AATGGGTCAGAAGGACTCCTATGTG mismatch sequence AATGGGTCAGAACGACTCCTATGTG probe pair probe cell
probe set
Distintos Pares de Sondas representan partes distintas del mismo gen (1 gen=1 grupo de sondas)
Secuencia del gen
Las sondas se seleccionan para ser especficas del gen que representan y para tener buenas propiedades de hibridacin
Sntesis de oligonucletidos por fotolitografa1
mask mask mask mask mask mask mask mask
A T G A
C T T C GeneChip
T T C A
C A A G
1Animacin
tomada del curso de Dan Nettleton
Resultado de la sintesis de oligos en el chip
Cada celda contiene mltiples copias de la misma secuencia
Image courtesy of Affymetrix.
Obtencin del cRNA marcado
Proceso de hibridacin
Tras la sntesis de los oligos se realiza la hibridacin, depositando el mRNA marcado del tejido a estudiar sobre cada chip
Image courtesy of Affymetrix.
Estimulacin de la muestra hibridada
Iluminando la muestra hibridada con luz laser las secuencias marcada emiten fluorescencia
Source: www.affymetrix.com
Imagen de un chip de Affymetrix hibridado
Source: www.affymetrix.com
Visin general del proceso (Affy)
@Affymetrix
Comparacin entre los 2 tipos de chips
Microarrays de cDNA VENTAJAS
Econmicos Flexibilidad en el diseo experimental Elevada intensidad de seal (secs largas) DESVENTAJAS Baja Reproducibilidad Hibridacin cruzada (baja especificidad) Elevada manipulacin manual (Posibilidad de contaminacin)
Microarrays de Oligonucletidos
VENTAJAS Fabricacin Rpida y ms robotizada Elevada Reproducibilidad Elevada especificidad (secuencias cortas) Utiliza muchas sondas/gen
DESVENTAJAS Requiere equipamiento ms especializado Caros Poca flexibilidad
Experimentos con microarrays
Experimentos con microarrays
Fuentes de variabilidad y su control Ciclo de vida de un experimento con microarrays El diseo del experimento
Tipos de cuestiones que se desea responder Factores que debemos tener en cuenta
Preprocesado: de los datos crudos al anlisis
Control de calidad Normalizacin
Experimentos con microarrays
Tal y como su nombre indica un experimento con microarrays es un experimento, es decir:
Se lleva a acabo para determinar si ciertas hiptesis previas son ciertas o falsas (aun cuando tambin puede llevar a generar nuevas hiptesis
Como todo experimento est sujeto a errores que pueden provenir de mltiples fuentes y ser de tipos distintos
Aleatorios
Fuentes de variabilidad
Biological Heterogeneity in Population. Specimen Collection/ Handling Effects.
Tumor: surgical bx, FNA. Cell Line: culture condition, confluence level.
Biological Heterogeneity in Specimen. RNA extraction. RNA amplification. Fluor labeling. Hybridization. Scanning. PMT voltage. laser power.
(Geschwind, Nature Reviews Neuroscience, 2001)
Tipos de variabilidad
La variabilidad sistemtica es aquella que afecta de manera similar a todas las mediciones
Cantidad de material disponible Instrumental de laboratorio
La variabilidad aleatoria puede afectar de forma distinta a cada componente del experimento
Calidad del material Eficiencia de los procedimientos de laboratorio
Cmo se afronta la variabilidad
Cada tipo se trata de forma distinta
Variabilidad Sistemtica
Podemos estimar las correciones necesarias a partir de los datos: NORMALIZACION o CALIBRACIN
Variabilidad Aleatoria
Suponemos ciertos modelos de error (e.g. ei~N(0, 2)) y recurrimos al
DISEO EXPERIMENTAL Para controlarla INFERENCIA ESTADSTICA para extraer conclusiones en su presencia
El ciclo de vida de un experimento
De la cuestion biologica al experimento
Una vez planteada una cuestin los implicados en el estudio deberan planearlo conjuntamente Researchers / Core Facility/ Statisticians Es preciso especificar
Cual es el propsito del estudio Que objetivos persigue Que limitaciones y de que tipo presenta
A partir de aqu podr elaborarse el diseo experimental adecuado
Diseo experimental
Deben tomarse decisiones relativas a aspectos diversos implicados en el experimento
Tipos de muestras
Mezcladas (pooled) o individuales Con rplicas independientes o sin ellas
Limitaciones fsicas (coste)
Nmero de arrays necesarios/posibles Cantidad de material necesaria/disponible
De aqu saldr
La forma en que se realizar el experimento
1. Experimento comparativo
Wild KO
2. Estudio de evolucin temporal
t1 t2 t3 t4 x5 x5 Control x5 x5
x5 x5 Problem x5 x5
Y por fin el experimento
Una vez realizado los pasos previos puede llevarse a cabo el experimento Si la ejecucin es la adecuada y no surgen problemas el experimento concluye con los datos provenientes del anlisis de imagen
Software for microarray data analysis
Which software for the analysis?
Microarray experiments generate huge quantities of data which have to be.
Stored, managed, visualized, processed
Many options available. However No tool satisfies all users needs. Trade-off. A tool must be.
Powerful but user friendly. Complete but without too many options, Flexible but easy to start with and go further. Available, to date, well documented but affordable.
We picked up some options
Silicon Genetics GeneSpring.
Commercial market leader, many useful facilities, some infelicities. Just bought by Agilent.
Bioconductor.
Open Source R software package. Vigorous development, new things show up here first.
BRB Array Tools.
Free. Various tools linked together as Excel macros.
So, what you need is R?
R is an open-source system for statistical computation and graphics. It consists of.
A language. A run-time environment with.
Graphics, a debugger, and. Access to certain system functions,
It can be used.
Interactively, through a command language. Or running programs stored in script files.
R and Microarrays
R is a popular tool between statisticians. Once they started to work with microarrays they continued using it.
To perform the analysis. To implement new tools.
This gave rise very fast to lots of free Rbased software to analyze microarrays. The Bioconductor project groups many of these (but not all) developments.
The Bioconductor project
http://www.bioconductor.org Open source and open development software project for the analysis and comprehension of genomic data. Most early developments as R packages. Extensive documentation and training material from short courses. Has reached some stability but still evolving !!! what is now a standard may not be so in a future.
Some pros & cons
Powerful, Used by statisticians Easy to extend Not very easy to learn Command-based Documentation Creating add-on packages sometimes cryptic Many already available Memory intensive Freely available Worst in windows Unix, windows & Mac the pity!!! times We believe the effort is worth Slow at Lot of documentation do statistical analysis If you just want to
Easy to find alternatives If you intend to do microarray data analysis Probably one of best options
BRB-ArrayTools
Integrated software package using Excelbased user interface but state-of-the art analysis methods programmed in R, Java & Fortran. Publicly available for non-commercial use. http://linus.nci.nih.gov/BRBArrayTools.html
Selected Features of BRB-ArrayTools
Multivariate permutation tests for class comparison to control false discovery proportion with any specified confidence level SAM Find Gene Ontology groups and signaling pathways that are differentially expressed Survival analysis Analysis of variance Class prediction models (7) with prediction error estimated by LOOCV, k-fold CV or .632 bootstrap, and permutation analysis of cross-validated error rate DLDA, SVM, CCP, Nearest Neighbor, Nearest Centroid, Shrunken Centroids, Random Forests Clustering tools for class discovery with reproducibility statistics on clusters Built in access to Eisens Cluster and Treeview Visualization tools including rotating 3D principal components plot exportable to Powerpoint with rotation controls Import of Affy CEL files and apply RMA probe processing and quantile normalization Extensible via R plug-in feature Links genes to annotations in genomic databases Tutorials and datasets
Some pros & cons
Much easier to learn User friendly (Excel interface) Freely available Good, uniform, documentation Less powerful than "raw" R and Bioconductor, Difficult to extend
If you miss something it's hard to get it
Only available for Windows
So what, R, BRB, ?
This is an example of the trade-off
If you feel comfortable with command lines, programming, and statistics Probably R is for you If you want a user friendly interface, but still free and accurate software BRB may be your choice
Recursos disponibles en internet
Herramientas de anlisis de datos
BioConductor BRB Array Tools TM4 MAExplorer Jexpress Expression Profiler R libraries for all type of microarray and related analysis Excel Add-Inn for the analysis of Microarray Data Suite of Java Programs for microarray data store, preprocessing and analysis MicroArray Explorer for data mining Gene Expression, free download Java tools for gene expression data analysis, free download Online clustering and analysis tools
Bases de datos pblicas (1)
SMD Chip DB ExpressDB GEO RAD Expression Connection EpoDB yMGV The Stanford Microarray Database Searchable database on gene expression Public queries of E. coli and yeast data Gene expression data repository and online resource RNA Abundance Database Saccharomyces Genome Database expression data retrieval Expression information retrieval for one gene at a time Public queries of yeast data
Bases de datos pblicas (2)
AMAD ArrayExpress maxdSQL GXD GeNet Downloadable web driven database system Public data deposition and public queries Downloadable data warehouse and visualisation environment Mouse expression data storage and integration Distribution and visualization of gene expression data from any organism
Bases de datos pblicas (3)
Drosophila microarray project Samson Lab SageMap NCI60 cancer project Serum-response Breast cancer Cancer Molecular Pharmacology Drosophila Metamorphosis Time Course Database
Yeast Transcriptional Profiling Experiments NCBI SAGE data and analysis tools Supplement to Ross et al. (Nat Genet., 2000). Supplement to Lyer et al.(1999) Science 283:8387 Supplement to Perou et al. Nature 406:747752(2000) Integration of large databases on gene expression and molecular pharmacology.
Conclusiones y perspectivas
Conclusiones y perspectivas
Los experimentos con microarrays han revolucionado el estudio de la genmica funcional
Mejorando el conocimiento de la funcin de los genes a partir de la similitud de patrones de expresin Mejorando el conocimiento de las familias de genes:
Permiten incluir nuevos genes en las familias Descubren patrones de expresin coordinados Aumenta el nmero de familias conocidas de genes
Limitaciones
Como toda tecnologas los tiene sus limitaciones
Algunas como la baja reproducibilidad o la calidad del genoma se solucionaran con el tiempo Otras como el uso adecuado de sus posibilidades dependen del buen (o mal) uso que se haga de ellas
The Promise of Microarray Technology in Treating Disease (NCBI) (1) Now that you understand the concept behind array technology, picture this: A hand-held instrument that a physician could use to quickly diagnose cancer or other diseases during a routine office visit. What if that same instrument could also facilitate a personalized treatment regimen-exactly right for you?
The Promise of Microarray Technology in Treating Disease (NCBI) (2)
Personalized drugs, Molecular diagnostics and Integration of diagnosis and therapeutics These are the long-term promises of microarray technology Maybe not today or even tomorrow, but someday For the first time, arrays offer hope for obtaining global views of biological processesby providing a systematic way to survey DNA and RNA variation