2012-03-23 12 views
8

quería descargar datos de expresión genética derivados de experimentos generados por microarrays. No sé demasiado sobre este tema, pero según entiendo, las filas a menudo corresponden a los genes y las columnas corresponden a las muestras. idealmente, espero una matriz de datos de expresión génica.¿dónde descargo los datos de expresión génica?

he estado buscando en Internet, y aunque puede parecer que hay muchos lugares para descargar esos datos, cuando realmente descargo los datos, no obtengo la matriz de expresión génica. ¿Podría alguien decirme si hay un lugar o cómo descargar los datos de expresiones génicas en el formato que espero arriba?

se agradece cualquier ayuda.

+0

Esta pregunta no está relacionada con la programación. Por favor, pregunte en BioStar http://biostar.stackexchange.com/ – gotgenes

+0

@gotgenes gracias! Realmente traté de ver si había otros canales de intercambio de pila antes de publicar aquí. pero ahora lo sé con seguridad afortunadamente recibí excelentes respuestas y el sitio apropiado ahora. –

Respuesta

6

Si nos fijamos en, por ejemplo, this entry en el Gene Expression Omnibus, uno de los formatos de archivo es "TXT" y contiene una matriz como la que está solicitando, después de algunos metadatos.

+0

para ese archivo TXT, ¿son las columnas (es decir, GSM339455, GSM339456, GSM339457, etc ...) genes y las muestras de filas? –

+0

estoy viendo el análisis de clúster. parece que los GSM son muestras y las filas corresponden a genes. ¿Podría explicar las convenciones de nombres? es decir, ¿por qué usar GSM para los encabezados de columna y luego 998_at o 9890_at para los identificadores de fila? –

+0

Los números GSM son identificadores de acceso para muestras (puede encontrar cada muestra en el GEO con el id.). La "identificación de la plataforma de serie" que figura en el archivo es GPL7144, y si consulta GEO con esa identificación, obtiene un mapeo de los identificadores de filas a varias otras formas de referirse a los genes. –

5

En principio, los datos de microarrays se pueden expresar (por favor, perdone el juego de palabras) como una matriz con muestras como columnas y filas como genes. En la práctica, es un poco más complicado derivar tal representación para los datos brutos de un experimento. Si acaba de obtener un conjunto de datos preprocesados, tiene poca garantía de que los datos brutos se procesaron de manera que los comparen con otros experimentos o que los datos brutos subyacentes fueran de una calidad suficientemente alta.

También necesitará metadatos de alta calidad para obtener algún significado de la matriz de datos. ¿Cuáles fueron las condiciones y fuentes biológicas de las que se obtuvieron las muestras? ¿A qué genes corresponden las sondas de la matriz particular utilizada? (Tenga en cuenta que 9890_at es "id de probeset", un identificador único de una sonda molecular de un diseño de secuencia particular que luego debe asignarse a un gen, diferentes sondas para el mismo gen no darán exactamente la misma respuesta).

Las bases de datos públicas de microarrays por lo tanto proporcionan mucha información adicional además de una matriz de datos procesada. Además de GEO que ya se ha mencionado, recomendaría ArrayExpress que en mi opinión tiene la mejor interfaz de búsqueda.

La herramienta de elección para trabajar con datos de microarrays para muchos es el paquete de software bioconductor para el lenguaje de programación estadística R.

Bioconductor proporciona API para descargar datos brutos con los metadatos de ambos repositorios, consulte GEO bioc package y ArrayExpress bioc package.

Ambos paquetes, en común con la mayoría de software Bioconductor vienen con excelentes "viñetas" que introducen el software: GEO bioc vignette y Arrayexpress bioc vignette

Esas viñetas también le debe dar ejemplos de tomar los datos en bruto y derivando "esets" (conjuntos de expresiones) a partir de los datos sin procesar. En ese momento puede acceder a la matriz de expresión génica en el objeto Eset bioconductor, y tiene un objeto y API para interrogar los metadatos necesarios.

Tenga en cuenta que hay diferentes tipos de microarrays. Recomiendo comenzar con los datos de las matrices de Affymetrix, ya que probablemente tengan las API de análisis más directas.

+0

gracias alex, eso fue muy útil también. agradezco mucho la respuesta. –

Cuestiones relacionadas