En principio, los datos de microarrays se pueden expresar (por favor, perdone el juego de palabras) como una matriz con muestras como columnas y filas como genes. En la práctica, es un poco más complicado derivar tal representación para los datos brutos de un experimento. Si acaba de obtener un conjunto de datos preprocesados, tiene poca garantía de que los datos brutos se procesaron de manera que los comparen con otros experimentos o que los datos brutos subyacentes fueran de una calidad suficientemente alta.
También necesitará metadatos de alta calidad para obtener algún significado de la matriz de datos. ¿Cuáles fueron las condiciones y fuentes biológicas de las que se obtuvieron las muestras? ¿A qué genes corresponden las sondas de la matriz particular utilizada? (Tenga en cuenta que 9890_at es "id de probeset", un identificador único de una sonda molecular de un diseño de secuencia particular que luego debe asignarse a un gen, diferentes sondas para el mismo gen no darán exactamente la misma respuesta).
Las bases de datos públicas de microarrays por lo tanto proporcionan mucha información adicional además de una matriz de datos procesada. Además de GEO que ya se ha mencionado, recomendaría ArrayExpress que en mi opinión tiene la mejor interfaz de búsqueda.
La herramienta de elección para trabajar con datos de microarrays para muchos es el paquete de software bioconductor para el lenguaje de programación estadística R.
Bioconductor proporciona API para descargar datos brutos con los metadatos de ambos repositorios, consulte GEO bioc package y ArrayExpress bioc package.
Ambos paquetes, en común con la mayoría de software Bioconductor vienen con excelentes "viñetas" que introducen el software: GEO bioc vignette y Arrayexpress bioc vignette
Esas viñetas también le debe dar ejemplos de tomar los datos en bruto y derivando "esets" (conjuntos de expresiones) a partir de los datos sin procesar. En ese momento puede acceder a la matriz de expresión génica en el objeto Eset bioconductor, y tiene un objeto y API para interrogar los metadatos necesarios.
Tenga en cuenta que hay diferentes tipos de microarrays. Recomiendo comenzar con los datos de las matrices de Affymetrix, ya que probablemente tengan las API de análisis más directas.
Esta pregunta no está relacionada con la programación. Por favor, pregunte en BioStar http://biostar.stackexchange.com/ – gotgenes
@gotgenes gracias! Realmente traté de ver si había otros canales de intercambio de pila antes de publicar aquí. pero ahora lo sé con seguridad afortunadamente recibí excelentes respuestas y el sitio apropiado ahora. –