IPBLN
  • Inicio
  • Metodología
  • Resumen
  • Análisis
    • ➤ Introducción contextual
    • 1. Revisión inicial de muestras y metadatos
    • 2. Evaluación de calidad de las lecturas
    • 3. Alineamiento de las lecturas
    • 4. Cuantificación de la expresión génica
    • 5. Análisis estadístico de la expresión génica
    • 6. Conclusiones y perspectivas

IPBLN Bioinformatics Report

Mini Chat RAG (beta)

¡Hola! Soy Geni, el asistente inteligente de GenoScribe. Estoy aquí para ayudarte a explorar de forma interactiva el contenido de este informe bioinformático.

Cuando me haces una pregunta, primero intento reconocer si coincide con alguno de los patrones o expresiones que conozco. Si encuentro una coincidencia, te responderé directamente con una respuesta predefinida, diseñada para ser rápida, clara e incluso un poco ingeniosa. Si no reconozco el patrón, entonces activo mis herramientas de búsqueda: genero representaciones vectoriales (embeddings) y busco los fragmentos más relevantes entre varios documentos —incluyendo el propio informe, archivos PDF y HTML externos, y sesiones de preguntas y respuestas (QA). A partir de esa información, creo un resumen que intenta ofrecerte una respuesta coherente y útil basada en el contenido existente.

Se debe tener en cuenta que este entorno es experimental. No utilizo grandes modelos de lenguaje, por lo que algunas respuestas pueden ser aproximadas o incompletas. El objetivo principal es facilitar una visualización rápida, comprensible y reproducible de la información contenida en los documentos, permitiendo una exploración más dinámica del informe.

Actualmente, los resultados pueden variar en precisión, ya que empleo modelos ligeros y locales para asegurar que la aplicación funcione en cualquier entorno sin necesidad de servidores externos. Sin embargo, la estructura del sistema está preparada para mejorar notablemente su rendimiento en el futuro mediante la integración con modelos más avanzados o APIs externas. Para comenzar, simplemente escribe tu pregunta en el campo inferior y deja que yo me encargue del resto. ¡Prometo poner todo mi código en ello!

Pestaña

Análisis Bioinformático Completo

Sección 5

Análisis estadístico de la expresión génica

Subsección 5.3

Análisis de expresión diferencial

▼

Resumen

En este apartado se lleva a cabo el análisis de expresión diferencial, una etapa central en los estudios transcriptómicos que tiene como objetivo identificar genes cuya expresión varía significativamente entre distintas condiciones experimentales. A partir de los datos previamente normalizados y validados en términos de calidad, se establecen comparaciones por pares entre grupos definidos en el diseño experimental.

Para cada una de estas comparaciones, se calcula el cambio de expresión de cada gen y su significancia estadística, lo que permite detectar genes activados o reprimidos en respuesta a una determinada condición. Los resultados se resumen en archivos .xlsx que incluyen métricas clave como el log2 fold-change (logFC), el nivel medio de expresión (logCPM), el valor p y su corrección por FDR (tasa de falsos descubrimientos). Cada gen es clasificado como Diferencialmente Expresado (DEG) o no, en función de estos criterios.

Adicionalmente, se generan gráficos volcano que proporcionan una representación visual clara de los resultados, permitiendo identificar de forma rápida los genes más relevantes por su magnitud de cambio y significancia. Estos gráficos son complementados con otras visualizaciones interactivas como histogramas, MA plots, análisis de proporciones DEG/no-DEG, así como de genes inhibidos/sobreexpresados y listados de genes más significativos, lo que facilita una exploración visual y comparativa de cada contraste realizado.

Este análisis diferencial constituye un punto de partida fundamental para estudios posteriores de interpretación biológica, ya que los genes identificados como DEG pueden estar implicados en procesos funcionales relevantes, ser biomarcadores potenciales o servir como hipótesis para nuevas investigaciones. En las siguientes secciones se abordará precisamente esta interpretación mediante análisis funcionales y de enriquecimiento.

Tabla de contenidos de esta subsección

  • 5. Análisis estadístico de la expresión génica
    • 5.3. Análisis de expresión diferencial
      • 5.3.1. Comparación: px-ck-C vs pex11a-C

5.3. Análisis de expresión diferencial

Una vez confirmada la calidad de las muestras y normalizados los datos de expresión, el siguiente paso en el análisis transcriptómico consiste en identificar genes diferencialmente expresados (DEG) entre las distintas condiciones experimentales. Este proceso es clave para descubrir qué genes se encuentran activados o reprimidos como consecuencia de un tratamiento, una mutación o cualquier otro factor biológico de interés.

Para llevar a cabo este análisis, se han definido comparaciones entre condiciones experimentales según los grupos establecidos en los metadatos del experimento. A partir de la matriz de expresión normalizada, se ha realizado un análisis estadístico que calcula, para cada gen, el cambio de expresión entre condiciones, así como su significancia estadística.

El resultado de cada análisis se ha almacenado en un archivo .xlsx, uno por cada comparación, que incluye los siguientes campos para cada gen evaluado:

  • Gene ⇒ Identificador del gen.
  • Description ⇒ Descripción funcional (si está disponible).
  • Length ⇒ Longitud del transcrito en pares de bases.
  • logFC ⇒ Logaritmo en base 2 del cambio de expresión entre condiciones (log2 fold-change).
  • logCPM ⇒ Nivel medio de expresión del gen, expresado como logaritmo de conteos por millón.
  • PValue ⇒ Valor p crudo de la prueba estadística.
  • FDR ⇒ Valor p ajustado según el método de Benjamini-Hochberg para controlar la tasa de falsos descubrimientos.
  • Grupo ⇒ Clasifica al gen correspondiente como DEG (Gen Diferencialmente Expresado) o no-DEG (Gen No Diferencialmente Expresado).

De manera complementaria, para facilitar la interpretación visual de estos resultados, se han generado gráficos de tipo volcano en formato PDF, donde se representan todos los genes analizados en función de su cambio de expresión y su nivel de significancia. Estos gráficos permiten identificar rápidamente los genes con una regulación significativa y de gran magnitud.

A continuación se listan las comparaciones analizadas en este experimento, junto con sus respectivos archivos de resultados y gráficos volcano asociados:

  1. px-ck-C vs pex11a-C
    • Tabla de resultados (.xlsx)
    • Volcano plot (.pdf)

Explorar los archivos de la carpeta “mary” aquí

Una vez detallado esto, en los siguientes apartados se profundiza en los resultados obtenidos en cada comparación individual, incluyendo una visualización interactiva de las tablas de resultados y sus respectivos gráficos volcano.

5.3.1. Comparación: px-ck-C vs pex11a-C

En esta sección se presentan los resultados obtenidos para la comparación px-ck-C vs pex11a-C, realizada como parte del análisis de expresión diferencial dentro del experimento. Esta comparación permite identificar los genes cuya actividad transcripcional varía significativamente entre las dos condiciones biológicas o experimentales evaluadas, lo cual puede reflejar cambios funcionales relevantes o mecanismos de regulación diferencial.

Para cada gen analizado, se han calculado métricas estadísticas clave como el logaritmo en base 2 del cambio en la expresión (logFC), la abundancia media expresada como logCPM (log counts per million), el valor p crudo y su correspondiente valor ajustado por tasa de falsos descubrimientos (FDR). Aquellos genes con valores de FDR por debajo de un umbral determinado (habitualmente 0.05) se consideran diferencialmente expresados con significancia estadística.

A continuación se presenta una tabla interactiva que permite explorar en detalle estos resultados. Esta tabla ofrece funcionalidades como el ordenamiento por columnas, el desplazamiento horizontal y la posibilidad de búsqueda, lo que facilita la identificación de genes de interés según sus niveles de significancia y magnitud del cambio. Además, al estar alineada con el resto de comparaciones, esta visualización contribuye a una comprensión global del comportamiento transcripcional en las distintas condiciones analizadas.

Descargar archivo "DEG_px-ck-C_vs_pex11a-C.xlsx"

Como complemento visual a la tabla de resultados, se incluye a continuación el volcano plot correspondiente a la comparación px-ck-C vs pex11a-C. Este gráfico representa la relación entre la magnitud del cambio de expresión (log2 fold-change, eje X) y la significancia estadística de dicho cambio (−log10 del valor de FDR, eje Y) para cada gen evaluado.

En el gráfico, cada punto representa un gen, y su color indica si ha sido clasificado como diferencialmente expresado según los criterios del análisis. En concreto:

  • DEG (genes diferencialmente expresados) ⇒ resaltados en rojo, representan genes con cambios de expresión significativos.
  • nDEG (no diferencialmente expresados) ⇒ resaltados en azul, corresponden a genes que no superan el umbral de significancia estadística.

Este tipo de representación permite una identificación rápida de genes que combinan una alta significancia estadística con un cambio de expresión relevante, facilitando así la priorización de candidatos para análisis funcionales posteriores.

Abrir gráfico en pantalla completa Descargar gráfico

Una vez presentada la tabla de resultados del análisis de expresión diferencial y su correspondiente volcano plot, se incorporan a continuación una serie de gráficos complementarios e interactivos que permiten explorar con mayor profundidad las características globales de los datos obtenidos para la comparación px-ck-C vs pex11a-C.

En concreto, se han generado cuatro visualizaciones adicionales a partir de la matriz de genes diferencialmente expresados, con el objetivo de proporcionar una visión más detallada de la distribución de los resultados, la relación entre expresión y cambio relativo, así como una identificación de los genes más relevantes del estudio:

  • Histograma de log2 Fold Change ⇒ visualiza la distribución global de los cambios de expresión entre las dos condiciones analizadas.
  • MA Plot (logCPM vs logFC) ⇒ representa la relación entre la abundancia promedio de expresión y el cambio de expresión relativo, permitiendo detectar tendencias dependientes del nivel de expresión.
  • Distribución DEG vs no-DEG ⇒ muestra cuántos genes han sido identificados como diferencialmente expresados frente a aquellos que no lo han sido.
  • Genes DEG Sobreexpresados vs Inhibidos ⇒ compara el número de genes diferencialmente expresados que están sobreexpresados frente a los que están inhibidos.
  • Genes más significativos ⇒ presenta los genes más relevantes de la comparación, seleccionados según criterios como el valor de FDR o el valor absoluto del logFC.

A continuación, se presentan y describen de forma individual estos gráficos, los cuales complementan e ilustran los resultados obtenidos del análisis diferencial.

Comenzamos con el histograma de log2 Fold Change (logFC), que muestra la distribución de los cambios en la expresión génica entre las condiciones comparadas. Podemos ver cómo se distribuyen los genes según el aumento o disminución en su expresión y la magnitud de estos cambios.

A continuación, presentamos el MA Plot, que representa la relación entre la intensidad media de expresión (logCPM) y el cambio en la expresión génica (logFC). Este gráfico es útil para identificar patrones generales y detectar genes con cambios significativos en distintos niveles de expresión.

También mostramos un gráfico que compara el número de genes identificados como diferencialmente expresados (DEG) frente a los que no presentan cambios significativos (no-DEG). Esto nos ayuda a entender la proporción y el alcance del impacto del experimento en la expresión génica.

A continuación se presenta un gráfico que compara el número de genes diferencialmente expresados clasificados como sobreexpresados frente a aquellos inhibidos en esta comparación. Esta visualización permite identificar de manera rápida la proporción de genes activados o reprimidos y facilita la interpretación biológica de los resultados.

Por último, presentamos un gráfico con los Top N genes más relevantes, ordenados según su valor ajustado de significancia (FDR) o la magnitud del cambio de expresión absoluto (|logFC|). Esto permite destacar los genes más importantes y potencialmente más biológicamente significativos del análisis.

Los resultados obtenidos en esta fase nos proporcionan un conjunto robusto de genes diferencialmente expresados (DEGs), que actúan como base para la interpretación biológica del experimento. En la siguiente sección se aprovechará esta información para realizar análisis funcionales y de enriquecimiento, con el fin de descubrir procesos biológicos, rutas metabólicas o funciones moleculares significativamente representadas entre los genes identificados. Este paso es crucial para transformar los hallazgos estadísticos en conclusiones biológicamente significativas, ampliando nuestra comprensión del fenómeno estudiado.