IPBLN Bioinformatics Report

Mini Chat RAG (beta)

¡Hola! Soy Geni, el asistente inteligente de GenoScribe. Estoy aquí para ayudarte a explorar de forma interactiva el contenido de este informe bioinformático.

Cuando me haces una pregunta, primero intento reconocer si coincide con alguno de los patrones o expresiones que conozco. Si encuentro una coincidencia, te responderé directamente con una respuesta predefinida, diseñada para ser rápida, clara e incluso un poco ingeniosa. Si no reconozco el patrón, entonces activo mis herramientas de búsqueda: genero representaciones vectoriales (embeddings) y busco los fragmentos más relevantes entre varios documentos —incluyendo el propio informe, archivos PDF y HTML externos, y sesiones de preguntas y respuestas (QA). A partir de esa información, creo un resumen que intenta ofrecerte una respuesta coherente y útil basada en el contenido existente.

Se debe tener en cuenta que este entorno es experimental. No utilizo grandes modelos de lenguaje, por lo que algunas respuestas pueden ser aproximadas o incompletas. El objetivo principal es facilitar una visualización rápida, comprensible y reproducible de la información contenida en los documentos, permitiendo una exploración más dinámica del informe.

Actualmente, los resultados pueden variar en precisión, ya que empleo modelos ligeros y locales para asegurar que la aplicación funcione en cualquier entorno sin necesidad de servidores externos. Sin embargo, la estructura del sistema está preparada para mejorar notablemente su rendimiento en el futuro mediante la integración con modelos más avanzados o APIs externas. Para comenzar, simplemente escribe tu pregunta en el campo inferior y deja que yo me encargue del resto. ¡Prometo poner todo mi código en ello!

Pestaña

Análisis Bioinformático Completo

Sección 2

Evaluación de la calidad de las lecturas

▼

Resumen

En esta sección se presentan los resultados del control de calidad aplicado a los archivos .fastq.gz generados tras la secuenciación. La evaluación se ha llevado a cabo tanto a nivel global como individual, utilizando las herramientas FastQC y MultiQC, integradas tanto en el pipeline de miARma‑Seq como en el pipeline específico para este informe desarrollado con Nextflow.

En primer lugar, se incluye un informe consolidado generado por MultiQC, que resume de forma interactiva los principales parámetros de calidad de todas las muestras procesadas. Este informe permite identificar patrones generales, anomalías globales o diferencias sistemáticas entre condiciones experimentales.

A continuación, se muestran los informes individuales de FastQC generados automáticamente para cada muestra. Estos informes permiten una revisión más detallada por dirección de lectura (Forward y Backward) e incluyen métricas clave como la calidad por base, contenido GC, niveles de duplicación o detección de adaptadores. Cada informe se presenta embebido mediante un iframe, acompañado de un botón que permite visualizarlo en una pestaña independiente para facilitar su lectura.

La estructura de esta sección sigue un esquema jerárquico organizado por tipo de lectura y muestra, lo que permite una navegación más clara y accesible. Además, dado que el informe ha sido diseñado para ser completamente automatizado y reproducible, los apartados correspondientes a cada muestra se generan dinámicamente a partir de los metadatos disponibles, adaptándose así a cualquier conjunto de datos experimental.

Tabla de contenidos de esta sección

2. Evaluación de la calidad de las lecturas

2. Evaluación de la calidad de las lecturas

La calidad de las lecturas en un experimento de RNA-Seq es un factor determinante para la fiabilidad de los análisis posteriores, como el alineamiento, la cuantificación y la identificación de genes diferencialmente expresados. Por ello, uno de los primeros pasos fundamentales en cualquier pipeline de procesamiento es la evaluación de la calidad de los archivos .fastq.gz generados tras la secuenciación.

En este estudio, el control de calidad se aplicó a todas las muestras disponibles inicialmente, independientemente de si fueron seleccionadas o no para el análisis principal. Este enfoque garantiza una evaluación exhaustiva del conjunto completo de datos, permitiendo detectar posibles problemas antes de la selección definitiva de las muestras a analizar.

El control de calidad se llevó a cabo utilizando la herramienta FastQC, la cual genera informes detallados por muestra sobre diversos aspectos de la calidad de las secuencias. Posteriormente, todos estos informes individuales fueron integrados mediante MultiQC, generando un único informe resumen interactivo. Este informe consolidado permite inspeccionar de forma global y comparativa el estado de las lecturas en todas las muestras procesadas.

Las métricas clave incluidas en el informe de MultiQC son, entre otras:

Calidad de las bases a lo largo de las lecturas (per base sequence quality).
Contenido de GC.
Presencia de adaptadores o contaminantes.
Nivel de duplicación de las secuencias.
Distribución de la longitud de las lecturas.

Estas métricas permiten identificar posibles problemas técnicos, como degradación del ARN, contaminación por adaptadores, sesgos sistemáticos u otros artefactos de la secuenciación. Esta información es esencial para tomar decisiones informadas sobre la necesidad de aplicar pasos de filtrado o recorte antes de proceder con el alineamiento.

Es importante señalar que no todas las muestras presentes en el informe de MultiQC están incluidas en el análisis principal. La tabla de metadatos presentada anteriormente recoge únicamente las muestras seleccionadas para las etapas posteriores de alineamiento y cuantificación, por lo que puede haber discrepancias entre ambas.

2.1. Análisis conjunto de todas las muestras (MultiQC)

El análisis conjunto de calidad se ha llevado a cabo mediante la herramienta MultiQC, la cual agrega y resume de forma interactiva los informes individuales generados previamente por FastQC para cada una de las muestras procesadas. Este enfoque permite visualizar en un único informe consolidado todas las métricas relevantes, facilitando la comparación entre muestras y la identificación de posibles anomalías sistemáticas, errores técnicos o patrones comunes.

El informe MultiQC incluye gráficos y tablas que resumen aspectos clave como la calidad por base, el contenido GC, la longitud de las lecturas, la presencia de adaptadores o contaminantes y otros indicadores de calidad. Esta visión global resulta especialmente útil para tomar decisiones sobre la limpieza y filtrado de las lecturas antes del alineamiento.

A continuación, se muestra el informe interactivo integrado directamente en este documento. También se proporciona un botón para abrirlo en una nueva pestaña, lo cual permite una visualización más cómoda y detallada si se desea explorar el informe en mayor profundidad.

Abrir informe interactivo de MultiQC en una pestaña nueva

Descargar informe

En la siguiente sección se detallará el análisis individual de la calidad de cada muestra, diferenciando entre lecturas forward y backward, mediante la incorporación directa de los informes FastQC individuales generados automáticamente por miARma‑Seq.

2.2. Análisis individual por muestra (FastQC)

Tras la evaluación conjunta mediante MultiQC, esta subsección se centra en el análisis individualizado de cada una de las muestras a través de los informes generados por FastQC. Este enfoque permite inspeccionar con mayor nivel de detalle los distintos parámetros de calidad, identificando posibles incidencias específicas que podrían no ser evidentes en el análisis global.

FastQC es una herramienta ampliamente utilizada para el control de calidad de datos de secuenciación masiva. Proporciona una evaluación visual e interactiva de aspectos fundamentales como la calidad por base a lo largo de las lecturas, el contenido de GC, la presencia de adaptadores, la sobre-representación de secuencias, la longitud de las lecturas o el nivel de duplicación. Esta información resulta clave para valorar la idoneidad de los datos brutos antes de aplicar pasos de filtrado, recorte o alineamiento.

En este informe, cada muestra dispone de una sección dedicada organizada por tipo de lectura (forward y backward), donde se presenta su correspondiente informe .html de FastQC. Los informes han sido generados automáticamente por el pipeline miARma‑Seq y se integran en este documento mediante una ventana interactiva para facilitar su visualización directa, junto con un botón de acceso para visualizarlo con más detalle en pestaña nueva.

Todos los informes individuales utilizados para generar el resumen de MultiQC se encontraban almacenados en el siguiente directorio en el momento de la generación de este informe:

/workspace/data/0101-EXT-25-Transcriptomics-Bulk-RNA-Seq/Analisis/mary/Pre_fastqc_results

A continuación, se muestra el listado completo de los archivos de salida generados por FastQC para cada una de las muestras procesadas. Para cada muestra se generan dos archivos principales: un informe en formato .html, que ofrece una visualización interactiva de los resultados del control de calidad, y un archivo comprimido .zip, que contiene los archivos fuente utilizados para construir dicho informe, incluyendo datos tabulados, gráficos en formato .png y un resumen en texto plano.

Aunque es posible acceder a estos archivos directamente desde el visor interactivo que se presenta a continuación, se recomienda utilizar las secciones específicas por muestra situadas más abajo. En dichas secciones, los informes .html se integran directamente en el documento mediante iframe, junto con un botón de acceso para su visualización ampliada. Además, se proporciona contexto adicional para facilitar la interpretación de los resultados individuales.

Explorar los archivos de la carpeta “Pre_fastqc_results” aquí

Así, estos informes individuales generados por FastQC ofrecen una evaluación visual e interactiva de diversos aspectos clave de la calidad de las lecturas de secuenciación. Cada informe está estructurado en módulos que resumen métricas específicas, facilitando así la identificación de posibles problemas técnicos o artefactos introducidos durante la preparación de las librerías o el proceso de secuenciación.

A continuación se describe brevemente la información incluida en estos informes, accesibles, como ya hemos comentado, desde el visor interactivo anterior o más adelante desde cada apartado específico.

Basic Statistics [PASS | WARNING | FAIL]: Información general sobre las secuencias, incluyendo el número total de lecturas, su longitud media y el contenido GC. Estos parámetros permiten confirmar que los datos cumplen con los criterios básicos de calidad esperados por la plataforma de secuenciación.
Per base sequence quality [PASS | WARNING | FAIL]: Evalúa la calidad de las bases en cada posición de las lecturas. Una baja calidad al principio o final de las lecturas puede requerir recorte (trimming) para evitar errores en etapas posteriores.
Per tile sequence quality [PASS | WARNING | FAIL]: Detecta anomalías en regiones específicas del flujo óptico del secuenciador. Problemas en este módulo pueden indicar fallos mecánicos o de iluminación que afectan localmente la calidad.
Per sequence quality scores [PASS | WARNING | FAIL]: Muestra la distribución de puntuaciones de calidad para todas las lecturas. Una alta proporción de lecturas con baja calidad puede comprometer el análisis.
Per base sequence content [PASS | WARNING | FAIL]: Analiza la proporción de nucleótidos (A, T, G, C) en cada posición. Desequilibrios importantes pueden reflejar sesgos de la librería o contaminación.
Per sequence GC content [PASS | WARNING | FAIL]: Evalúa el contenido GC promedio por lectura. Desviaciones respecto al esperado para el organismo estudiado pueden indicar presencia de contaminantes o problemas en la preparación de la librería.
Sequence Length Distribution [PASS | WARNING | FAIL]: Muestra la distribución de longitudes de las lecturas. Una distribución uniforme o acorde con el protocolo indica buena calidad, mientras que distribuciones anómalas pueden sugerir errores en el proceso de fragmentación o secuenciación.
Sequence Duplication Levels [PASS | WARNING | FAIL]: Informa sobre la proporción de lecturas duplicadas. Un alto nivel puede deberse a sobre-secuenciación, baja complejidad de la muestra o problemas en la PCR.
Overrepresented sequences [PASS | WARNING | FAIL]: Identifica secuencias que aparecen con frecuencia anormalmente alta, como adaptadores no eliminados, contaminantes o secuencias ribosomales.
Adapter Content [PASS | WARNING | FAIL]: Detecta la presencia de secuencias adaptadoras dentro de las lecturas. Si se detectan, es necesario aplicar un paso de recorte (trimming) antes de continuar con el análisis.

Cada módulo es evaluado individualmente y clasificado como PASS, WARNING o FAIL. Un resultado PASS indica que el módulo cumple con los criterios de calidad recomendados. WARNING señala que se ha detectado una desviación leve o moderada que podría afectar algunos análisis dependiendo de la sensibilidad del downstream. FAIL, en cambio, indica problemas importantes que deberían ser corregidos o, al menos, tenidos en cuenta antes de continuar con el procesamiento de los datos.

Dicho esto, en las siguientes subsecciones se analizarán en detalle los resultados de calidad, distinguiendo entre lecturas forward y backward. Dentro de cada una, se presentará el informe individual correspondiente a cada muestra, integrado directamente en el documento para facilitar su consulta. Esta estructura permite una revisión ordenada y completa del estado de las lecturas, asegurando que cada muestra sea evaluada con el nivel de detalle necesario antes de proceder con las etapas posteriores del análisis.

2.2.1. Evaluación de calidad de lecturas Forward

En este apartado se muestran los resultados del análisis de calidad correspondientes a las lecturas forward (read 1) de cada una de las muestras. Estas lecturas representan el primer extremo de los fragmentos secuenciados en protocolos paired-end, y su calidad es especialmente relevante para asegurar una alineación precisa y una cuantificación fiable en los pasos posteriores del análisis transcriptómico.

A continuación, se incluyen las evaluaciones individuales para cada muestra, organizadas de forma estructurada para facilitar su revisión. Esta presentación permite detectar con claridad posibles incidencias específicas en las lecturas read 1, como caídas de calidad en posiciones terminales, contaminación por adaptadores, sesgos en la composición de bases o niveles anómalos de duplicación. Identificar estos problemas a tiempo es crucial para garantizar la robustez y validez de los resultados obtenidos en las siguientes etapas del pipeline.

2.2.1.1. Muestra: PX_Cd0_Rep1

A continuación se muestra el informe de control de calidad correspondiente a la lectura forward (read 1) de la muestra PX_Cd0_Rep1. Este informe permite revisar visualmente distintos aspectos de calidad relacionados con las secuencias leídas en el primer extremo de los fragmentos.

Abrir informe interactivo de FASTQC en una pestaña nueva

Descargar informe

2.2.1.1. Muestra: PX_Cd0_Rep2

A continuación se muestra el informe de control de calidad correspondiente a la lectura forward (read 1) de la muestra PX_Cd0_Rep2. Este informe permite revisar visualmente distintos aspectos de calidad relacionados con las secuencias leídas en el primer extremo de los fragmentos.

Abrir informe interactivo de FASTQC en una pestaña nueva

Descargar informe

2.2.1.1. Muestra: PX_Cd0_Rep3

A continuación se muestra el informe de control de calidad correspondiente a la lectura forward (read 1) de la muestra PX_Cd0_Rep3. Este informe permite revisar visualmente distintos aspectos de calidad relacionados con las secuencias leídas en el primer extremo de los fragmentos.

Abrir informe interactivo de FASTQC en una pestaña nueva

Descargar informe

2.2.1.1. Muestra: WT_Cd0_Rep1

A continuación se muestra el informe de control de calidad correspondiente a la lectura forward (read 1) de la muestra WT_Cd0_Rep1. Este informe permite revisar visualmente distintos aspectos de calidad relacionados con las secuencias leídas en el primer extremo de los fragmentos.

Abrir informe interactivo de FASTQC en una pestaña nueva

Descargar informe

2.2.1.1. Muestra: WT_Cd0_Rep2

A continuación se muestra el informe de control de calidad correspondiente a la lectura forward (read 1) de la muestra WT_Cd0_Rep2. Este informe permite revisar visualmente distintos aspectos de calidad relacionados con las secuencias leídas en el primer extremo de los fragmentos.

Abrir informe interactivo de FASTQC en una pestaña nueva

Descargar informe

2.2.1.1. Muestra: WT_Cd0_Rep3

A continuación se muestra el informe de control de calidad correspondiente a la lectura forward (read 1) de la muestra WT_Cd0_Rep3. Este informe permite revisar visualmente distintos aspectos de calidad relacionados con las secuencias leídas en el primer extremo de los fragmentos.

Abrir informe interactivo de FASTQC en una pestaña nueva

Descargar informe

2.2.2. Evaluación de calidad de lecturas Backward

En esta sección se presentan los resultados del análisis de calidad correspondientes a las lecturas backward (read 2) de cada muestra. Estas lecturas representan el segundo extremo de los fragmentos secuenciados en protocolos paired-end, y complementan la información proporcionada por las lecturas forward para una reconstrucción más completa de las transcripciones.

A continuación, se muestran las evaluaciones individuales de calidad para las lecturas read 2 por muestra, siguiendo el mismo formato estructurado que en el apartado anterior. Revisar cuidadosamente estos informes permite identificar posibles deficiencias específicas en las lecturas backward, como una menor calidad en las regiones finales, errores de secuenciación acumulativos o patrones inusuales en la distribución de bases. Estos aspectos son fundamentales para garantizar que ambas lecturas de cada fragmento contribuyan de forma fiable al análisis global.

2.2.2.1. Muestra: PX_Cd0_Rep1

A continuación se muestra el informe de control de calidad correspondiente a la lectura backward (read 2) de la muestra PX_Cd0_Rep1. Este informe permite revisar visualmente diversos aspectos relacionados con la calidad de las secuencias obtenidas en el segundo extremo de los fragmentos, facilitando la detección de posibles incidencias que puedan comprometer el análisis posterior.

Abrir informe interactivo de FASTQC en una nueva página

Descargar informe

2.2.2.1. Muestra: PX_Cd0_Rep2

A continuación se muestra el informe de control de calidad correspondiente a la lectura backward (read 2) de la muestra PX_Cd0_Rep2. Este informe permite revisar visualmente diversos aspectos relacionados con la calidad de las secuencias obtenidas en el segundo extremo de los fragmentos, facilitando la detección de posibles incidencias que puedan comprometer el análisis posterior.

Abrir informe interactivo de FASTQC en una nueva página

Descargar informe

2.2.2.1. Muestra: PX_Cd0_Rep3

A continuación se muestra el informe de control de calidad correspondiente a la lectura backward (read 2) de la muestra PX_Cd0_Rep3. Este informe permite revisar visualmente diversos aspectos relacionados con la calidad de las secuencias obtenidas en el segundo extremo de los fragmentos, facilitando la detección de posibles incidencias que puedan comprometer el análisis posterior.

Abrir informe interactivo de FASTQC en una nueva página

Descargar informe

2.2.2.1. Muestra: WT_Cd0_Rep1

A continuación se muestra el informe de control de calidad correspondiente a la lectura backward (read 2) de la muestra WT_Cd0_Rep1. Este informe permite revisar visualmente diversos aspectos relacionados con la calidad de las secuencias obtenidas en el segundo extremo de los fragmentos, facilitando la detección de posibles incidencias que puedan comprometer el análisis posterior.

Abrir informe interactivo de FASTQC en una nueva página

Descargar informe

2.2.2.1. Muestra: WT_Cd0_Rep2

A continuación se muestra el informe de control de calidad correspondiente a la lectura backward (read 2) de la muestra WT_Cd0_Rep2. Este informe permite revisar visualmente diversos aspectos relacionados con la calidad de las secuencias obtenidas en el segundo extremo de los fragmentos, facilitando la detección de posibles incidencias que puedan comprometer el análisis posterior.

Abrir informe interactivo de FASTQC en una nueva página

Descargar informe

2.2.2.1. Muestra: WT_Cd0_Rep3

A continuación se muestra el informe de control de calidad correspondiente a la lectura backward (read 2) de la muestra WT_Cd0_Rep3. Este informe permite revisar visualmente diversos aspectos relacionados con la calidad de las secuencias obtenidas en el segundo extremo de los fragmentos, facilitando la detección de posibles incidencias que puedan comprometer el análisis posterior.

Abrir informe interactivo de FASTQC en una nueva página

Descargar informe

2.3. Reflexiones finales sobre el control de calidad

¿Por qué es fundamental realizar un control de calidad en RNA-Seq?

En estudios de RNA-Seq (mRNA, miRNA y circRNA), la fiabilidad de los análisis posteriores depende críticamente de la calidad de las lecturas. Detectar tempranamente problemas como baja calidad en posiciones específicas, sesgos nucleotídicos, presencia de adaptadores residuales o secuencias duplicadas es esencial para asegurar resultados precisos en etapas posteriores como el alineamiento, la cuantificación de expresión y el análisis diferencial.

Un control de calidad integral permite identificar muestras con posibles problemas antes de pasar al alineamiento, como baja cobertura, sesgos en la distribución de lecturas o adaptadores no eliminados. De esta manera, se pueden definir filtros adecuados para limpiar los datos y garantizar que las lecturas que ingresan al pipeline sean consistentes y fiables.

Conceptos clave a recordar:

Lecturas forward (read 1) y reverse (read 2) ⇒ fragmentos secuenciados desde ambos extremos en la técnica paired-end, que aportan información complementaria para mejorar la resolución de la cuantificación de genes y la detección de errores de secuenciación.
Módulos de FastQC ⇒ métricas que evalúan calidad por base, contenido de GC, secuencias sobre-representadas, duplicaciones y adaptadores, permitiendo identificar problemas técnicos o biológicos específicos de cada muestra.
MultiQC ⇒ herramienta que integra los informes individuales de FastQC, proporcionando una visión global que facilita la identificación de anomalías consistentes entre múltiples muestras y lotes de secuenciación.
Importancia para RNA-Seq ⇒ un control de calidad adecuado garantiza que los resultados de alineamiento, cuantificación y análisis diferencial sean fiables, evitando artefactos que puedan afectar la interpretación biológica.

En conjunto, este control de calidad constituye un pilar indispensable en cualquier pipeline de RNA-Seq. La combinación de FastQC y MultiQC maximiza la confianza en los datos, reduce la introducción de artefactos y asegura que los resultados reflejen con precisión la expresión real de los genes y transcritos en las muestras analizadas.

Tras haber completado estas inspecciones y validaciones, se está preparado para proceder con la siguiente fase del flujo de trabajo, que consiste en el alineamiento de lecturas al genoma de referencia, donde se mapearán las secuencias al genoma de referencia para cuantificar la expresión génica.