IPBLN Bioinformatics Report

Mini Chat RAG (beta)

¡Hola! Soy Geni, el asistente inteligente de GenoScribe. Estoy aquí para ayudarte a explorar de forma interactiva el contenido de este informe bioinformático.

Cuando me haces una pregunta, primero intento reconocer si coincide con alguno de los patrones o expresiones que conozco. Si encuentro una coincidencia, te responderé directamente con una respuesta predefinida, diseñada para ser rápida, clara e incluso un poco ingeniosa. Si no reconozco el patrón, entonces activo mis herramientas de búsqueda: genero representaciones vectoriales (embeddings) y busco los fragmentos más relevantes entre varios documentos —incluyendo el propio informe, archivos PDF y HTML externos, y sesiones de preguntas y respuestas (QA). A partir de esa información, creo un resumen que intenta ofrecerte una respuesta coherente y útil basada en el contenido existente.

Se debe tener en cuenta que este entorno es experimental. No utilizo grandes modelos de lenguaje, por lo que algunas respuestas pueden ser aproximadas o incompletas. El objetivo principal es facilitar una visualización rápida, comprensible y reproducible de la información contenida en los documentos, permitiendo una exploración más dinámica del informe.

Actualmente, los resultados pueden variar en precisión, ya que empleo modelos ligeros y locales para asegurar que la aplicación funcione en cualquier entorno sin necesidad de servidores externos. Sin embargo, la estructura del sistema está preparada para mejorar notablemente su rendimiento en el futuro mediante la integración con modelos más avanzados o APIs externas. Para comenzar, simplemente escribe tu pregunta en el campo inferior y deja que yo me encargue del resto. ¡Prometo poner todo mi código en ello!

Pestaña

Resumen General del Proyecto

▼

Resumen

Esta pestaña ofrece una visión general integral y ejecutiva del proyecto de Single-Cell RNA-Seq (scRNA-Seq), partiendo del diseño experimental y el rendimiento de la secuenciación, para luego revelar directamente el paisaje celular final y un resumen del impacto transcriptómico.

Inicialmente, se detalla el contexto biológico y los metadatos de las muestras analizadas, estableciendo la conexión técnica y la trazabilidad con los datos crudos. A continuación, se evalúa el rendimiento global de la captura celular mediante métricas primarias clave (como el número estimado de células y la mediana de genes por célula) obtenidas tras el procesamiento inicial con Cell Ranger. Estas métricas se presentan mediante tarjetas visuales y tablas dinámicas para facilitar su rápida interpretación.

Tras validar el éxito técnico de la secuenciación, se expone el paisaje celular del tejido mediante proyecciones de reducción de dimensionalidad (UMAP) y gráficos de abundancia poblacional, permitiendo visualizar la estructura biológica de las muestras y sus variaciones. Finalmente, la sección concluye con un resumen global de genes diferencialmente expresados (DEGs) por tipo celular, ofreciendo una instantánea inmediata sobre qué subpoblaciones han sufrido una mayor alteración entre las condiciones de estudio.

En conjunto, esta sección funciona como un panel de control avanzado que destaca los hitos biológicos y técnicos más relevantes del estudio. Esto proporciona una comprensión rápida de los resultados globales y prepara al usuario para explorar detalladamente el flujo de trabajo y la toma de decisiones metodológicas en la pestaña de Análisis.

Tabla de contenidos de esta sección

1. Resumen General del Proyecto

1. Resumen General del Proyecto

Todo proyecto de transcriptómica a nivel de célula única requiere una base sólida que vincule de manera inequívoca la pregunta biológica original con los datos computacionales generados. En las siguientes subsecciones, desplegaremos de forma secuencial los pilares que sustentan este estudio. Este recorrido estructurado comienza estableciendo el marco de referencia exacto —las muestras y sus variables clínicas— para luego ir destilando la complejidad de los datos hasta alcanzar las alteraciones transcripcionales definitivas, garantizando así una interpretación rigurosa desde el primer momento.

1.1. Diseño experimental y metadatos

La reproducibilidad técnica y la correcta interpretación biológica de un experimento de Single-Cell RNA-Seq dependen directamente de una exhaustiva documentación inicial. En este directorio se centralizan los archivos que definen el diseño experimental, estableciendo el puente entre las variables clínicas de las muestras y los archivos binarios crudos provenientes de la plataforma de secuenciación.

A continuación se detallan los archivos de metadatos asociados a este proyecto:

Explorar los archivos de metadatos aquí

Tras verificar la estructura del directorio, se procede a continuación a explorar detalladamente el contenido individual de cada uno de estos archivos de metadatos. Cada tabla se presenta de forma interactiva, lo que permite al investigador revisar rápidamente las asignaciones experimentales, ordenar los datos según variables de interés y comprobar la integridad del diseño antes de adentrarse en los resultados puramente analíticos.

Archivo: sample_metadata.tsv

Este archivo conforma el diccionario biológico del análisis. Su función es asociar cada identificador único de muestra (Sample_ID) con sus correspondientes variables experimentales, tales como la condición clínica (e.g., WT vs KO), el tejido de origen, réplicas, edad o lote de secuenciación.

Estos parámetros son fundamentales en etapas avanzadas del pipeline (mediante herramientas como Seurat), ya que permiten agrupar células biológicamente similares, realizar correcciones de efecto lote (batch effect) y ejecutar los contrastes estadísticos de expresión diferencial.

Descargar archivo “sample_metadata.tsv”

Archivo: fastq_mapping.tsv

Este documento representa el trazado informático y de secuenciación del proyecto. Establece la correspondencia directa entre los nombres de muestra estandarizados y los archivos binarios crudos .fastq.gz (R1 y R2) generados por el secuenciador Illumina.

Esta trazabilidad garantiza una transparencia total del proceso computacional, asegurando que los pipelines de procesamiento primario (como Cell Ranger) identifiquen y ensamblen correctamente la estructura de códigos de barras (Cell Barcodes), identificadores moleculares (UMIs) y lecturas transcriptómicas (Reads) correspondientes a cada carril de secuenciación (Lane).

Descargar archivo “fastq_mapping.tsv”

1.2. Rendimiento global de secuenciación

Una vez establecido el diseño experimental, el siguiente paso crítico es evaluar el rendimiento técnico primario de la secuenciación y de la captura celular. A diferencia de la transcriptómica Bulk, donde el control de calidad se centra principalmente en la integridad de las lecturas a nivel de nucleótido (porcentajes de GC, adaptadores o duplicados), en Single-Cell RNA-Seq el éxito de un experimento se fundamenta en métricas de biología de sistemas.

Aquí evaluamos la eficiencia de encapsulación (cuántas células reales hemos capturado), la riqueza transcriptómica de las librerías (cuántos genes detectamos por célula) y la pureza de la señal (la correcta asignación de lecturas a células reales frente a ARN ambiente o “ruido de fondo”).

En este proyecto, se ha completado con éxito el procesamiento primario mediante el pipeline de Cell Ranger (alineamiento, filtrado de barcodes celulares y conteo de UMIs) para un total de 2 muestras: SCS003_24_KO_S18, SCS003_24_WT_S1.

A continuación, se presentan las métricas globales consolidadas del experimento. Estos valores agregados —calculados como la media de las métricas de calidad de todas las muestras— permiten confirmar de un rápido vistazo que la secuenciación no sufrió fallos técnicos generalizados y que se ha obtenido un volumen de datos robusto para el análisis computacional posterior.

Células estimadas (Total)

18,038 células

Genes / Célula (Mediana)

2,212 genes

Reads / Célula (Media)

47,872 reads

Lecturas en Células

94.1 %

Saturación Secuenciación

74.1 %

Total genes detectados

22,822 genes

Interpretación clínica y técnica de los parámetros clave:

Células estimadas (Suma Total): Indica el éxito global de la partición microfluídica y la viabilidad del tejido. Cifras extremadamente bajas respecto a las esperadas (basado en el input del laboratorio) sugieren lisis celular prematura o problemas en la fase de disgregación enzimática del tejido original.
Genes por Célula (Mediana global): Refleja la complejidad individual de las librerías construidas. Valores altos implican una mayor sensibilidad técnica para descubrir subtipos celulares raros o detectar alteraciones transcripcionales sutiles. Este valor también es intrínseco a la biología celular (por ejemplo, las células epiteliales o neuronas expresan de forma nativa muchos más genes simultáneos que los linfocitos pequeños).
Profundidad de Secuenciación (Reads / Célula): Cuantifica el esfuerzo de secuenciación invertido. Una profundidad demasiado baja puede agravar el fenómeno de dropout (falsos negativos donde genes débilmente expresados no se detectan), mientras que una profundidad excesiva sin aumento de genes únicos indica un gasto ineficiente de recursos de secuenciación.
Pureza celular (Lecturas en Células): Un porcentaje alto (generalmente >70-80%) confirma que el tejido era robusto, garantizando que las secuencias obtenidas provienen de células físicamente intactas dentro de la gota lipídica, y no de “sopa de ARN” (ARN ambiente flotando en la suspensión debido a células muertas o reventadas).
Saturación de Secuenciación (%): Es un indicador directo de costo-eficiencia. Mide la fracción del transcriptoma capturado que ya ha sido observada. Un valor alto (>70-80%) indica que la librería se ha secuenciado casi en su totalidad; secuenciarla más profundamente aportaría escasa información nueva (la mayoría de nuevas lecturas serían duplicados de PCR). Un valor bajo (<50%) sugiere que aún existe gran diversidad transcripcional oculta que podría revelarse secuenciando más la misma librería.
Total de Genes Detectados: Proporciona una panorámica de la diversidad transcripcional del experimento en su conjunto, aproximándose al tamaño total del transcriptoma genómico activo presente en el tejido bajo las condiciones del estudio.

Aunque estas métricas globales proporcionan un excelente panorama general de la calidad técnica del estudio, es imperativo comparar estos valores de forma individualizada entre las distintas réplicas biológicas y condiciones. Discrepancias masivas (por ejemplo, una muestra con el doble de profundidad de secuenciación que otra o una fracción de ruido excesiva) pueden impactar en la agrupación (clustering) y requerir técnicas de normalización severas durante el análisis integrado en Seurat.

A continuación se desglosan las métricas métricas técnicas completas e interactivas para cada muestra procesada individualmente:

Descargar métricas completas por muestra (.csv)

Exploración de métricas secundarias y de alineamiento:

Además de las métricas principales mostradas en las tarjetas, la tabla superior incluye parámetros técnicos avanzados fundamentales para el diagnóstico de la librería. Si se observan anomalías en el rendimiento global, estas columnas permiten identificar en qué punto exacto del proceso técnico se originó el problema:

Calidad de secuenciación (Q30 Bases): Columnas como Q30 Bases in Barcode, RNA Read y UMI indican el porcentaje de bases secuenciadas con una precisión superior al 99.9%. Valores consistentemente bajos (por debajo del 85-90%) apuntan a problemas físicos durante la corrida en el secuenciador de Illumina, no a la preparación biológica de la muestra.
Tasas de Mapeo (Reads Mapped Confidently): Evalúa qué porcentaje de las lecturas se han podido alinear de forma única y segura contra el genoma o transcriptoma de referencia. Un porcentaje bajo en Reads Mapped to Transcriptome (ej. < 50%) suele ser indicativo de contaminación (por ejemplo, por ARN ribosómico, bacterias o secuencias adaptadoras).
Distribución Genómica (Exonic, Intronic, Intergenic): En experimentos Single-Cell estándar (scRNA-Seq), la gran mayoría de las lecturas deben mapear en regiones exónicas (ARNm maduro). Sin embargo, si se observa una tasa inusualmente alta en regiones intrónicas (Reads Mapped Confidently to Intronic Regions), podría indicar contaminación por ARN nuclear o una lisis incompleta. Nota: En experimentos de Single-Nucleus (snRNA-Seq), una alta tasa intrónica es el comportamiento esperado y correcto.
Mediana de UMIs por Célula (Median UMI Counts): A diferencia de los genes, esta métrica cuenta el número total de transcritos individuales (moléculas de ARN) capturados por célula. Es un indicador excelente de la eficiencia de la retrotranscripción (RT) dentro de la gota lipídica.

Una vez validadas las métricas de calidad a nivel técnico y confirmado que las librerías son robustas, el enfoque del informe transiciona de la técnica a la biología. Dejamos atrás los códigos de barras y las lecturas de secuenciación para adentrarnos en la estructura celular real del tejido analizado.

1.3. Paisaje celular y abundancia de poblaciones

Tras validar la calidad de la secuenciación, el enfoque analítico transiciona de las métricas técnicas a la biología subyacente del tejido. En experimentos de Single-Cell, las miles de células secuenciadas se proyectan en un espacio bidimensional (típicamente mediante UMAP o t-SNE) de forma que las células transcripcionalmente similares se agrupen juntas, formando clústeres.

Posteriormente, estos clústeres numéricos han sido anotados e identificados utilizando bases de datos inmunológicas y marcadores canónicos. En colaboración con el equipo investigador, estos grupos iniciales se han reevaluado, refinado y agregado en poblaciones biológicamente funcionales y definitivas. Las figuras que se presentan a continuación representan el mapa final y curado del experimento. Esta visualización panorámica permite identificar de un solo vistazo la estructura del tejido y detectar cambios poblacionales drásticos entre condiciones (por ejemplo, la depleción o expansión masiva de una subpoblación celular en un fenotipo Knockout).

A continuación, se listan los archivos gráficos generados en la última versión consensuada de la agrupación de poblaciones:

UMAP_clusters_combinados_by_condition.pdf
UMAP_clusters_combinados.pdf

Explorar los archivos de la carpeta “02_version” aquí

A partir de estos archivos, extraemos y visualizamos los gráficos de reducción de dimensionalidad (UMAP) que representan la conformación definitiva del estudio:

Mapa celular: UMAP_clusters_combinados_by_condition.pdf

Abrir PDF en pestaña nueva

Descargar gráfico

Mapa celular: UMAP_clusters_combinados.pdf

Abrir PDF en pestaña nueva

Descargar gráfico

Guía para la interpretación biológica de las proyecciones celulares:

Proximidad topológica (Similitud transcriptómica): En estas proyecciones bidimensionales, cada punto representa el transcriptoma de una célula individual (basado en miles de genes). La cercanía entre los puntos refleja su afinidad biológica; las células densamente empaquetadas en un mismo “continente” comparten un estado o linaje celular común, mientras que las agrupaciones lejanas representan tipos celulares funcional y ontogénicamente divergentes.
Identidad y Estructura (Colores): La paleta de colores proyectada sobre las células identifica las subpoblaciones definitivas acordadas. La forma, dispersión y conectividad de estos clústeres ofrecen pistas sobre trayectorias de diferenciación celular (por ejemplo, clústeres que se solapan ligeramente pueden sugerir estados de transición evolutiva entre poblaciones maduras e inmaduras).
Dinámica poblacional (Gráficos separados por condición): Si entre los archivos mostrados existe una versión fragmentada por condición experimental (split by condition), esta representa la herramienta visual más potente del panel. Permite identificar al instante eventos de reorganización del tejido: la aparición, desaparición (depleción masiva) o desplazamiento de clústeres específicos en el fenotipo mutante frente al fenotipo basal.

Es importante destacar que la obtención de este mapa celular curado representa la culminación de un extenso y riguroso proceso bioinformático, y no un resultado inicial algorítmico directo. Para alcanzar esta resolución de consenso, se han evaluado iterativamente múltiples etapas previas, que incluyen desde las segmentaciones matemáticas automáticas (no supervisadas) generadas por Seurat hasta el análisis pormenorizado de los perfiles de marcadores genéticos canónicos diferenciales subyacentes a cada clúster.

Toda la trazabilidad metodológica —incluyendo las pruebas con distintas resoluciones algorítmicas, la depuración de células transicionales, las anotaciones preliminares en bases de datos (SingleR) y las decisiones biológicas conjuntas que han conducido a la definición de estas poblaciones finales— se encuentra documentada de forma exhaustiva para su reproducibilidad en la sección dedicada a la Agrupación de poblaciones celulares dentro de la pestaña de análisis detallado.

1.4. Resumen del impacto transcriptómico (DEGs)

Una vez que las células han sido agrupadas en sus poblaciones biológicas definitivas, la pregunta fundamental que guía el estudio es: ¿Cómo responde cada uno de estos tipos celulares a la perturbación experimental?

En la transcriptómica de célula única, la expresión diferencial no se calcula globalmente mezclando todo el tejido (como ocurriría en el Bulk RNA-Seq), sino que se realizan contrastes estadísticos aislados dentro de cada subpoblación celular (por ejemplo, comparando exclusivamente la población DPre del ratón WT frente a la DPre del ratón KO). Esto permite descubrir respuestas transcripcionales extremadamente específicas que de otro modo quedarían completamente enmascaradas.

A continuación se listan los resultados tabulares (genes estadísticamente significativos) y gráficos (Volcano plots) generados para cada población celular de forma individual en esta comparativa:

DEG_CD8_exhausted_naive_KO_vs_WT_cell_annot_plots.pdf
DEG_CD8_exhausted_naive_KO_vs_WT_cell_annot.tsv
DEG_Cluster_13_KO_vs_WT_cell_annot.tsv
DEG_Cluster_14_KO_vs_WT_cell_annot.tsv
DEG_Cluster_2_6_KO_vs_WT_cell_annot_plots.pdf
DEG_Cluster_2_6_KO_vs_WT_cell_annot.tsv
DEG_Cluster_9_KO_vs_WT_cell_annot_plots.pdf
DEG_Cluster_9_KO_vs_WT_cell_annot.tsv
DEG_DN_Precursors_KO_vs_WT_cell_annot_plots.pdf
DEG_DN_Precursors_KO_vs_WT_cell_annot.tsv
DEG_DPre_KO_vs_WT_cell_annot_plots.pdf
DEG_DPre_KO_vs_WT_cell_annot.tsv
DEG_DPsel_KO_vs_WT_cell_annot_plots.pdf
DEG_DPsel_KO_vs_WT_cell_annot.tsv
DEG_Monocyte_Macrophages_Dendritic_KO_vs_WT_cell_annot_plots.pdf
DEG_Monocyte_Macrophages_Dendritic_KO_vs_WT_cell_annot.tsv
DEG_preDP_DPblast_KO_vs_WT_cell_annot_plots.pdf
DEG_preDP_DPblast_KO_vs_WT_cell_annot.tsv
DEG_SP_KO_vs_WT_cell_annot_plots.pdf
DEG_SP_KO_vs_WT_cell_annot.tsv
DEG_Stroma_KO_vs_WT_cell_annot.tsv

Explorar los resultados de DEGs aquí

La exploración profunda de estos archivos generados, la visualización de los Volcano plots interactivos por clúster, los mapas de calor (heatmaps) y la lista de top marcadores se tratarán de forma rigurosa y extendida en la sección Expresión Diferencial por Condición dentro de la pestaña de análisis.

A modo de resumen general (overview), se ha contabilizado el número total de Genes Diferencialmente Expresados (DEGs) significativos (FDR < 0.05) para cada tipo celular. El siguiente gráfico interactivo ilustra la magnitud de este impacto transcripcional, discriminando entre los genes que se sobreexpresan (Up) o se reprimen (Down) por culpa del Knockout:

Guía de interpretación del impacto transcriptómico:

Sensibilidad celular (Altura de la barra): Las poblaciones con las barras más altas representan los tipos celulares primarios afectados por el experimento. En contraste, los clústeres hacia la derecha muestran “robustez transcripcional”, manteniendo su perfil casi inalterado a pesar del Knockout.
Dirección de la respuesta (Up vs Down): El predominio verde (Up) sugiere hiperactivación, estrés o compensación génica; mientras que la dominancia roja (Down) suele indicar pérdida funcional de redes regulatorias o silenciamiento asociado a la condición estudiada.

A continuación se desglosan numéricamente los resultados en una tabla interactiva, permitiendo clasificar y buscar ágilmente las poblaciones según su volumen de respuesta:

Descargar recuento global de DEGs (.tsv)

Perspectivas Funcionales (Análisis de Enriquecimiento):

Conocer la cantidad de genes alterados es solo el primer paso. Para comprender biológicamente estos mecanismos, estas listas de genes diferencialmente expresados se han sometido a rigurosos análisis de enriquecimiento funcional frente a ontologías biológicas canónicas (bases de datos GO y KEGG). Este proceso traduce la lista de genes “anónimos” en la identificación de rutas de señalización activadas o cascadas metabólicas interrumpidas. Todos estos hallazgos moleculares se encuentran ampliamente documentados en la siguiente fase de la pestaña de análisis.

Así, una vez revisados en esta pestaña los aspectos generales del resumen y las estadísticas globales de calidad, se recomienda continuar explorando la pestaña Análisis. Allí se ofrece un recorrido detallado y exhaustivo del procesamiento de datos, que permite visualizar paso a paso cada etapa del flujo de trabajo.

En dicha pestaña de Análisis se incluye desde la revisión inicial de las muestras y metadatos, pasando por el control de calidad individual y conjunto, hasta el alineamiento y la cuantificación de la expresión génica. También se presentan análisis estadísticos avanzados, normalización, control post-normalización, análisis diferencial y análisis funcional y de enriquecimiento, finalizando con conclusiones y perspectivas del estudio.

Esta navegación detallada facilita validar la calidad y la robustez del experimento, identificar posibles problemas y comprender mejor los resultados obtenidos en el resumen general.