¡Hola! Soy Geni, el asistente inteligente de GenoScribe.
Estoy aquí para ayudarte a explorar de forma interactiva el contenido de este informe bioinformático.
Cuando me haces una pregunta, primero intento reconocer si coincide con alguno de los patrones o expresiones que conozco.
Si encuentro una coincidencia, te responderé directamente con una respuesta predefinida, diseñada para ser rápida, clara e incluso un poco ingeniosa.
Si no reconozco el patrón, entonces activo mis herramientas de búsqueda: genero representaciones vectoriales (embeddings) y busco los fragmentos más relevantes entre varios documentos —incluyendo el propio informe, archivos PDF y HTML externos, y sesiones de preguntas y respuestas (QA).
A partir de esa información, creo un resumen que intenta ofrecerte una respuesta coherente y útil basada en el contenido existente.
Se debe tener en cuenta que este entorno es experimental. No utilizo grandes modelos de lenguaje, por lo que algunas respuestas pueden ser aproximadas o incompletas.
El objetivo principal es facilitar una visualización rápida, comprensible y reproducible de la información contenida en los documentos, permitiendo una exploración más dinámica del informe.
Actualmente, los resultados pueden variar en precisión, ya que empleo modelos ligeros y locales para asegurar que la aplicación funcione en cualquier entorno sin necesidad de servidores externos.
Sin embargo, la estructura del sistema está preparada para mejorar notablemente su rendimiento en el futuro mediante la integración con modelos más avanzados o APIs externas.
Para comenzar, simplemente escribe tu pregunta en el campo inferior y deja que yo me encargue del resto. ¡Prometo poner todo mi código en ello!
Pestaña
Análisis Bioinformático Completo
Sección 2
Control de calidad y Filtrado (QC)
▼
Resumen
En esta pestaña se documenta exhaustivamente el proceso integral de Control de Calidad (QC) y Filtrado aplicado a los datos de secuenciación de célula única (Single-Cell RNA-Seq). A diferencia de la transcriptómica masiva (Bulk RNA-Seq), donde el ruido técnico se diluye en el promedio del tejido, la tecnología de célula única presenta desafíos analíticos únicos derivados de la encapsulación microfluídica y la bajísima cantidad de material genético de partida. Por ello, es imperativo aplicar un enfoque analítico secuencial y multinivel que garantice la máxima fidelidad biológica de cada célula evaluada.
El flujo de validación se estructura en tres ejes fundamentales. En primer lugar, se audita el rendimiento técnico del procesamiento primario mediante el pipelineCell Ranger (estándar para la plataforma de 10x Genomics). Esta fase inicial es crucial para verificar el éxito de la partición celular, evaluar la saturación y profundidad de la secuenciación, y discriminar estadísticamente aquellas gotas lipídicas (droplets) que encapsularon células reales intactas frente a las que únicamente atraparon “sopa de ARN” ambiental.
En segundo lugar, de forma opcional pero rigurosa, se realiza una inspección independiente de la química de secuenciación bruta (archivos FASTQ) empleando herramientas forenses como FastQC o Fastp. Esto permite descartar anomalías a nivel de nucleótido, tales como caídas abruptas en la calidad de las bases (Phred scores) o contaminación persistente por secuencias adaptadoras.
Finalmente, el proceso culmina con el Filtrado Celular Biológico utilizando Seurat. Esta es la etapa más crítica del embudo, donde el enfoque computacional da paso al escrutinio biológico individualizado. A través de la inspección detallada de distribuciones estadísticas, se definen umbrales precisos para eliminar tres tipos de artefactos intrínsecos al protocolo: células muertas o apoptóticas (caracterizadas por un desproporcionado porcentaje de transcritos mitocondriales residuales), gotas vacías o perfiles de muy baja calidad (detectados por un número ínfimo de genes expresados) y dobletes celulares (errores de encapsulación donde dos células comparten el mismo código de barras, revelados por una sobreabundancia anómala de conteos génicos).
El propósito último de esta rigurosa depuración secuencial es aislar el conjunto de datos de cualquier artefacto técnico que pudiera emerger erróneamente como una subpoblación celular falsa o enmascarar señales biológicas sutiles. El resultado de esta fase es una matriz de expresión prístina, que constituye el cimiento indispensable para acometer con total seguridad los análisis posteriores de reducción de dimensionalidad, agrupación fenotípica y expresión génica diferencial.
En esta sección se documentan los resultados empíricos y las métricas exactas derivadas del proceso de Control de Calidad (QC) aplicado a las muestras de este estudio. El objetivo analítico fundamental de esta etapa es depurar los datos crudos para construir una matriz de expresión robusta y fiable, garantizando que cada “código de barras” (barcode) retenido para el análisis downstream corresponda inequívocamente a una única célula biológicamente viable.
Para lograr este nivel de pureza, se presenta un flujo de trabajo que audita la calidad en tres niveles secuenciales:
Nivel de plataforma y alineamiento (Cell Ranger): Se audita la eficiencia de la demultiplexación primaria y el alineamiento contra el genoma de referencia, confirmando que la captura microfluídica, la recuperación celular y la profundidad de secuenciación han sido óptimas.
Nivel de lectura cruda (Fastp/FastQC): Se evalúa la integridad química de los archivos FASTQ base por base, descartando sesgos del secuenciador, contaminación por adaptadores o caídas de calidad.
Nivel de integridad celular (Seurat): Se interroga el perfil transcriptómico individual de cada célula. Evaluando métricas como la complejidad génica (número de genes y UMIs detectados) y el estrés celular (fracción de transcritos mitocondriales), se establecen cortes para eliminar células apoptóticas, gotas vacías y dobletes.
A continuación, se exponen de forma transparente los informes interactivos, las tablas de validación y las distribuciones estadísticas que han guiado este proceso. En lugar de aplicar umbrales estáticos universales, las decisiones tomadas responden a un enfoque adaptativo (data-driven) ajustado a la naturaleza específica de este tejido, comenzando por el diagnóstico del procesamiento primario.
2.1. Calidad del procesamiento primario (Cell Ranger)
El primer nivel de control de calidad recae en el procesamiento computacional primario mediante el pipeline oficial Cell Ranger, el estándar bioinformático para la tecnología de 10x Genomics. Este software centraliza operaciones críticas: la demultiplexación de secuencias crudas (conversión de BCL a FASTQ), el alineamiento genómico, la corrección de códigos de barras celulares (Barcodes) y el conteo de Identificadores Moleculares Únicos (UMIs) para neutralizar los sesgos de amplificación PCR.
A diferencia del Bulk RNA-Seq, la secuenciación de célula única impone un desafío bioinformático principal: discriminar computacionalmente las células reales de las gotas vacías. Durante la partición microfluídica, la inmensa mayoría de las gotas lipídicas (droplets) no encapsulan una célula intacta, sino únicamente ARN ambiente extracelular (ruido de fondo liberado por lisis celular durante la disgregación del tejido).
Para aislar las células viables, Cell Ranger evalúa la distribución global de transcritos generando el gráfico Barcode Rank Plot. Mediante este análisis, el algoritmo identifica el punto de inflexión exacto (o caída abrupta) que separa los barcodes asociados a células viables —con alto contenido transcripcional— del ruido de fondo del sistema. La correcta definición de este umbral es indispensable para la validez de todo el estudio.
A continuación, se exponen los directorios resultantes de esta fase computacional. Estos repositorios albergan las matrices de expresión dispersas (tanto crudas como filtradas), los análisis secundarios de clústeres y los reportes HTML de validación técnica de cada librería procesada:
Aunque la exploración manual de estos directorios resulta de gran utilidad para acceder a los datos crudos, la evaluación bioinformática exige una inspección visual estructurada de los estadísticos de rendimiento. Por este motivo, en los siguientes apartados se han extraído e incrustado los informes técnicos más relevantes de cada directorio, permitiendo una revisión exhaustiva del comportamiento de cada muestra de forma secuencial y sin necesidad de abandonar el presente documento.
2.1.1. Evaluación técnica individualizada
Para evaluar pormenorizadamente la salud técnica de cada librería secuenciada, a continuación se presentan de forma dinámica e interactiva los reportes de calidad globales (web_summary.html) generados nativamente por el pipeline. Estos paneles visuales son la herramienta de diagnóstico de primer nivel, permitiendo revisar la eficiencia de la captura celular, detectar problemas masivos en el mapeo genómico o advertir sobre alertas tempranas emitidas por el secuenciador.
Inmediatamente debajo de cada informe gráfico interactivo, se despliega la tabla matriz correspondiente a su archivo metrics_summary.csv. Esta disposición dual facilita la inspección de la gráfica y la posterior copia de los valores estadísticos exactos (como la fracción de lecturas en células o la saturación de secuenciación) para cada muestra individualizada.
2.1.1.1. Muestra: SCS003_24_KO_S18
En este apartado se desglosa el perfil técnico individual de la librería correspondiente a la muestra SCS003_24_KO_S18. La revisión aislada de esta réplica resulta fundamental para certificar la integridad de su proceso de partición celular y secuenciación, permitiendo descartar anomalías específicas de este lote antes de proceder a la integración global de los datos del experimento.
Reporte Cell Ranger:web_summary.html
El siguiente dashboard interactivo resume los indicadores técnicos clave de la muestra. Se recomienda prestar especial atención al gráfico de rango de códigos de barras (curva azul) para asegurar que la caída (cliff) entre las células identificadas y el ruido de fondo sea pronunciada y clara.
Para complementar el análisis visual superior, esta tabla expone de forma directa y copiable todos los estadísticos de mapeo, profundidad y rendimiento celular consolidados para esta librería específica.
En este apartado se desglosa el perfil técnico individual de la librería correspondiente a la muestra SCS003_24_WT_S1. La revisión aislada de esta réplica resulta fundamental para certificar la integridad de su proceso de partición celular y secuenciación, permitiendo descartar anomalías específicas de este lote antes de proceder a la integración global de los datos del experimento.
Reporte Cell Ranger:web_summary.html
El siguiente dashboard interactivo resume los indicadores técnicos clave de la muestra. Se recomienda prestar especial atención al gráfico de rango de códigos de barras (curva azul) para asegurar que la caída (cliff) entre las células identificadas y el ruido de fondo sea pronunciada y clara.
Para complementar el análisis visual superior, esta tabla expone de forma directa y copiable todos los estadísticos de mapeo, profundidad y rendimiento celular consolidados para esta librería específica.
Como complemento a la exploración individualizada expuesta anteriormente, resulta de gran utilidad disponer de una visión panorámica de todo el experimento. A continuación se presenta la tabla unificada que recopila las métricas de todas las muestras simultáneamente. Esta matriz consolidada facilita enormemente la detección rápida de discrepancias entre réplicas biológicas (por ejemplo, diferencias drásticas en la viabilidad celular o en la profundidad de secuenciación) antes de adentrarse en las fases analíticas avanzadas.
Si bien el reporte global de Cell Ranger confirma la eficiencia de la captura celular y el éxito general del mapeo, el rigor metodológico permite complementar este análisis con una evaluación estructural de las lecturas crudas de secuenciación (archivos FASTQ). En la siguiente sección, se inspeccionan métricas intrínsecas a la plataforma de secuenciación —tales como los valores de calidad Phred por base, la distribución del contenido GC, las tasas de duplicación y la presencia de secuencias adaptadoras remanentes— garantizando así la máxima integridad técnica de los datos de partida.
2.2. Evaluación de lecturas crudas (Opcional: FastQC / Fastp)
Aunque los algoritmos integrados en Cell Ranger aplican un control de calidad y un filtrado interno extraordinariamente robustos para las librerías de 10x Genomics, el rigor metodológico aconseja, siempre que el diseño del proyecto lo requiera, realizar una inspección forense independiente de las lecturas crudas de secuenciación (archivos FASTQ). Esta fase actúa como una auditoría de la integridad de la secuenciación a nivel de nucleótido, evaluando métricas primarias que preceden al mapeo celular.
El objetivo principal de esta evaluación es detectar posibles anomalías intrínsecas a la plataforma de secuenciación (Illumina, singularidades de la flow cell, etc.) antes de que sus sesgos puedan propagarse a la cuantificación de la expresión. Entre los parámetros críticos analizados se incluyen la puntuación de calidad Phred por base (que permite identificar caídas de fiabilidad en los extremos de las lecturas), la distribución del contenido GC, las tasas de duplicación inusuales y la presencia de secuencias adaptadoras residuales.
En las subsecciones a continuación, se presentarán los reportes interactivos generados por las herramientas especializadas Fastp y FastQC. Dado que la ejecución de estos pre-procesamientos es una decisión modular (y frecuentemente opcional en los flujos de trabajo modernos de Single-Cell, que confían este paso a Cell Ranger), el documento se adaptará dinámicamente: si las herramientas fueron ejecutadas, se mostrarán sus respectivos paneles interactivos (MultiQC) y reportes individuales; de lo contrario, se notificará explícitamente que el proyecto ha delegado esta validación a las rutinas del procesamiento primario.
2.2.1. Control de calidad mediante Fastp
El primer paso de esta evaluación técnica de las secuencias crudas se realiza mediante Fastp, una herramienta bioinformática ultrarrápida diseñada para proporcionar perfiles de calidad exhaustivos y ejecutar el filtrado de lecturas en un único paso computacional. Su implementación resulta de gran utilidad para detectar anomalías químicas y evaluar la calidad global de la librería antes de proceder al alineamiento.
Es crucial comprender una particularidad técnica del protocolo de Single-Cell de 10x Genomics frente a la secuenciación Bulk. En este diseño, las lecturas emparejadas (paired-end) no son biológicamente simétricas. La lectura 1 (R1) actúa como una etiqueta de metadatos, conteniendo el código de barras celular (habitualmente de 16 pares de bases) y el Identificador Molecular Único o UMI (12 pares de bases). Por el contrario, la lectura 2 (R2) es la que alberga la secuencia biológica real correspondiente al ARN capturado.
Al procesar computacionalmente ambas lecturas de forma simultánea, Fastp integra la información espacial (R1) y biológica (R2), evaluando la integridad del par en su conjunto. Por este motivo, la herramienta genera un único informe de calidad consolidado por muestra, fusionando las estadísticas de ambas secuencias para ofrecer un diagnóstico global del fragmento secuenciado.
A continuación, se listan los archivos generados durante este proceso de control de calidad primario:
En este apartado se incrustan dinámicamente los informes de calidad individuales generados por Fastp para cada librería emparejada. Estos paneles interactivos permiten explorar métricas intrínsecas de la plataforma Illumina, tales como las distribuciones del contenido GC, la calidad Phred por base geométrica y las estimaciones de duplicación técnica para cada réplica biológica de forma independiente.
2.2.1.1. Muestra: SCS003_24_KO_S18
A continuación, se presenta la auditoría de calidad a nivel de nucleótido para las lecturas crudas de la muestra SCS003_24_KO_S18. La inspección individual de este reporte interactivo es clave para identificar de forma temprana anomalías específicas durante la secuenciación de esta librería, tales como caídas abruptas en la calidad Phred o la presencia de secuencias adaptadoras residuales, garantizando que los datos de partida sean óptimos.
A continuación, se presenta la auditoría de calidad a nivel de nucleótido para las lecturas crudas de la muestra SCS003_24_WT__S1. La inspección individual de este reporte interactivo es clave para identificar de forma temprana anomalías específicas durante la secuenciación de esta librería, tales como caídas abruptas en la calidad Phred o la presencia de secuencias adaptadoras residuales, garantizando que los datos de partida sean óptimos.
Para facilitar la interpretación comparativa de todo el lote experimental, se emplea la herramienta de integración MultiQC. Este software rastrea recursivamente los resultados estadísticos individuales producidos por Fastp (archivos JSON subyacentes) y los amalgama en un único panel de control interactivo. Esta superposición de datos es vital para detectar efectos de lote (batch effects) durante la secuenciación o muestras que difieran drásticamente del comportamiento general.
Una vez evaluado el comportamiento unificado de los pares de lecturas, la siguiente subsección desciende un nivel adicional en la granularidad técnica. Para ello, se revisarán los reportes de FastQC, los cuales permitirán diseccionar de forma independiente el comportamiento exacto de las lecturas de metadatos (R1) frente a las secuencias transcriptómicas (R2).
2.2.2. Control de calidad mediante FastQC
Tras la evaluación consolidada realizada por Fastp, esta subsección desciende al máximo nivel de detalle empleando FastQC, el estándar de la industria bioinformática para la auditoría de lecturas crudas. A diferencia de Fastp —que procesa y colapsa la información de ambas lecturas de forma simultánea— o de Cell Ranger —que utiliza esta información para reconstruir la matriz de expresión—, FastQC interroga cada archivo FASTQ de manera estrictamente independiente.
Analizar las lecturas por separado es crítico en la secuenciación de Single-Cell (10x Genomics) debido a la profunda asimetría de los datos. En un experimento Bulk RNA-Seq, tanto R1 como R2 corresponden a fragmentos genómicos aleatorios. Sin embargo, en célula única, la estructura obedece a un diseño de biología sintética:
Lectura 1 (R1 - Metadatos): Contiene el código de barras celular (Barcode) y el Identificador Molecular Único (UMI). Dado que su secuencia obedece a un diseño de cebadores predefinido (y no a la aleatoriedad del genoma), es completamente esperado y biológicamente normal que FastQC reporte advertencias (WARNING) o fallos (FAIL) en módulos como el contenido de GC, la sobre-representación de secuencias o el contenido de bases (sesgos de secuencia).
Lectura 2 (R2 - Transcrito): Contiene el fragmento de ADNc real correspondiente a la molécula de ARN capturada. Su comportamiento estadístico sí debe asemejarse al de una lectura transcriptómica estándar, siendo el verdadero indicador de la calidad de secuenciación de la librería.
A nivel interpretativo, FastQC estructura su evaluación en varios módulos analíticos, cada uno calificado como PASS, WARNING o FAIL. A continuación se detallan los parámetros más relevantes evaluados en estos informes, basándonos en los estándares de calidad:
Basic Statistics: Información general sobre las secuencias, incluyendo el número total de lecturas, su longitud media y el contenido GC.
Per base sequence quality: Evalúa la calidad Phred en cada posición de las lecturas. Las caídas de calidad (típicas en los extremos 3’) son el principal indicador de la eficiencia óptica del secuenciador.
Per sequence quality scores: Muestra la distribución de puntuaciones de calidad agregadas para todas las lecturas.
Sequence Duplication Levels: Informa sobre la proporción de lecturas idénticas. En R2 (Single-Cell), altas tasas de duplicación son habituales debido a la amplificación por PCR de los genes más expresados.
Adapter Content: Detecta la presencia de secuencias adaptadoras residuales de Illumina que requieran ser descartadas.
A continuación, se listan los archivos individuales generados durante este escrutinio técnico:
En esta sección se integran de manera secuencial los informes de FastQC para cada muestra. Con el fin de facilitar la inspección lógica del experimento, los paneles interactivos correspondientes a la etiqueta molecular (R1) y al transcrito biológico (R2) de una misma réplica se presentan agrupados.
2.2.2.1.1. Muestra: SCS003_24_KO_S18_L005
A continuación se presentan los perfiles de calidad independientes para las lecturas de metadatos (R1) y transcripcionales (R2) de la muestra SCS003_24_KO_S18_L005. Recuerde interpretar las alarmas de FastQC sobre el archivo R1 con la cautela propia de un diseño de célula única, focalizando el análisis de calidad Phred y fragmentación sobre el archivo R2.
A continuación se presentan los perfiles de calidad independientes para las lecturas de metadatos (R1) y transcripcionales (R2) de la muestra SCS003_24_WT__S1_L001. Recuerde interpretar las alarmas de FastQC sobre el archivo R1 con la cautela propia de un diseño de célula única, focalizando el análisis de calidad Phred y fragmentación sobre el archivo R2.
Para obtener una visión integral del experimento en su conjunto, se emplea nuevamente MultiQC. Esta herramienta captura el exhaustivo desglose generado por FastQC y lo proyecta sobre un lienzo consolidado. De esta manera, es posible superponer las curvas de calidad (por ejemplo, las curvas Phred de todos los archivos R2 simultáneamente) para confirmar que no existen muestras con comportamientos técnicos desviados respecto a la media del lote secuenciado.
Concluidas las auditorías del procesamiento primario (Cell Ranger) y la validación a nivel de nucleótido de la química de secuenciación (Fastp y FastQC), se da por certificada la integridad técnica y estructural de las lecturas crudas. Este hito marca el final del pre-procesamiento puramente informático, confirmando que la matriz de expresión generada es técnicamente sólida y libre de sesgos severos derivados de la plataforma.
El siguiente y último eslabón de esta fase da el salto hacia el escrutinio estrictamente biológico, el cual se desarrolla en la sección 2.3. Control de calidad y filtrado celular (Seurat). En esta etapa crítica, el enfoque algorítmico da paso a la evaluación fenotípica de cada célula individual. Se interrogarán métricas intrínsecas —como la complejidad transcripcional y la fracción de ARN mitocondrial— para identificar y descartar eventos aberrantes (células muertas, dobletes o gotas vacías). Todo este proceso de depuración se documentará de forma visual y comparativa, exponiendo las distribuciones del conjunto de datos antes (Pre-Quality) y después (Post-Quality) de aplicar los umbrales de exclusión, garantizando así la máxima pureza para el análisis posterior de poblaciones celulares.
2.3. Control de calidad y filtrado celular (Seurat)
Superadas las fases de validación técnica de la secuenciación y el mapeo, el análisis se adentra en la etapa más crítica del pre-procesamiento: el filtrado biológico a nivel de célula individual. Para llevar a cabo esta tarea de forma robusta e integrada, se ha empleado el ecosistema Seurat, el estándar bioinformático actual para la exploración de transcriptómica de célula única.
A diferencia de Cell Ranger, cuyo objetivo principal es distinguir las gotas con células viables de aquellas que solo contienen ruido de fondo, Seurat permite un escrutinio fenotípico profundo basado en la distribución real de los transcritos de cada célula detectada. El propósito de esta fase es establecer umbrales adaptativos para aislar perfiles transcriptómicos prístinos y eliminar artefactos biológicos o técnicos que podrían introducir clústeres artificiales en el análisis posterior.
Para ello, se evalúan tres covariables fundamentales a nivel unicelular:
Complejidad génica (nFeature_RNA): Representa el número de genes únicos detectados en cada célula. Células con valores atípicamente bajos suelen corresponder a perfiles de muy baja calidad o gotas vacías residuales. Por el contrario, aquellas con valores extraordinariamente altos son claras candidatas a ser dobletes celulares (dos o más células encapsuladas simultáneamente en la misma gota microfluídica).
Profundidad transcripcional (nCount_RNA): Cuantifica el número total de moléculas de ARN (UMIs) detectadas. Este valor está fuertemente correlacionado con la complejidad génica y ayuda a ratificar la presencia de dobletes o de células hiperactivas.
Fracción mitocondrial (percent.mt): Indica el porcentaje de lecturas que mapean contra el genoma mitocondrial. Un alto contenido mitocondrial es el principal biomarcador de estrés celular, lisis o apoptosis. Cuando la membrana plasmática se rompe durante la preparación del tejido, el ARN citoplasmático se pierde en la suspensión, reteniendo únicamente el ARN mitocondrial al estar encapsulado y protegido en sus propios orgánulos.
A continuación, se listan los archivos gráficos generados en este módulo de evaluación, los cuales consolidan las distribuciones de todas las muestras del experimento:
Antes de aplicar cualquier umbral de exclusión, es imprescindible visualizar la distribución natural (cruda) de las métricas celulares para el conjunto completo de datos. Esta inspección visual es la que permite al investigador definir cortes precisos y adaptativos (data-driven) basados en la realidad biológica del tejido analizado, evitando la aplicación ciega de parámetros estándar que podrían eliminar poblaciones celulares legítimas pero quiescentes.
El siguiente reporte en formato PDF compila múltiples representaciones gráficas del estado basal del experimento. Entre ellas, destacan los gráficos de violín (Violin Plots), que muestran la densidad poblacional para cada covariable (genes, UMIs y porcentaje mitocondrial) separada por condiciones biológicas o réplicas. Asimismo, se incluyen gráficos de dispersión (Scatter Plots) que correlacionan estas variables para identificar visualmente nubes de células apoptóticas o dobletes, junto con diagramas de caja (Boxplots) que revelan los genes transcripcionalmente más dominantes de la muestra.
Gráficos de distribución basal:Pre_Quality_mergeSeurat.pdf
Una vez definidos empíricamente los umbrales de corte —acotando habitualmente un porcentaje mitocondrial máximo y limitando los valores extremos de genes únicos detectados—, se procede a la poda de la matriz de expresión. El documento gráfico expuesto a continuación ilustra las distribuciones de las mismas covariables tras la purga efectiva de células muertas, gotas vacías y presuntos dobletes.
Comparar el estado Post-Quality frente al perfil crudo previo (Pre-Quality) es el método definitivo para certificar la efectividad del filtrado. Este proceso demuestra la obtención de un conjunto celular homogéneo, limpio y de altísima calidad biológica. Esta matriz prístina constituirá el cimiento sobre el cual se ejecutarán, con plenas garantías, los posteriores algoritmos de normalización, reducción de dimensionalidad (PCA/UMAP) y descubrimiento de clústeres fenotípicos.
Gráficos tras filtrado riguroso:Post_Quality_mergeSeurat.pdf
Habiendo concluido el exhaustivo proceso de evaluación técnica y filtrado biológico, disponemos de una matriz de expresión depurada y estadísticamente robusta. La eliminación rigurosa del ruido ambiental, las células apoptóticas y los dobletes garantiza que la heterogeneidad transcripcional retenida en este punto responde exclusivamente a la variabilidad biológica real del tejido analizado, sentando unos cimientos sólidos para las fases posteriores.
El siguiente paso en el flujo de trabajo analítico consiste en simplificar y descifrar esta inmensa complejidad matricial —donde cada gen representa una dimensión independiente— mediante técnicas matemáticas avanzadas. Esta exploración topológica, que abarca desde la evaluación de la varianza global mediante PCA hasta la identificación de subpoblaciones fenotípicas mediante proyecciones UMAP y algoritmos basados en grafos, se desarrollará en el siguiente módulo del informe: Reducción de dimensionalidad y clustering.