El estudio de la expresión génica en las células de pacientes con cáncer es fundamental para que los biólogos clínicos comprendan el origen de la enfermedad y pronostiquen la efectividad de diferentes tratamientos. Sin embargo, la complejidad celular implica que la forma en que se realicen las mediciones influye en los datos obtenidos. Por ejemplo, medir proteínas dentro de una célula puede proporcionar información distinta sobre los efectos del cáncer en comparación con la medición de la expresión génica o la morfología celular.
La ubicación de donde proviene la información en la célula es crucial. Para obtener un panorama completo del estado celular, los científicos a menudo deben realizar múltiples mediciones utilizando diversas técnicas y analizarlas por separado. Aunque los métodos de aprendizaje automático pueden acelerar este proceso, las técnicas actuales suelen combinar toda la información de cada modalidad de medición, dificultando así identificar qué datos corresponden a qué parte de la célula.
Un enfoque innovador para entender las células
Con el fin de abordar esta problemática, investigadores del Broad Institute del MIT y Harvard, junto con ETH Zurich y el Instituto Paul Scherrer (PSI), han desarrollado un marco impulsado por inteligencia artificial que aprende a distinguir entre la información compartida y aquella única para cada tipo de medición sobre el estado celular.
Este enfoque permite identificar qué información proviene de qué partes celulares, ofreciendo una visión más holística del estado de las células. Esto podría facilitar a los científicos comprender mejor los mecanismos de enfermedades y seguir la progresión del cáncer, trastornos neurodegenerativos como el Alzheimer y enfermedades metabólicas como la diabetes.
“Cuando estudiamos células, una sola medición rara vez es suficiente. Los científicos desarrollan nuevas tecnologías para evaluar diferentes aspectos celulares. A pesar de contar con múltiples maneras de observar una célula, al final solo existe un estado subyacente”, explica Xinyi Zhang, autora principal del estudio y exestudiante graduada del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT.
Manipulación eficiente de datos celulares
Los científicos disponen de diversas herramientas para capturar información sobre el estado celular. Por ejemplo, pueden medir ARN para determinar si una célula está creciendo o analizar la morfología de la cromatina para evaluar cómo responde a señales externas físicas o químicas.
“Al realizar análisis multimodales, los científicos recopilan información utilizando múltiples modalidades y las integran para comprender mejor el estado subyacente de las células. Es esencial saber cuál es el origen de cada dato”, agrega G.V. Shivashankar, profesor en ETH Zurich.
A menudo, los investigadores se ven obligados a llevar a cabo múltiples experimentos individuales para comparar resultados, lo cual limita significativamente la cantidad total de información que pueden recolectar.
Nueva metodología basada en aprendizaje automático
En su reciente trabajo, los investigadores construyeron un marco basado en aprendizaje automático que comprende específicamente qué información se solapa entre diferentes modalidades y cuál es exclusiva a cada una. “Como usuario, puedes ingresar tus datos celulares y automáticamente te indica qué datos son compartidos y cuáles son específicos”, señala Zhang.
Para desarrollar este marco, los investigadores replantearon el diseño típico utilizado en modelos de aprendizaje automático destinados a captar e interpretar mediciones celulares multimodales. En lugar de tener un modelo por cada modalidad que codifica representaciones separadas, el método del MIT utiliza un espacio compartido donde se codifican los datos que se superponen entre varias modalidades.
Además, aplicaron un procedimiento especial de entrenamiento en dos etapas que ayuda al modelo a manejar la complejidad necesaria para discernir qué datos son comunes entre múltiples modalidades. Tras el entrenamiento, el modelo puede identificar correctamente qué datos son compartidos y cuáles son únicos cuando se le alimenta con datos celulares previamente no vistos.
Distinguiendo entre diferentes tipos de datos
Las pruebas realizadas con conjuntos sintéticos demostraron que el marco captura correctamente tanto información conocida como específica según modalidad. Al aplicar su método a conjuntos reales de datos unicelulares, lograron distinguir automáticamente entre actividad génica capturada conjuntamente por dos modalidades distintas mientras identificaban correctamente aquellos datos provenientes únicamente de una modalidad específica.
Asimismo, utilizaron su método para identificar qué modalidad capturó un marcador proteico relacionado con daños en el ADN en pacientes oncológicos. Conocer esta procedencia ayudaría a los científicos clínicos a determinar qué técnica emplear para medir dicho marcador.
"Existen demasiadas modalidades en una célula y no podemos medirlas todas; necesitamos una herramienta predictiva", concluye Caroline Uhler, coautora senior del estudio. “No basta con integrar toda esta información; podemos aprender mucho sobre el estado celular si comparamos cuidadosamente las diferentes modalidades”.
Este estudio ha recibido financiación parcial por parte del Eric and Wendy Schmidt Center en Broad Institute, así como otras instituciones como la Fundación Nacional Suiza para la Ciencia y los Institutos Nacionales de Salud (NIH) estadounidenses.