Investigadores del MIT han desarrollado un modelo de IA que optimiza secuencias genéticas en levaduras, mejorando la producción de proteínas y reduciendo costos en el desarrollo de fármacos biológicos.
Los investigadores del MIT han logrado un avance significativo en la producción de proteínas mediante el uso de inteligencia artificial. Este nuevo enfoque promete optimizar los procesos de fabricación, lo que podría reducir considerablemente los costos asociados con el desarrollo de fármacos proteicos.
En un estudio reciente, ingenieros químicos del MIT utilizaron un modelo de lenguaje grande (LLM) para analizar el código genético de la levadura industrial Komagataella phaffii. Este análisis se centró en los codones, las secuencias de ADN de tres letras que codifican aminoácidos específicos. Cada organismo presenta patrones únicos en el uso de estos codones.
El nuevo modelo desarrollado por el MIT ha aprendido estos patrones y ha sido capaz de predecir qué codones son más efectivos para la producción de diversas proteínas. Gracias a esto, los investigadores lograron aumentar la eficiencia en la producción de seis proteínas diferentes, incluyendo la hormona del crecimiento humano y un anticuerpo monoclonal utilizado en tratamientos contra el cáncer.
J. Christopher Love, profesor de Ingeniería Química en el MIT y miembro del Instituto Koch para la Investigación Integral del Cáncer, subraya la importancia de contar con herramientas predictivas que acorten el tiempo necesario para llevar una idea desde su concepción hasta su producción efectiva. “Eliminar la incertidumbre ahorra tiempo y dinero”, afirma Love.
Las levaduras como K. phaffii y Saccharomyces cerevisiae, comúnmente conocidas como levadura panadera, son fundamentales en la industria biofarmacéutica, generando miles de millones en medicamentos proteicos y vacunas anualmente. Para adaptar estas levaduras a la producción industrial, es necesario modificar genes provenientes de otros organismos e integrarlos eficientemente en su genoma.
Este proceso puede representar entre el 15% y el 20% del costo total para comercializar nuevos medicamentos biológicos, que son grandes y complejos. “Actualmente, todos esos pasos se realizan mediante tareas experimentales muy laboriosas”, explica Love. “Nos hemos preguntado cómo aplicar conceptos emergentes en aprendizaje automático para hacer más confiables y predecibles diferentes aspectos del proceso”.
En este estudio, los investigadores se propusieron optimizar las secuencias de ADN que componen genes específicos. Existen 20 aminoácidos naturales pero 64 combinaciones posibles de codones; por lo tanto, muchos aminoácidos pueden ser representados por más de un codón. Cada uno está asociado a una molécula única de ARN transferente (tRNA), que transporta el aminoácido correcto al ribosoma donde se ensamblan las proteínas.
A través del uso de un modelo conocido como encoder-decoder, los científicos analizaron secuencias genéticas para comprender mejor las relaciones entre los codones utilizados en genes específicos. Utilizando datos disponibles públicamente sobre aproximadamente 5,000 proteínas producidas naturalmente por K. phaffii, lograron entrenar al modelo para optimizar las secuencias codónicas.
Tras completar el entrenamiento del modelo, los investigadores solicitaron optimizar las secuencias codónicas para seis proteínas distintas. Al comparar estas nuevas secuencias con otras generadas por herramientas comerciales existentes, encontraron que cinco de las seis proteínas producidas con el nuevo modelo mostraron mejores resultados.
Narayanan destaca: “Hemos comparado experimentalmente nuestros enfoques y demostrado que nuestro método supera a los demás”. Además, han comenzado a aplicar este modelo para optimizar otras proteínas relevantes dentro del laboratorio.
K. phaffii, anteriormente conocida como Pichia pastoris, es utilizada en la producción comercial de numerosos productos, incluyendo insulina y vacunas contra la hepatitis B. Los investigadores también exploraron esta metodología con datos provenientes de otros organismos como humanos y vacas, sugiriendo que se necesitan modelos específicos para cada especie para optimizar adecuadamente las secuencias codónicas.
A medida que profundizan en el funcionamiento interno del modelo, descubren que este no solo aprende sobre codones sino también sobre principios biológicos fundamentales relacionados con el genoma. “No solo estaba aprendiendo este lenguaje; también lo contextualizaba a través de características biofísicas y bioquímicas”, concluye Love.