MIT ha desarrollado ChartNet, un innovador conjunto de datos que mejora la interpretación de gráficos por modelos de inteligencia artificial, permitiendo una mejor análisis de tendencias empresariales y figuras científicas.
Investigadores del MIT, en colaboración con el MIT-IBM Computing Research Lab, han desarrollado un innovador conjunto de datos llamado ChartNet, diseñado para mejorar la capacidad de los modelos de inteligencia artificial (IA) en la interpretación de gráficos. Este avance es crucial para optimizar la toma de decisiones en un entorno empresarial global cada vez más acelerado.
A pesar del avance en los modelos de visión y lenguaje, estos aún enfrentan desafíos al integrar información visual, numérica y lingüística. Esto puede llevar a que las empresas que invierten en tecnología avanzada reciban datos imprecisos o incompletos. Para abordar esta problemática, los investigadores han creado un recurso multifacético que capacita a los modelos VLM (vision-language models) para interpretar gráficos con mayor precisión.
El equipo utilizó un método novedoso para generar datos, creando un conjunto que abarca más de un millón de gráficos variados. Este dataset no solo incluye imágenes gráficas, sino también componentes visuales, lingüísticos y numéricos que permiten a los modelos razonar sobre la información presentada en cada gráfico.
Al entrenar varios modelos VLM de código abierto utilizando ChartNet, se observó que muchos de estos modelos más pequeños superaron significativamente a modelos comerciales mucho más grandes en tareas como extracción de datos y resumen gráfico. Esta capacidad podría democratizar el acceso a herramientas avanzadas de IA, permitiendo que pequeñas empresas aprovechen estas tecnologías sin necesidad de inversiones exorbitantes.
“Desarrollamos ChartNet como un recurso integral para la comprensión gráfica, cubriendo todo lo que un modelo AI y su desarrollador podrían necesitar”, explica Jovana Kondic, estudiante graduada del MIT y autora principal del estudio. La investigación será presentada en la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones.
A medida que las empresas dependen cada vez más del análisis gráfico para tomar decisiones informadas, el entendimiento preciso de estos datos se vuelve esencial. Sin embargo, el desarrollo efectivo de modelos VLM ha sido limitado por la falta de conjuntos de datos adecuados que contengan ejemplos suficientes y variados.
Para superar estos obstáculos, los investigadores generaron datos sintéticos mediante un sistema automatizado que traduce imágenes gráficas existentes en código. Posteriormente, este código se modifica iterativamente para crear variaciones del gráfico original. “A partir de un solo gráfico inicial podemos generar cientos de variaciones”, señala Kondic.
Además, implementaron un proceso automatizado para verificar la calidad del contenido generado, asegurando que tanto el código como las imágenes resultantes sean precisas y presenten información significativa. A esto se suman puntos de datos anotados por expertos humanos, lo cual garantiza validez adicional a los tipos diversos de gráficos incluidos en el conjunto.
Los resultados obtenidos al aplicar ChartNet han demostrado mejoras notables en tareas como reconstrucción gráfica y extracción de datos. Con este enfoque innovador, los investigadores planean seguir ampliando ChartNet incorporando niveles adicionales de complejidad y buscando retroalimentación dentro de la comunidad investigadora.
ChartNet es un conjunto de datos desarrollado por investigadores del MIT que contiene más de un millón de gráficos variados. Está diseñado para enseñar a los modelos de lenguaje-visual (VLMs) a interpretar gráficos de manera efectiva, mejorando su precisión en la extracción de datos y resumen de gráficos.
La comprensión de gráficos es crucial para las empresas, especialmente en industrias como las finanzas, donde los gráficos son fundamentales para analizar tendencias y facilitar flujos de trabajo. La capacidad de los modelos VLM para extraer información útil de estos gráficos puede acelerar y refinar la toma de decisiones en un mercado global rápido.
ChartNet fue creado mediante un proceso automatizado que traduce imágenes existentes de gráficos en código y luego augments ese código para crear variaciones. Este enfoque permite generar una gran cantidad de imágenes diversas mientras se asegura la calidad del dato sintético producido.
A diferencia de muchos conjuntos anteriores que solo abordaban preguntas simples sobre gráficos, ChartNet apoya todos los aspectos necesarios para una comprensión robusta, incluyendo reconstrucción, extracción y resumen de datos. Esto permite que modelos más pequeños superen a modelos comerciales mucho más grandes en tareas específicas.