Universidad

AI mejora en la formulación de preguntas a través del juego "Battleship"

Inteligencia Artificial

Álvaro Gómez Tornero | Jueves 04 de junio de 2026

MIT researchers have improved AI agents' questioning abilities using the game "Battleship," demonstrating that smaller models can outperform larger ones at a fraction of the cost by employing advanced inference strategies.



En un contexto donde la inteligencia artificial (IA) está en constante evolución, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y de la Escuela de Ingeniería y Ciencias Aplicadas (SEAS) de Harvard han explorado nuevas formas de mejorar las capacidades de los modelos de lenguaje (LM). Utilizando el clásico juego "Battleship" como campo de pruebas, han descubierto que un modelo pequeño puede superar a los más grandes a una fracción del costo.

Claves de la noticia

Mejora en modelos pequeños

Modelos reducidos superan a grandes LMs.

Estrategia innovadora

Uso de Monte Carlo para mejores preguntas.

Resultados destacados

Llama 4 Scout alcanza 82% de victorias.

El estudio se centra en cómo los agentes semiautónomos pueden no solo ejecutar tareas definidas, sino también formular preguntas efectivas en entornos inciertos. A través del juego "Battleship", los investigadores han podido analizar cómo estos modelos pueden mejorar su capacidad para hacer preguntas informativas, algo crucial en campos como el diagnóstico médico o el descubrimiento científico.

La metodología empleada incluyó un enfoque colaborativo donde un jugador actúa como "capitán", formulando preguntas sobre la ubicación de barcos ocultos, mientras que otro jugador, el "observador", responde en tiempo real. Para construir el conjunto de datos “BattleshipQA”, más de 40 humanos participaron en este experimento, proporcionando una base comparativa para evaluar diversos modelos de lenguaje.

Avances significativos en IA

A pesar de que los modelos más avanzados, como GPT-5, lograron vencer a los humanos en el juego, se observó que muchos modelos pequeños carecían de la habilidad para generar preguntas útiles. Para abordar esta deficiencia, los investigadores implementaron una estrategia de inferencia Monte Carlo que permite a los modelos evaluar las probabilidades asociadas con diferentes opciones basándose en las respuestas recibidas. Esta técnica resultó en que incluso modelos más pequeños pudieran competir eficazmente contra jugadores humanos.

Un hallazgo notable fue el rendimiento del modelo Llama 4 Scout. Inicialmente, este modelo solo vencía a humanos un 8% del tiempo; sin embargo, tras optimizar su estrategia de inferencia, alcanzó una tasa de victoria del 82%. Esto demuestra que una aproximación metódica y eficiente al plantear preguntas puede llevar a resultados sorprendentes incluso con recursos limitados.

Además, se logró reducir la brecha entre humanos y modelos al responder preguntas. Los investigadores encontraron que al convertir las preguntas en comandos codificados que los modelos podían interpretar mejor, se incrementó la precisión en las respuestas hasta un 15% promedio. Este avance pone de relieve la importancia del diseño adecuado en la interacción humano-máquina.

Perspectivas futuras y aplicaciones prácticas

A medida que se exploran nuevas aplicaciones para estos enfoques, como resolver problemas matemáticos o mejorar habilidades en programación, queda claro que aún hay espacio para mejoras significativas. Aunque los modelos han demostrado ser competentes en juegos simples como "Guess Who?", todavía enfrentan desafíos al responder preguntas complejas comparados con seres humanos.

Los investigadores están entusiasmados por las posibilidades futuras y planean investigar cómo estos sistemas pueden colaborar con humanos para maximizar su eficacia. Con el potencial para revolucionar áreas críticas mediante habilidades mejoradas en búsqueda y formulación de preguntas, este trabajo representa un paso importante hacia la creación de agentes inteligentes más capaces y adaptativos.

Preguntas sobre la noticia

¿Cómo mejora la capacidad de los modelos de lenguaje para hacer preguntas informativas?

Los investigadores implementaron estrategias de inferencia de Monte Carlo, lo que permite a los modelos razonar sobre posibles conjeturas como partículas individuales. Esto les ayuda a formular preguntas que extraen más información del "spotter".

¿Qué impacto tiene el uso de Python en la precisión de las respuestas de los modelos AI?

Al convertir automáticamente las preguntas en comandos codificados en Python, los modelos lograron responder correctamente con mayor frecuencia. Esta técnica mejoró la precisión en un 15% en promedio.

¿Cuáles son las implicaciones de este trabajo para el futuro de los agentes AI?

El estudio sugiere que mejorar la habilidad de búsqueda de información podría permitir que los agentes AI sean excelentes asistentes de investigación, especialmente en desafíos científicos complejos.

TEMAS RELACIONADOS:

MIT

Noticias relacionadas