Tecnología e innovación

DeepMind espera enseñar a AI a cooperar mediante la reproducción de la Diplomacia | VentureBeat

DeepMind, el Alfabeto-copia de la máquina de aprendizaje de laboratorio que se abordó el ajedrez, Go, Starcraft 2, Montezuma’s Revenge, y más allá, cree que el juego de mesa de la Diplomacia podría motivar una prometedora nueva dirección en el aprendizaje por refuerzo de la investigación. En un artículo publicado en el preprint servidor Arxiv.org, la firma de los investigadores describen un sistema de IA que obtienen altas puntuaciones en la Diplomacia, mientras que ceder «las mejoras constantes.»

los sistemas de AI han logrado fuertes del juego competitivo en complejos a gran escala de los juegos como Hexadecimal, shogi, y de poker, pero la mayor parte de estos son de dos jugadores juegos de suma cero, donde un jugador puede ganar sólo por hacer a otro jugador a perder. Que no refleja el mundo real, necesariamente, tareas como la planificación de la ruta alrededor de la congestión, las negociaciones del contrato, y en la interacción con los clientes todos implican el compromiso y la consideración de cómo las preferencias de los miembros del grupo coinciden y conflicto. Incluso cuando la IA de los agentes de software son auto-interesados, que podrían obtener mediante la coordinación y la cooperación, por lo que la interacción entre los diversos grupos requiere complejas de razonamiento acerca de las otras metas y motivaciones.

El juego de la Diplomacia de las fuerzas de estas interacciones por tareas de siete jugadores con el control de varias unidades en una provincia de nivel en el mapa de Europa. Cada turno, todos los jugadores se mueven todas sus unidades simultáneamente dentro de una de las 34 provincias, y una unidad de mayo de apoyo de otra unidad de propiedad del mismo o a otro jugador le permiten superar la resistencia por parte de otras unidades. (Como alternativa, las unidades que tienen la misma fuerza — puede mantener una provincia o mover a un espacio adyacente.) Las provincias son centros de abastecimiento, y las unidades de captura de centros de abastecimiento mediante la ocupación de la provincia. Ser propietario de más centros de suministro permite a un jugador para la construcción de más unidades, y el juego es ganado por ser dueño de una mayoría de los centros de abastecimiento.

Debido a las interdependencias entre las unidades, los jugadores deben negociar los movimientos de sus propias unidades. Pueden obtener mediante la coordinación de sus movimientos con los de otros jugadores, y se debe anticipar cómo otros jugadores actuar y reflexionar estas expectativas en sus acciones.

VB Transformar 2020 en Línea – 15-17 de julio. Únase a líderes AI ejecutivos: Registro para la libre livestream.

«se propone el uso de juegos como la Diplomacia para el estudio de la aparición y detección de conductas manipuladoras … para asegurarse de que sabemos cómo mitigar tales comportamientos en aplicaciones del mundo real,» los autores escribió. «La investigación sobre la Diplomacia podría allanar el camino hacia la creación de agentes artificiales que correctamente puede cooperar con los demás, incluyendo el manejo de las preguntas difíciles que se plantean en torno a establecer y mantener la confianza y alianzas.»

Arriba: el rendimiento de La DeepMind sistema a lo largo del tiempo en comparación con las líneas de base.

Crédito de la Imagen: DeepMind

DeepMind se centró en la «prensa» de la variante de la Diplomacia, donde no hay comunicación explícita está permitido. Asimismo, formó el aprendizaje por refuerzo de agentes — agentes que tomar acciones para maximizar alguna recompensa — el uso de un enfoque llamado Muestreados Mejores Respuestas (SBR), que manejó el gran número de acciones (10⁶⁴) los jugadores pueden tomar en la Diplomacia, con una política de iteración técnica que se aproxima a las mejores respuestas a los jugadores de las acciones así como ficticio de juego.

En cada iteración, DeepMind del sistema crea un conjunto de datos de juegos, con acciones elegidas por un módulo llamado una mejora operador que utiliza una estrategia previa (política) y el valor de la función para encontrar una política que derrota a la política anterior. Entonces los trenes de la política y de las funciones de valor para predecir las acciones de la mejora operador elija, así como los resultados del juego.

El mencionado SBR identifica las políticas que maximicen el retorno esperado para el sistema de los agentes contra los opositores de las políticas. SBR es, junto con la Mejor Respuesta de la Política Iteración (BRPI), una familia de algoritmos adaptados para el uso de Sbr en muchos juegos de jugadores, los más sofisticados de los que los trenes de las políticas para predecir sólo la última BR y explícitamente los promedios históricos de los puestos de control para proporcionar la actual estrategia empírica.

Para evaluar el rendimiento del sistema, DeepMind medido a la cabeza-a-cabeza de las tasas de éxito contra seis agentes de los diferentes algoritmos y en contra de una población de seis jugadores de forma independiente extraídos de un corpus de referencia. También considera «meta-juegos» entre los puntos de control de una carrera de entrenamiento para la prueba de la mejora constante y examinó la explotabilidad (el margen por el que un adversario a derrotar a una población de agentes) de el juego de los agentes.

El sistema de las tasas de éxito no especialmente alto de un promedio de más de cinco semillas de cada juego, que osciló entre el 12,7% y el 32,5%—, pero DeepMind notas que representan una gran mejora con respecto a los agentes capacitados con aprendizaje supervisado. En contra de un algoritmo en particular — DipNet — en un 6-a-1 juego, donde seis de los agentes eran controlados por DeepMind del sistema, el de las tasas de éxito de DeepMind de que los agentes han mejorado de manera constante a través de la capacitación.

En el futuro, el trabajo, los investigadores planean investigar maneras de reducir los agentes de explotabilidad y construir agentes que la razón acerca de los incentivos de los demás, potencialmente a través de la comunicación. «Con [el aprendizaje por refuerzo] para mejorar el juego en … la Diplomacia es un requisito previo para la investigación de los complejos motivos mixtos y muchos jugadores de los aspectos de este juego … más Allá del impacto directo en la Diplomacia, las posibles aplicaciones de este método incluyen empresarial, económico y de logística de dominios … En la prestación de la capacidad de entrenamiento táctico de referencia del agente para la Diplomacia o juegos similares, este trabajo también allana el camino para la investigación de los agentes que son capaces de formar alianzas y el uso más avanzado de las habilidades de comunicación, ya sea con otros equipos o con los seres humanos.»

This content was originally published here.