Tecnología e innovación

La enseñanza de los robots lo que los humanos quieren | Noticias de Stanford

Dijo que, para optimizar la velocidad mientras bajamos por una pista en un juego de ordenador, un coche empuja el pedal para el metal … y procede a girar en un poco apretado círculo. Nada de lo dispuesto en las instrucciones que le dijo al coche para conducir en línea recta, y así es improvisado.

los Investigadores están tratando de hacer más fácil para los seres humanos para contar con sistemas autónomos, tales como vehículos y robots, lo que ellos quieren hacer. (crédito de la Imagen: Getty Images)

Este ejemplo – divertido en un juego de ordenador, pero no tanto en la vida – es uno de los que motivó la Universidad de Stanford a los investigadores a construir una mejor manera de establecer metas para sistemas autónomos.

Dorsa Sadigh, profesor asistente de ciencias de la computación y de ingeniería eléctrica, y su laboratorio se han combinado dos formas diferentes de establecer las metas para los robots en un solo proceso, en el cual se desempeñaron mejor que cualquiera de sus partes solos en ambas simulaciones y experimentos en el mundo verdadero. Los investigadores expusieron a los el trabajo el 24 de junio en la la Robótica: la Ciencia y los Sistemas de conferencia.

“En el futuro, espero que haya más sistemas autónomos en el mundo y que ellos van a necesitar algún concepto de lo que es bueno y lo que es malo”, dijo el Andy Palan, estudiante de posgrado en ciencias de la computación y co-autor principal del artículo. “Es fundamental, si queremos implementar estos sistemas autónomos, en el futuro, que tenemos ese derecho”.

El equipo del nuevo sistema para proporcionar instrucciones a los robots conocidos como recompensa funciones – combina las manifestaciones, en las que los seres humanos muestran que el robot qué hacer, y la preferencia de los usuarios de las encuestas, en las que la gente responde a las preguntas acerca de cómo se desea que el robot se comporte.

“las Manifestaciones son de carácter informativo, pero que puede ser ruidoso. Por otro lado, las preferencias de proporcionar, en la mayoría, un poco de información, pero son la manera más precisa”, dijo Sadigh. “Nuestro objetivo es conseguir lo mejor de ambos mundos, y combinar los datos procedentes tanto de estas fuentes de forma más inteligente para mejor aprender acerca de los seres humanos’ preferido función de la recompensa.”

las Manifestaciones y las encuestas

En el trabajo anterior, Sadigh se había centrado en las encuestas sobre preferencias solos. Estos pedimos a la gente a comparar escenarios, tales como dos trayectorias para un coche autónomo. Este método es eficaz, pero puede tardar hasta tres minutos para generar la siguiente pregunta, que es todavía lento para la creación de instrucciones para los sistemas complejos, como un coche.

A la velocidad que, el grupo más tarde desarrollado de una manera de la producción de varias preguntas a la vez, que podrían ser respondidas en una rápida sucesión de una persona o distribuido entre varias personas. Esta actualización acelerado el proceso de 15 a 50 veces en comparación con la producción de las preguntas una por una.

Un ejemplo de cómo el brazo del robot utiliza preguntas de la encuesta para determinar las preferencias de la persona que la utiliza. En este caso, la persona prefiere trayectoria #1 (T1) a través de la trayectoria de #2. (crédito de la Imagen: Andy Palan y Gleb Shevchuk)

La nueva combinación del sistema comienza con una persona que demuestre un comportamiento del robot. Que puede dar a los robots autónomos una gran cantidad de información, pero el robot a menudo dificultades para determinar qué partes de la demostración son importantes. La gente no siempre quiere un robot para que se comportan igual que el humano que ha formado a él.

“no siempre podemos dar demostraciones, e incluso cuando se puede, muchas veces no podemos confiar en la información que las personas dan”, dijo el Erdem Biyik, un estudiante de posgrado en ingeniería eléctrica, quien dirigió el trabajo de desarrollo de las múltiples preguntas de las encuestas. “Por ejemplo, estudios previos han demostrado que la gente quiere coches autónomos a la unidad menos agresiva que la de ellos mismos.”

Cuando demos fallar

a Veces las manifestaciones por sí solas no logran transmitir el punto de una tarea. Por ejemplo, una demostración en este estudio se ha de enseñar el brazo del robot se mueva hasta que se señaló en un punto concreto de la tierra, y para hacerlo a la vez que se evita un obstáculo y sin moverse por encima de una cierta altura.

Después de un humano corrió el robot a través de su prueba por 30 minutos, el robot se trató de realizar la tarea de forma autónoma. Simplemente apuntando hacia arriba. Estaba tan centrado en el aprendizaje de no golpear los obstáculos, que se perdió por completo la verdadera meta de la tarea – señalando el lugar – y la preferencia por permanecer de baja.

Que es donde las encuestas vienen, dando al robot una manera de preguntar, por ejemplo, si el usuario lo prefiere mover su brazo bajo a la tierra o hacia el techo. Para este estudio, el grupo utiliza el más lento es solo cuestión de método, pero el plan para integrar varias preguntas de las encuestas en el trabajo posterior.

En las pruebas, el equipo encontró que la combinación de las manifestaciones y de las encuestas fue más rápido que sólo la especificación de las preferencias y, cuando se compara con las manifestaciones, alrededor de 80 por ciento de la gente prefería cómo el robot se comportaba cuando se entrenó con el sistema combinado.

“Este es un paso en una mejor comprensión de lo que la gente quiere o espera de un robot”, dijo Sadigh. “Nuestro trabajo es hacer que sea más fácil y más eficiente para que los seres humanos interactúan y enseñar a los robots, y estoy muy emocionado acerca de la toma de este trabajo, en particular, en el estudio de cómo los robots y los seres humanos pueden aprender unos de otros.”

Mejor, más rápido, más inteligente

las Personas que utilizan el método combinado han informado de dificultades para la comprensión de lo que el sistema es llegar a algunas de sus preguntas, que a veces se les pidió elegir entre dos escenarios que parecía el mismo o parecía irrelevante para la tarea – un problema común en la preferencia basada en el aprendizaje. Los investigadores tienen la esperanza de que para solucionar esta deficiencia con la más fácil de las encuestas que también el trabajo más rápidamente.

de la Mano de la codificación y de la recompensa de hacking

Otra manera de enseñar a un robot a escribir código que actúa como instrucciones. El reto es explicar exactamente qué usted quiere un robot para hacer, especialmente si la tarea es compleja. Un problema común es el conocido como “recompensa hacking,” donde el robot cifras de una forma más fácil para llegar a las metas específicas – tales como el coche girando en círculos con el fin de lograr el objetivo de ir más rápido.

Biyik experimentado recompensa de hacking cuando fue la programación de un robot de brazo para agarrar un cilindro y se mantenga en el aire.

“me dijo que la mano debe estar cerrado, el objeto tiene que tener una altura superior a la X y la mano deben estar a la misma altura”, describió Biyik. “El robot rodar el cilindro objeto hasta el borde de la mesa, golpeó hacia arriba y, a continuación, hizo un puño junto a ella en el aire.”

“Mirando hacia el futuro, no es 100 por ciento obvio para mí lo que la forma correcta de hacer la recompensa funciones, pero en realidad vas a tener algún tipo de combinación que se puede abordar situaciones complejas con entrada humana”, dijo el Palan. “Ser capaz de diseñar recompensa funciones de los sistemas autónomos es un gran problema importante que no ha recibido la atención en el mundo académico como se merece.”

El equipo también está interesado en una variación en su sistema, que permitiría a la gente al mismo tiempo crean la recompensa de funciones para los diferentes escenarios. Por ejemplo, una persona puede querer su coche para conducir de forma más conservadora en tráfico lento y más agresivamente cuando el tráfico es ligero.

Co-autores de la RSS de 2019 de papel son de pregrado Gleb Shevchuk y estudiante de posgrado de Nicholas C. Landolfi, tanto de Stanford.

Esta investigación fue financiada por el Toyota Instituto de Investigación y el Futuro de la Vida del Instituto.

Para leer todas las historias acerca de Stanford ciencia, suscribirse a los quincenal Stanford Ciencia Digerir.

This content was originally published here.

EL 2 DE JUNIO DEL 2024 VOTA PARA MANTENER

TU LIBERTAD, LA DEMOCRACIA Y EL RESPETO A LA CONSTITUCIÓN.

VOTA POR XÓCHITL