Tecnología e innovación

MIT disculpa, permanentemente tira sin conexión enorme conjunto de datos que enseñó a los sistemas de AI para el uso racista, misógina insultos • El Registro

informe Especial MIT ha desconectado su muy citado conjunto de datos que capacitó a los sistemas de AI potencialmente describir a las personas el uso de racista, misógina, y otras problemáticas términos.

La base de datos fue eliminado de esta semana después de El Registro alertó a la Americana super-universidad. MIT también instó a los investigadores y desarrolladores para detener el uso de la biblioteca de formación, y para eliminar todas las copias. “Nos disculpamos sinceramente,” un profesor nos dijo.

El conjunto de entrenamiento, construido por la universidad, se ha utilizado para enseñar a máquina modelos de aprendizaje para identificar automáticamente y el listado de las personas y los objetos representados en las imágenes fijas. Por ejemplo, si uno de estos sistemas de una foto de un parque, podría decirle a usted acerca de los niños, adultos, mascotas, márgenes de picnic, la hierba y los árboles presentes en el complemento. Gracias a MIT cavalier enfoque cuando el montaje de su conjunto de entrenamiento, sin embargo, estos sistemas también se pueden etiquetar a las mujeres como putas o perras, y los Negros y los Asiáticos con lenguaje despectivo. La base de datos también contiene cerca de fotos de los genitales de las hembras marcadas con el C-palabra.

las Aplicaciones, sitios web y otros productos de depender de las redes neuronales entrenadas uso del MIT conjunto de datos por lo tanto, puede terminar el uso de estos términos cuando el análisis de fotografías y imágenes de la cámara.

La problemática de la formación de la biblioteca en cuestión es de 80 Millones de Pequeñas Imágenes, que fue creado en 2008 para ayudar a producir objetos avanzada de las técnicas de detección. Es, esencialmente, una enorme colección de fotos con etiquetas que describen lo que está en las fotos, todo lo cual puede ser alimentado en redes neuronales para enseñarles a asociar los patrones en las fotos con las etiquetas descriptivas. Así que, cuando una red neuronal entrenada se muestra una bicicleta, se puede predecir con precisión una bicicleta está presente en el complemento. Se llama Pequeñas Imágenes, porque las imágenes en la biblioteca son lo suficientemente pequeños como para computadora-algoritmos de visión en los finales de la década de 2000 y principios de la década de 2010 a digerir.

Hoy en día, las Pequeñas Imágenes de conjunto de datos se utilizó para comparar ordenador algoritmos de visión junto con la mejor conocidos ImageNet la formación de la colección. A diferencia de ImageNet, sin embargo, nadie, hasta ahora, ha examinado detenidamente Pequeñas Imágenes de contenido problemático.

Vinay Prabhu, científico en jefe de UnifyID, una privacidad startup en Silicon Valley, y Abeba Birhane, candidato a Doctorado en la University College de Dublín (Irlanda), absorbí el MIT base de datos y descubrió miles de imágenes etiquetadas con insultos racistas Negros y los Asiáticos, y la derogatoria de los términos utilizados para describir a las mujeres. Reveló sus resultados en un documento [pre-impresión PDF] envía a un equipo de visión de la conferencia que se llevará a cabo el próximo año.

Gráfico que muestra el número de imágenes en el MIT conjunto de datos etiquetados con el seleccionado problemática palabras … Fuente: Prabhu y Birhane

El conjunto de datos contiene más de 79,300,000 imágenes, tomadas de Google Imágenes, dispuestas en 75,000-impar categorías. Una versión más pequeña, con 2.2 millones de imágenes, podría ser buscado y leímos en línea desde el sitio web de MIT de Ciencias de la computación y el Laboratorio de Inteligencia Artificial (CSAIL). Esta visualización, junto con un completo descargable de la base de datos, se retiraron en los lunes de el CSAIL sitio web después de El Reg alerta en el conjunto de datos del que los creadores de la labor realizada por Prabhu y Birhane.

El problema clave es que el conjunto de datos incluye, por ejemplo, las imágenes de los Negros y monos etiquetados con el N de la palabra; las mujeres en bikini, o de la celebración de sus niños, como putas; partes de la anatomía etiquetados con crudo de los términos; y así sucesivamente – innecesariamente la vinculación cotidiana de las imágenes de los insultos y el lenguaje ofensivo, y el bicarbonato de prejuicios y sesgos en el futuro de la IA de los modelos.

Una captura de pantalla de 2.2 m del conjunto de datos de visualización antes de que se fuera de línea esta semana. Esto demuestra que algunos de los conjunto de datos de ejemplos para la etiqueta ‘puta’, que hemos pixelado jurídica y la decencia razones. Las imágenes van desde un tiro en la cabeza la foto de una mujer y de una madre sosteniendo a su bebé con la Santa a las actrices porno y una mujer en un bikini … haga Click para ampliar

Antonio Torralba, profesor de ingeniería eléctrica y ciencias de la computación en CSAIL, dijo que el laboratorio no era consciente de estas imágenes ofensivas y etiquetas estuvieron presentes en el conjunto de datos en absoluto. “Está claro que debemos tener procesados manualmente”, dijo El Registro. “Para esto, nos disculpamos sinceramente. De hecho, hemos tomado el conjunto de datos sin conexión para que el infractor imágenes y categorías puede ser eliminado.”

En un comunicado en su página web, sin embargo, CSAIL dijo que el conjunto de datos de forma permanente sacó fuera de línea debido a que las imágenes eran demasiado pequeñas para la inspección manual y el filtrado de la mano. El laboratorio también admitió que obtiene automáticamente las imágenes desde internet, sin verificar si cualquier ofensiva fotos o lenguaje fueron ingeridos en la biblioteca, y se instó a las personas a eliminar sus copias de los datos:

Se ha traído a nuestra atención que las Pequeñas Imágenes de conjunto de datos contiene algunos términos despectivos como categorías y de imágenes ofensivas. Esto fue una consecuencia de la automatizados de recolección de datos procedimiento que se basó en los sustantivos a partir de WordNet. Estamos enormemente preocupados por esto y pedir disculpas a aquellos que han sido afectados.

El conjunto de datos es demasiado grande (80 millones de imágenes) y las imágenes son tan pequeñas (32 x 32 píxeles) que puede ser difícil para las personas a reconocer visualmente su contenido. Por lo tanto, la inspección manual, incluso si fuese posible, no garantiza que la ofensiva de las imágenes puede ser eliminada por completo.

por lo tanto, han decidido formalmente retirar el conjunto de datos. Se ha tomado sin conexión y no la pondrá de nuevo en línea. Pedimos a la comunidad para que se abstenga de utilizar en el futuro y también eliminar todas las copias existentes del conjunto de datos que se pueden haber descargado.

el Profesor Torralba nos contó un poco más sobre cómo la biblioteca fue construido: una enorme lista de palabras – incluyendo términos despectivos – se obtuvo y, a continuación, el código fue escrito a buscar en la web para las imágenes usando estas palabras, y combinar el lote. El resultado fue un conjunto de datos que contiene crudo de internet.

“El conjunto de datos contiene 53,464 nombres diferentes, directamente copiado de WordNet,” el Profesor Torralba dijo refiriéndose a la Universidad de Princeton, de la base de datos de palabras en inglés agrupan en conjuntos relacionados. “Estas fueron utilizadas para descargar automáticamente las imágenes de la correspondiente sustantivo de motores de búsqueda en internet en el momento, utilizando los filtros disponibles en el momento, para recoger los 80 millones de imágenes.”

WordNet, fue construido a mediados de la década de 1980 en la universidad de Princeton Cognitivos de la Ciencia de Laboratorio bajo George Armitage Miller, uno de los fundadores de la psicología cognitiva. “Miller estaba obsesionado con las relaciones entre las palabras,” Prabhu nos dijo. “La base de datos esencialmente mapas de cómo las palabras están asociados el uno con el otro.”

Por ejemplo, las palabras de perros y gatos están más estrechamente relacionados con los de gato y un paraguas. Por desgracia, algunos de los sustantivos en WordNet son racistas jerga y los insultos. Ahora, décadas más tarde, con los académicos y a los desarrolladores el uso de la base de datos como un conveniente silo de palabras en inglés, los términos persiguen moderna máquina de aprendizaje.

“Cuando la construcción de grandes conjuntos de datos, necesitamos algún tipo de estructura,” Birhane dijo El Reg. “Por eso WordNet es eficaz. Proporciona una manera para el equipo de visión de los investigadores para categorizar y etiquetar sus imágenes. Por qué lo hacen usted mismo cuando usted podría utilizar WordNet?”

WordNet no puede ser tan perjudicial en sí mismo, como una lista de palabras, aunque cuando se combina con imágenes y algoritmos, puede tener consecuencias perturbadoras. “El objetivo de que [WordNet] proyecto fue identificar las palabras que están cerca el uno del otro”, dijo Birhane. “Pero cuando usted comience a asociar imágenes con esas palabras, usted está poniendo una fotografía real de una persona real y asociarlos con los palabras que perpetúan los estereotipos.”

ImageNet tiene los mismos problemas, también, como también fue anotado usando WordNet. Un experimento llamado ImageNet Ruleta permite a las personas enviar fotos a una red neuronal entrenada de ImageNet que describan las imágenes mediante el uso de etiquetas del conjunto de datos. Como era de esperar, la gente alimenta el sistema de encaje que fascinó a la mayoría de ellos: sus selfies. Algunos se sorprendieron cuando el software descrito el uso de racista y ofensivo etiquetas.

Esta imagen de reconocimiento de la ruleta es todo diversión y juegos… hasta que las etiquetas de un sospechoso de violación, se divorcia, o un insulto racial

La fracción de la problemática de las imágenes y las etiquetas en los grandes conjuntos de datos es pequeño, y es fácil de cepillar como anomalías. Sin embargo, este material puede conducir a daño real, si se está acostumbrado a máquina de tren-modelos de aprendizaje que se utilizan en el mundo real, Prabhu y Birhane argumentó.

“La ausencia de compromiso crítico con canónicas de los conjuntos de datos de manera desproporcionada afecta negativamente a las mujeres, las minorías raciales y étnicas, y de personas vulnerables y comunidades en los márgenes de la sociedad,” que escribió en su papel.

Estos grupos a menudo no están bien representados en IA formación de conjuntos de datos; es el motivo por el reconocimiento facial de los algoritmos de lucha con la identificación de las mujeres y las personas de piel más oscura. Un hombre Negro en Detroit fue injustamente detenido por la policía después de ser confundido con un presunto ladrón por reconocimiento facial de software a principios de este año. Es también la razón por la que una polémica AI algoritmo que genera imágenes de alta resolución de baja resolución de encaje se volvió una foto borrosa de Barack Obama a alguien más Caucásica de Negro.

“la Gente no piensa acerca de cómo estos modelos se va a aplicar o lo que podría ser utilizado para”, dijo Birhane. “Ellos sólo piensa:” oh, aquí esta lo bueno que puedo hacer’. Pero cuando uno empieza a pensar más profundamente, usted comenzará a encontrar todos estos insidiosos efectos y ver cómo estos daños se manifiestan.”

el Gigante de los conjuntos de datos como ImageNet y 80 Millones de Diminutas Imágenes también se recogen a menudo por raspado de las fotos de Flickr o Google Imágenes sin el consentimiento explícito. Mientras tanto, Facebook contrató a actores que se han acordado de sus caras utilizadas en un conjunto de datos diseñado para enseñar software para detectar generada por ordenador fingió imágenes.

Prabhu y Birhane dijo que la red social fue el enfoque en una buena idea, aunque señalaron los estudios académicos son de raro tiene los fondos para pagar a los actores de la estrella en conjuntos de entrenamiento. “Reconocemos que no existe una solución perfecta para crear un ideal de conjunto de datos, pero eso no significa que las personas no deberían intentar y crear mejores,” dijeron.

El dúo sugirió el desenfoque de las caras de la gente en los conjuntos de datos se centró en el reconocimiento de objetos, seleccionando cuidadosamente las imágenes y las etiquetas de quitar cualquier material ofensivo, e incluso los sistemas de formación mediante realista datos sintéticos. “Usted no necesita incluir insultos racistas, pornográficos imágenes, o imágenes de los niños”, dijeron. “Hacer el bien de la ciencia y de mantener las normas éticas no se excluyen mutuamente.” ®

This content was originally published here.

EL 2 DE JUNIO DEL 2024 VOTA PARA MANTENER

TU LIBERTAD, LA DEMOCRACIA Y EL RESPETO A LA CONSTITUCIÓN.

VOTA POR XÓCHITL