Ciudades del futuro

Inteligencia Artificial: Las mejores tarjetas de video para Stable Diffusion

Bienvenidos a nuestra primera prueba de rendimiento en inteligencia artificial (IA) en el portal. Estas pruebas seguirán evolucionando con el tiempo gracias a los constantes cambios y mejoras en la aceleración por hardware de diversos modelos de IA. En esta ocasión, nos sumergiremos en un tipo de uso específico: Stable Diffusion.

Dado que es la primera serie de pruebas de IA que emplea hardware, hemos preparado una pequeña guía para aquellos usuarios novatos en el mundo de la inteligencia artificial. Entendemos que algunos conceptos y términos cotidianos en aplicaciones de IA pueden resultar desconocidos, así que queremos brindar claridad. Con suerte, en futuras pruebas, evaluaremos el rendimiento de tarjetas de video en inferencia mediante IA utilizando términos como “caballos de fuerza”.

Por ahora, exploremos la primera parte de la guía, donde utilizaremos la IA (ChatGPT y otros) para explicar conceptos de manera sencilla, accesible para cualquier lector.

Información y conceptos: ¿Qué es la IA?

La inteligencia artificial (IA) se puede ver como una herramienta digital que imita la inteligencia humana. En lugar de seguir instrucciones programadas específicas, la IA puede aprender de datos y experiencias para realizar tareas y tomar decisiones.

Imagina un programa que te ayuda a escribir correos electrónicos sugiriendo palabras basadas en tu historial de escritura. Eso es un ejemplo básico de IA. Se adapta a tu estilo y preferencias a medida que interactúas con él.

Ahora, llevemos esto a un nivel más avanzado con asistentes virtuales como Siri o Google Assistant. Estos utilizan IA para entender tus preguntas, aprender de tus solicitudes pasadas y mejorar con el tiempo. Por ejemplo, si le preguntas sobre el tráfico, aprenderá cuándo y cómo prefieres recibir esa información.

En resumen, la IA es como un asistente digital que evoluciona y mejora a medida que interactúas con él, utilizando la información para hacer tareas de manera más eficiente.

¿Qué es IA generativa?

La inteligencia artificial generativa es una evolución que va más allá de simplemente responder preguntas o seguir instrucciones. En lugar de limitarse a tareas específicas, esta forma de IA tiene la capacidad de crear contenido original de manera autónoma.

Podemos comparar esto con un programa de escritura predictiva, pero llevado al siguiente nivel. En lugar de sugerir palabras o frases, la inteligencia artificial generativa puede redactar textos completos con un estilo que imita el patrón de datos con el que ha sido entrenada.

Un ejemplo concreto de esto es GPT-3, un modelo de lenguaje desarrollado por OpenAI. Este modelo puede recibir un fragmento de texto y generar continuaciones de historias, escribir poesía u otros textos coherentes y contextualmente relevantes.

En resumen, la inteligencia artificial generativa no solo responde, sino que también crea contenido nuevo basado en el aprendizaje de patrones. Es como tener un escritor digital que puede producir textos originales con base en el estilo que ha captado de los datos con los que ha sido alimentado.

Aprendizaje profundo y generación de imágenes a partir de texto

El aprendizaje profundo, en términos sencillos, es una rama de la inteligencia artificial que imita la forma en que el cerebro humano procesa la información para aprender y tomar decisiones. Es como tener un asistente digital que no solo sigue instrucciones básicas, sino que también puede entender patrones complejos y aprender de experiencias pasadas.

Ahora, cuando hablamos de modelos de texto a imagen basados en técnicas de difusión, estamos entrando en un territorio aún más fascinante. Imagina que puedes pedirle a tu asistente digital que cree una imagen a partir de una descripción que le das. Los modelos de texto a imagen utilizan el aprendizaje profundo para entender las palabras en esa descripción y luego aplican técnicas de difusión.

Hablemos de eso. La difusión es como mezclar colores de manera inteligente. Es como si tu asistente, en lugar de simplemente pintar, tomara esos colores y detalles que le proporcionas en la descripción y los “difundiera” para crear algo completamente nuevo y original. Es como tener a un artista digital que entiende cómo combinar los elementos de una manera única y creativa.

Un ejemplo concreto de esto podría ser un modelo llamado DeepDream, que utiliza el aprendizaje profundo y técnicas de difusión para interpretar y amplificar patrones específicos en una imagen, creando resultados visualmente impactantes.

En resumen, el aprendizaje profundo y los modelos de texto a imagen basados en técnicas de difusión nos permiten tener un asistente digital que no solo entiende nuestras palabras, sino que también puede crear imágenes originales y sorprendentes a partir de esas palabras. Es como si la tecnología se convirtiera en un verdadero colaborador creativo.

¿Qué es Stable Diffusion?

Stable Diffusion es un modelo de inteligencia artificial que crea imágenes basadas en indicaciones de texto. Funciona de manera similar a otros modelos de inteligencia artificial generativa, como ChatGPT. Cuando se le proporciona una indicación de texto, Stable Diffusion genera imágenes basadas en sus datos de entrenamiento.

Por ejemplo, la indicación “manzana” produciría una imagen de una manzana. También puede manejar indicaciones más complicadas, como crear la imagen de una manzana en un estilo artístico específico. Además de generar imágenes, puede reemplazar partes de una imagen existente y ampliar imágenes para hacerlas más grandes. Agregar o reemplazar elementos dentro de una imagen se llama “inpainting”, y ampliar una imagen para hacerla más grande se llama “outpainting”. Estos procesos pueden modificar cualquier imagen, ya sea que la imagen original haya sido creada con inteligencia artificial o no.

Stable Diffusion utiliza algo llamado un modelo de difusión latente (LDM). Comienza con ruido aleatorio que se asemeja al estático de un televisor analógico. A partir de ese estático inicial, pasa por muchos pasos para eliminar el ruido de la imagen hasta que coincida con la indicación de texto. Esto es posible porque el modelo fue entrenado agregando ruido a imágenes existentes, por lo que esencialmente está invirtiendo ese proceso. Stable Diffusion fue entrenado con muchas imágenes de internet, principalmente de sitios web como Pinterest, DeviantArt y Flickr. Cada imagen se acompañó de un texto descriptivo, por lo que el modelo sabe cómo lucen diferentes cosas, puede reproducir varios estilos artísticos y puede tomar una indicación de texto y convertirla en una imagen.

Stable Diffusion puede crear imágenes fotorrealistas que son difíciles de diferenciar de la realidad y también imágenes que son difíciles de distinguir de obras de arte dibujadas o pintadas a mano. Sin embargo, una forma de identificar el arte generado por inteligencia artificial es observar las manos, ya que Stable Diffusion y otros modelos tienen dificultades en esa área.

Términos importantes relacionados a IA (Glosario)

Prompt: Un “prompt” es una instrucción o estímulo corto que se proporciona para obtener una respuesta, ya sea en forma de texto, imagen u otro tipo de información. En el contexto de la inteligencia artificial, un prompt puede ser la entrada que se le da a un modelo para que genere una salida específica.
txt2img: txt2img es un término que se usa con frecuencia para referirse al proceso de convertir indicaciones de texto (prompts) en imágenes utilizando inteligencia artificial.

Stable Diffusion Benchmark – Ranking de las mejores tarjetas de video (GPUs)

No contamos con una herramienta específica de Stable Diffusion, a diferencia de otras desarrolladas por creadores de software como 3DMark y su benchmark TimeSpy. Por lo tanto, hemos tenido que desarrollar nuestra propia metodología de prueba utilizando Stable Diffusion, asegurándonos de controlar los parámetros, siendo la tarjeta de video la única variable.

Después de varios días de pruebas, ahora estamos en condiciones de aplicar una evaluación estandarizada para establecer una jerarquía de tarjetas de video y medir las diferencias de rendimiento entre ellas en este tipo de tarea.

Existen diversas versiones de Stable Diffusion disponibles para el público en general, siendo las más utilizadas la 1.5 y la SDXL 1.0.

Para nuestras pruebas, optaremos por la versión SDXL 1.0, ya que nos ha impresionado los resultados obtenidos mediante instrucciones simples, ideales para usuarios que están experimentando con esta herramienta de generación de imágenes por primera vez.

Como es habitual, compartiremos la configuración del banco de pruebas que emplearemos en las siguientes evaluaciones.

Banco de pruebas (GPU Benchmarks – Inteligencia Artificial – 2023)

En nuestro banco de pruebas, hemos seleccionado el procesador de mayor rendimiento en nuestro inventario, el Intel Core i9-13900K. Aunque el procesador no desempeña un papel crucial en la ejecución del entrenamiento de IA mediante Stable Diffusion, hemos optado por utilizar lo mejor disponible para evitar posibles contratiempos.

El enfoque central de nuestras pruebas se centra en alcanzar el rendimiento óptimo al 100% de la tarjeta de video en la generación de imágenes mediante IA. Además, buscamos evaluar las diferencias de rendimiento entre distintas tarjetas de video.

Para estas pruebas, estamos utilizando Windows 11 y hemos desactivado VBS (Virtualization-Based Security).

CPU: Intel Core i9-13900K (Limitadores de poder deshabilitados) (https://amzn.to/3X53WQS)
Placa: Z790 AORUS ELITE AX (BIOS F6) (https://amzn.to/3ClPWde)
RAM: G.Skill Flare X5 Series (AMD Expo) 32GB (2 x 16GB) DDR5 6000 CL36-36-96 (https://amzn.to/3Z8g45y)
T.video (lo que estamos testeando): Varias
Sistema operativo: Windows 11 Home Edition 22H2 – VBS OFF
Refrigeración líquida: Lian Li Galahad 360 (https://amzn.to/3jMvNXO)
SSD: Samsung 980 Pro 1TB + TeamGroup MP34 4TB SSD  (https://amzn.to/3PuIAvX)
Driver: NVIDIA GeForce Game Ready 545.84
Fuente de poder: Seasonic Prime Gold 1300W (https://amzn.to/3Qd102w)

Metodología de prueba

Existen diversas versiones de Stable Diffusion, y para nuestra prueba, optamos por la variante SDXL 1.0 (base). En cuanto a la resolución de la imagen, elegimos una resolución final superior a 512×512, utilizando el preset de calidad que implica un mayor número de “samples”. La tarea consistió en completar seis imágenes a partir del siguiente prompt:

“A gamer pig, humanoid”.

Durante el proceso, registramos el tiempo necesario para generar las seis imágenes, buscando minimizar este tiempo. Finalmente, llevamos un registro del consumo de energía de la GPU durante la ejecución de esta tarea.

Stable Diffusion Benchmark – Performance – GPUs

Medido en tiempo (segundos). Menos es mejor.

La NVIDIA GeForce RTX 4090 es la mejor tarjeta de video para este tipo de tareas. Los resultados escalan adecuadamente, excepto la GeForce GTX 1660 Super, el dedicaremos nuestra apreciación en la parte de análisis de resultados.

Stable Diffusion Benchmark – Consumo – GPUs

Watts. Sólo GPU Power

El consumo de las tarjetas de video sin usar TensorRT, es bastante similar al cual observamos en el consumo promedio de una tarjeta de video mientras uno juega (gaming). A comparación de GeForce RTX serie 30, RTX serie 40 es mucho más eficiente para este tipo de tarea.

Análisis de resultados

Los parámetros de prueba son personalizados, anticipando la evolución de los modelos de generación de imágenes mediante inteligencia artificial en los próximos meses/años. El avance tecnológico ha sido exponencial; hace solo un año, generar imágenes de 512×512 era una tarea exigente. Gracias a los avances en hardware y optimizaciones de software, ahora la generación de imágenes a esta resolución se ha simplificado considerablemente, incluso para las GPUs de laptops.

El enfoque se centra en plantear una tarea más exigente para medir los cambios generacionales cuando se lancen las tarjetas de video de próxima generación. Aunque la GeForce GTX 1660 Super logra completar la tarea, lo hace a un costo de tiempo sustancialmente mayor, ya que es necesario reducir el uso de VRAM para la configuración que empleamos.

Esto proporciona pautas útiles al seleccionar una tarjeta de video:

-Las tarjetas de video de 6GB pueden manejar de manera aceptable tareas en configuraciones tradicionales como 512×512, pero para imágenes de mayor tamaño, se recomienda una tarjeta de video de 8GB.
-Además de la capacidad de 8GB de una tarjeta de video, es crucial revisar el rendimiento, ya que este puede variar considerablemente según el modelo de la tarjeta.

Stable Diffusion Benchmark – Performance Relativo – GeForce RTX 4060

Performance relativo – Tarjeta de video base (100%) – GeForce RTX 4060

The post Inteligencia Artificial: Las mejores tarjetas de video para Stable Diffusion appeared first on XanxoGaming.

This content was originally published here.

EL 2 DE JUNIO DEL 2024 VOTA PARA MANTENER

TU LIBERTAD, LA DEMOCRACIA Y EL RESPETO A LA CONSTITUCIÓN.

VOTA POR XÓCHITL