Esta startup de IA crea imágenes con texto que se puede leer claramente (Foto: Luke MacGregor)
Una empresa emergente de inteligencia artificial está desafiando a sus competidores resolviendo un desafiante problema: permitir a los usuarios generar imágenes con texto fácilmente legible.
Como otros competidores, Ideogram puede crear imágenes altamente fieles a partir de textos cortos en cuestión de segundos. Sin embargo, esta startup con sede en Toronto y lanzada en agosto pasado, va más allá al generar texto dentro de esas imágenes. Pueden crear imágenes de manifestantes con letreros legibles o adorables gatos en camisetas con frases claras como: “Pregúntame sobre mi startup de inteligencia artificial”.
Esta solución aparentemente técnica tiene amplias implicaciones en el sector. Otros populares generadores de imágenes de inteligencia artificial, como Midjourney, Dall-E 2 de OpenAI y Stable Diffusion de Stability AI, suelen mostrar resultados incoherentes cuando se les pide reproducir palabras en imágenes.
En una entrevista con Bloomberg Línea, Clara Durodié destaca que factores subjetivos como la comprensión de los matices y necesidades de cada inversor tienen un rol fundamental.
Este lanzamiento podría sacudir un sector cada vez más saturado de generadores de imágenes por inteligencia artificial, señalando la próxima fase de esta tecnología en rápida evolución. La nueva versión de Dall-E, que OpenAI presentará en octubre y ya está disponible a través de Bing Image Creator de Microsoft (MSFT), podría tener capacidades similares. OpenAI difundió una imagen que muestra a un paciente que es un aguacate sin semilla decirle a un terapeuta que es una cuchara: “Me siento tan vacío por dentro”. Stability AI también es capaz de representar texto en imágenes con un software llamado DeepFloyd IF, aunque no es accesible para la mayoría.
Ideogram cuenta con varios antiguos empleados de Google en su equipo que colaboraron en la creación de Imagen, su servicio de generación de imágenes. La startup, que recibió una financiación inicial de US$16,5 millones en una ronda liderada por Andreessen Horowitz e Index Ventures, no se limita a producir imágenes con texto. Ideogram busca hacer que la IA para la creación de imágenes cautivadoras sea más accesible para todos, sin necesidad de escribir complejas descripciones que originaron la expresión “prompt engineering” (estructuración de texto).
“Nuestro objetivo es simplificar al máximo la participación de las personas en la expresión creativa”, dijo Mohammad Norouzi, CEO y cofundador, a Bloomberg News. Norouzi mencionó que desde su lanzamiento en agosto, más de 1,1 millones de personas se han registrado en el servicio gratuito, generando más de 80 millones de imágenes hasta el momento (los nuevos usuarios podrían tener que registrarse en una lista de espera). Los usuarios ingresan sus comandos para el software en el sitio web de Ideogram y el servicio responde generando cuatro imágenes a la vez.
Con sus características, Ideogram podría competir eventualmente con especialistas en marketing y profesionales creativos. Sin embargo, al producir texto y facilitar la producción de diversas imágenes con IA, la startup también corre el riesgo de ser utilizada para difundir información errónea, lo que socava aún más la credibilidad de las imágenes en línea.
Nathan Lambert, científico investigador de Hugging Face, Inc. que escribe regularmente sobre estudios de IA, expresó su preocupación: “Creo que es muy razonable preocuparse por eso”. Se ha demostrado que Midjourney, por ejemplo, es fácil de engañar para proporcionar información errónea a pesar de algunas salvaguardias.
Norouzi mencionó que la posibilidad de mal comportamiento es una “seria preocupación” para Ideogram. No quiere que su IA se utilice para difundir desinformación relacionada con las elecciones, pero también destaca la importancia de la libertad de expresión. El equipo de Ideogram intenta detener la difusión de contenido ofensivo filtrando automáticamente ciertas imágenes que produce (las que el software considera inapropiadas) y en su lugar muestra una imagen de un gato sosteniendo un cartel que dice “tal vez no sea seguro”.
Todas las imágenes que los usuarios crean con Ideogram y todas las indicaciones que envían son actualmente públicas. La empresa espera que esta elección ayude a construir una comunidad en torno al producto y fomente un comportamiento adecuado. Sin embargo, incluso sin una función de búsqueda, no es difícil encontrar imágenes que bordeen la línea entre familiares y NSFW (no es seguro/apropiado para el trabajo), como representaciones de celebridades femeninas cubiertas con “pintura corporal”.
La mayoría de los usuarios de Ideogram parecen aprovechar su capacidad para generar texto con fines creativos. Hay carteles y diseños de camisetas, felicitaciones navideñas, bordados ficticios y cartas del tarot. La demanda es tan alta que los usuarios a menudo deben esperar 30 segundos o más entre generaciones de imágenes mientras el servicio lucha por mantenerse al día (un problema que ha llevado a algunos usuarios a crear imágenes de manifestantes sosteniendo carteles que dicen cosas como: “NECESITAS MÁS SERVIDORES”).
“Han descubierto cómo liberar la creatividad infinita y de alta calidad de personas que nunca se habrían considerado artistas”, dijo Anjney Midha, socia general de Andreessen Horowitz que invirtió en Ideogram antes de unirse a la firma de capital de riesgo.
Generar imágenes nítidas con texto legible ha sido durante mucho tiempo un desafío para otros populares generadores de imágenes de IA. Anima Anandkumar, profesora del Instituto de Tecnología de California, lo explica como una cuestión de “basura que entra, basura que sale”, una frase que se usa a menudo para hacer referencia a la idea de que los datos de entrenamiento incorrectos tienden a producir malos resultados.
Antes de que un sistema de imágenes generativas pueda responder a un mensaje escrito, debe recibir montones de imágenes (incluidas fotografías de una variedad de objetos diferentes) y las correspondientes descripciones escritas. Se incluyen imágenes de manzanas o flores con diferentes iluminaciones y ángulos para ayudar a la IA a determinar esos conceptos. Sin embargo, el texto dentro de esas imágenes puede ser de calidad variable, incompleto o mal iluminado, y normalmente no hay mucho en las imágenes utilizadas para desarrollar estas herramientas. Esto lleva a una mala comprensión del concepto de qué es el texto.
Norouzi no explicó exactamente cómo Ideogram puede producir texto mejor que sus competidores. En general, Norouzi señaló que las herramientas de IA generativa que pueden recibir indicaciones escritas y generar texto o imágenes han mejorado a medida que aumenta la escala del modelo y sus datos de entrenamiento. Dijo que Ideogram indica a su modelo que preste atención a detalles como las comillas incluidas en las indicaciones. Norouzi no detalló las fuentes de sus datos de capacitación, pero dijo que la compañía intentó incluir imágenes que contienen texto y tiene sus propios conjuntos de datos internos.
“Nuestro modelo intenta crear texto en el contexto de otros objetos y descubrir su propia tipografía: cómo adaptar el texto a las limitaciones del lienzo”, dijo Norouzi.
Esto se puede observar en algunas de las imágenes que los usuarios han creado con Ideogram, que van desde una bombilla iluminada con una “gran idea” representada en su interior con letras de neón hasta un pastel cubierto de velas con el mensaje “Feliz cumpleaños Andrés” en una fuente tipo fondant. Por ahora, el texto de estas imágenes se limita principalmente al inglés, pero Norouzi espera que con el tiempo Ideogram pueda generar texto en numerosos idiomas y alfabetos.
En el canal Discord de la compañía, donde Norouzi suele chatear con los usuarios, mencionó que la startup tiene la intención de permitir que las personas generen imágenes de forma privada. Su capacidad para generar texto también puede ayudar a la empresa a ganar dinero con empresas que quieran utilizarla para diseñar logotipos y otros productos de marketing.
Norouzi dijo que la startup planea lanzar una oferta paga en algún momento que permitirá a las personas usar su servicio más rápidamente y tal vez ayudará a la empresa a cubrir los altos costos informáticos de construir y operar la IA.
“No es algo que queramos hacer rápidamente. Acabamos de empezar”, dijo Norouzi. “Pero debido a la economía de cómo funcionan las cosas en el espacio de la IA, eso es inevitable”.