Texto a imagen

Generar imágenes (Text to image)

Generar una imagen a partir de un texto (text to image) es el procedimiento más habitual. En el modelo se introduce el prompt y la IA genera la imagen. Si la salida no se ajusta a lo esperado o incluye alucinaciones, la solución es mejorar el prompt; a veces, es necesario utilizar otra herramienta para optimizar el resultado. También es útil indicar el prompt negativo, que especifica lo que no se desea en la imagen.

Opción 1: Generar imágenes con un asistente de IA (Copilot)

Desde que los asistentes de IA, como ChatGPT, Gemini y otros, son multimodales, cada vez son más los usuarios que los utilizan para generar imágenes. En la actualidad, no todos lo permiten, pero, poco a poco, van incorporando esta funcionalidad.

Prompt: Crea una fotografía cinematográfica y muy detallada de un estudiante de unos 20 años sentado en un escritorio de madera en una habitación casi a oscuras. La única fuente de luz es una lámpara de escritorio que ilumina el rostro del estudiante y el teclado de su ordenador portátil. El estudiante tiene un rostro cansado y se frota los ojos con una mano. Sobre el escritorio hay una taza de café a medio llenar, libros de texto abiertos y notas dispersas. El ambiente es sombrío y melancólico. Estilo fotorrealista. Tamaño: 800x600 píxeles. Resolución: 150 píxeles por pulgada.

Prompt negativo: Evita malformaciones, elementos ilegibles o distorsionados, baja calidad, baja resolución, borroso, desenfocado, deformación de las manos, texto incomprensible, colores saturados e iluminación plana.

Imagen generada (Copilot):

Imagen generada por Copilot (SUBDEVA, 2026)

La imagen generada por Copilot no ha respetado ni el tamaño ni la resolución indicados, pero su calidad es aceptable y responde con bastante exactitud a lo solicitado. El formato del fichero es PNG.

Opción 2: Generar imágenes con una aplicación específica (Leonardo)

Leonardo AI es una plataforma de inteligencia artificial diseñada para generar imágenes y contenido visual a partir de descripciones de texto (prompt). La versión gratuita ofrece un crédito de 150 tokens —unidad de medida habitual en IA— que se renueva automáticamente cada 24 horas.

Leonardo AI está disponible en https://leonardo.ai/ . Una vez ejecutada la aplicación, al acceder al menú “imagen” es posible configurar numerosos parámetros. En este ejemplo, se utilizan los siguientes: modelo de IA para generar la imagen (Lucid Origin), mejorar el prompt (Auto), estilo (Dynamic), calidad de la imagen (Fast), dimensiones (16:9), tamaño (Medium 1600x896 px) y número de imágenes a generar (4). Leonardo informa que el número de tokens consumidos con esta configuración es de 67.

En este ejemplo, se utilizan los siguientes: modelo de IA para generar la imagen (Lucid Origin), mejorar el prompt (Auto), estilo (Dynamic), dimensiones (16:9 medium) y número de imágenes a generar (4; máximo permitido en la versión freemium 1). Leonardo informa que el número de tokens consumidos con esta configuración es de 80.

Configuración de Leonardo AI para la creación de imágenes (SUBDEVA, 2026)

Para obtener los mejores resultados, es recomendable redactar el prompt en inglés. Con la finalidad de comparar la salida, se reutiliza el prompt del ejemplo de la opción 1.

Prompt: Create a cinematic and highly detailed photograph of a tired student in their 20s sitting at a wooden desk in a nearly dark room. The only source of light is a desk lamp that illuminates the student's face and the keyboard of their laptop. The student has a tired expression and is rubbing their eyes with one hand. On the desk, there is a half-empty coffee cup, open textbooks, and scattered notes. The atmosphere is somber and melancholic. Photorealistic style.

Negative prompt: Avoid malformations, illegible or distorted elements, low quality, low resolution, blurry, out of focus, hand deformation, incomprehensible text, saturated colors, and flat lighting.

Imágenes generadas (Leonardo):

Miniaturas de las 4 imágenes generadas por Leonardo AI (SUBDEVA, 2025)

El resultado responde a lo solicitado y es bastante similar al obtenido en Copilot. Una ventaja de Leonardo AI es que ofrece varias versiones de la imagen y permite elegir entre ellas.

En resumen, utilizar un asistente de IA es más rápido y cómodo, pero las opciones de configuración de aplicaciones específicas, como Leonardo AI y otras, permiten un mayor control sobre la imagen generada.

Opción 3: Generar imágenes con un asistente de IA (Gemini)

En algunas ocasiones, puede obtenerse un buen resultado sin un prompt muy detallado.

Prompt: Genera una imagen para ilustrar qué es un algoritmo, en concreto, un algoritmo de reconocimiento de matrículas. La imagen debe tener una matrícula española. A la izquierda, sobre fondo azul la letra "E"; después 4 números seguidos por 3 letras (sin incluir vocales).

Imagen generada (Gemini):

Imagen generada con Gemini (SUBDEVA, 2026)

El resultado responde con exactitud a lo solicitado. En este caso, la ventaja de utilizar un asistente de IA es que, sin lugar a dudas, sabe qué es una matrícula de un vehículo español porque ha sido entrenado específicamente para reconocer este tipo de elementos.

Obra publicada con Licencia Creative Commons Reconocimiento No comercial 4.0