6.8. Modelos de inteligencia artificial

Un modelo de IA es una representación matemática que traduce grandes volúmenes de datos en patrones estadísticos, permitiendo que un software ejecute tareas lógicas, tome decisiones basadas en probabilidades y realice tareas de forma autónoma.

Para iniciar el proceso, el modelo recibe los datos de entrada (input); a continuación, se procesan esos datos mediante algoritmos (secuencias de instrucciones lógicas); para terminar, el modelo produce una salida (output) que es lo que utilizan las personas para tomar decisiones y realizar predicciones.

Ciclo de procesamiento (Imagen generada con Napkin AI, 2026)

Modelos de lenguaje y de texto

Aunque en ocasiones se utilizan como sinónimos, no son lo mismo.

Modelos de lenguaje: Están entrenados para comprender y generar texto de forma que sea coherente para un humano. Se basan en el procesamiento del lenguaje natural (PLN) que es una rama de la IA que se encarga de que las computadoras entiendan, interpreten y generen lenguaje humano de texto y voz. Se emplean para responder preguntas, resumir textos y el reconocimiento y generación de voz. Para ello, los ordenadores utilizan algoritmos, técnicas de aprendizaje automático y redes neuronales profundas que permiten procesar grandes cantidades de texto e identificar patrones en el lenguaje humano. El PLN se basa en que las palabras de un idioma no se utilizan de forma aleatoria, sino que se relacionan de una forma predecible. Por ejemplo, si se introduce la expresión “El perro está ladrando porque ha visto a…”, el modelo determina que es más probable que la oración continúe con “un gato” o “un extraño” que con “una mesa” o “un periódico”.

Se incluyen en este apartado los modelos conversacionales que son los creados para mantener diálogos con humanos, entendiendo lo que se les dice y respondiendo de una forma coherente. Estos modelos han sido diseñados para comprender el lenguaje natural, interpretar las intenciones del usuario y generar respuestas relevantes y lógicas. Se utilizan como asistentes virtuales, chatbots e interfaces de voz. Están basados en modelos de lenguaje grandes (LLM) entrenados con grandes cantidades de texto. Se utilizan en una amplia gama de aplicaciones, como asistentes virtuales, chatbots, sistemas de atención al cliente automatizados e interfaces de voz. Algunos modelos conversacionales son ChatGPT, Gemini, Copilot o Claude.

Uno de los modelos de lenguaje más conocidos es Generative Pretrained Transformer (GPT) que es un sistema de procesamiento de lenguaje natural diseñado por OpenAI. Sus siglas significan:

Generative (Generativo): Hace referencia a su capacidad para generar texto de forma autónoma.
Pre-trained (Preentrenado): Antes de ser utilizado, el modelo ha sido entrenado con grandes cantidades de texto para comprender el lenguaje y sus estructuras gramaticales.
Transformer: Es una arquitectura de inteligencia artificial especialmente eficaz para el procesamiento de lenguaje natural desarrollada originalmente por investigadores de Google y adoptada ampliamente por toda la industria.

No se debe confundir un modelo GPT de procesamiento del lenguaje natural con ChatGPT que es un modelo conversacional.

Modelo de texto: Es un concepto más ambiguo y menos preciso. Se refiere a modelos que procesan texto, como los modelos de lenguaje, pero además incluyen otros más específicos como clasificadores —email spam/no spam—, análisis de sentimientos —opinión positiva, negativa o neutra—, detectores de idioma —inglés / español / francés—, etc. Estos modelos también trabajan con texto, pero su objetivo no es comprender los patrones del lenguaje humano, sino realizar una tarea concreta, como clasificar, detectar o puntuar.

En resumen, todos los modelos de lenguaje son modelos de texto, pero no todos los modelos de texto son modelos de lenguaje.

Modelos de visión artificial

Hay dos tipos de modelos de visión artificial: visión artificial analítica, dedicados a interpretar imágenes, y visión artificial generativa, empleados para crear imágenes y vídeos.

Modelos de visión artificial analítica: Son sistemas que permiten a las máquinas ver e interpretar imágenes y vídeos, de forma similar a como lo hacen las personas con los ojos y el cerebro, pero basados en las matemáticas y los datos. Se utilizan para reconocer objetos —personas, vehículos y animales—, identificar rostros, clasificar imágenes, detectar y segmentar partes de una imagen, analizar vídeo en tiempo real, leer texto en imágenes (OCR) y entender el entorno —clave en vehículos autónomos—. Es importante tener presente que estos modelos no ven como los humanos, no entienden el mundo y no tienen sentido común; se basan en el cálculo de probabilidades y dependen del entrenamiento.

Modelos de visión artificial generativa: Es la rama de la IA que se dedica a crear nuevas imágenes y vídeos, en lugar de solamente analizarlos. Estos modelos generan contenido visual original a partir de una entrada de texto o imagen y devuelven como salida otra imagen. Se utilizan para diseño gráfico, publicidad, cine, animación y simulaciones. Los errores de estos modelos se denominan alucinaciones y para evitarlos es necesario introducir instrucciones precisas (prompts). Algunas aplicaciones muy utilizadas son Leonardo, DALL·E y Midjourney —para imágenes— y Sora y Runway —para vídeo—.

Modelos de audio y voz

Son sistemas de IA que crean sonido, como voz, música y efectos sonoros. Generan audio nuevo a partir de texto, ejemplos o instrucciones. Estos modelos aprenden patrones del sonido, como el ritmo, la frecuencia y el timbre y, a partir de ellos, construyen ondas sonoras. Se utilizan para convertir texto a voz —text to speech TTS—, texto a música —text to music— y transformar un audio en otro —audio to audio—. Su uso más controvertido y peligroso es la clonación de voz. Algunas aplicaciones utilizadas son ElevenLabs y MusicGPT.

Modelos multimodales

Son capaces de procesar, entender y generar información combinando diferentes tipos de lenguajes. Los modelos multimodales fusionan datos de diferentes fuentes, como texto, imagen, audio y vídeo. Esto les permite, por ejemplo, visualizar una fotografía y describirla mediante voz, o mantener una conversación sobre lo que está captando una cámara. Algunas aplicaciones multimodales son ChatGPT y Gemini.

Obra publicada con Licencia Creative Commons Reconocimiento No comercial 4.0