GPU vs CPU

February 26, 2026 · 2 min read

GPU vs CPU

Modo de procesamiento de LLM

Permite seleccionar cómo se ejecutarán los modelos de lenguaje: utilizando CPU o GPU.

CPU

El procesamiento se realiza mediante el procesador principal del servidor. Es adecuado para cargas moderadas, entornos de prueba o cuando no se dispone de GPU dedicada.

GPU

El procesamiento se acelera mediante una unidad gráfica. Recomendado para escenarios de mayor demanda, consultas complejas, RAG intensivo o múltiples usuarios concurrentes.

¿Qué cambia al seleccionar CPU o GPU?

Rendimiento: GPU ofrece un rendimiento significativamente mejor para tareas de procesamiento intensivo, reduciendo los tiempos de respuesta.
Costo: El uso de GPU puede implicar costos adicionales, especialmente en entornos de nube, debido a su mayor capacidad de procesamiento.
Compatibilidad: Algunos modelos de lenguaje pueden requerir GPU para funcionar de manera óptima, mientras que otros pueden ejecutarse eficientemente en CPU.
Escalabilidad: GPU permite manejar cargas de trabajo más grandes y concurrentes, mientras que CPU puede limitar el número de solicitudes que se pueden procesar simultáneamente.

Procesamiento aplicado

Al ejecutar consultas con IA:

Se cargan los modelos LLM seleccionados
Se ejecuta la inferencia (generación de texto / embeddings / RAG)
Se consumen recursos de acuerdo al modo elegido:

CPU	GPU
Procesamiento secuencial	Procesamiento paralelo
Mayor latencia	Menor latencia
Adecuado para cargas ligeras	Ideal para cargas pesadas

En resumen, la elección entre CPU y GPU depende de las necesidades específicas de rendimiento, costo y compatibilidad de los modelos de lenguaje que se estén utilizando. Para tareas intensivas o múltiples usuarios, GPU es la opción recomendada, mientras que para cargas ligeras o entornos de prueba, CPU puede ser suficiente.

Advertencia de uso

El uso de IA con RAG puede incrementar significativamente el consumo de CPU/GPU. Se recomienda habilitar esta opción solo si se cuenta con un servidor dedicado con GPU y utilizarla únicamente cuando sea necesario para evitar afectar el rendimiento del sistema.

Modo de procesamiento de LLM​

CPU​

GPU​

¿Qué cambia al seleccionar CPU o GPU?​

Procesamiento aplicado​

Modo de procesamiento de LLM

CPU

GPU

¿Qué cambia al seleccionar CPU o GPU?

Procesamiento aplicado