GPU vs CPU

Modo de procesamiento de LLM
Permite seleccionar cómo se ejecutarán los modelos de lenguaje: utilizando CPU o GPU.
CPU
El procesamiento se realiza mediante el procesador principal del servidor. Es adecuado para cargas moderadas, entornos de prueba o cuando no se dispone de GPU dedicada.
GPU
El procesamiento se acelera mediante una unidad gráfica. Recomendado para escenarios de mayor demanda, consultas complejas, RAG intensivo o múltiples usuarios concurrentes.
¿Qué cambia al seleccionar CPU o GPU?
- Rendimiento: GPU ofrece un rendimiento significativamente mejor para tareas de procesamiento intensivo, reduciendo los tiempos de respuesta.
- Costo: El uso de GPU puede implicar costos adicionales, especialmente en entornos de nube, debido a su mayor capacidad de procesamiento.
- Compatibilidad: Algunos modelos de lenguaje pueden requerir GPU para funcionar de manera óptima, mientras que otros pueden ejecutarse eficientemente en CPU.
- Escalabilidad: GPU permite manejar cargas de trabajo más grandes y concurrentes, mientras que CPU puede limitar el número de solicitudes que se pueden procesar simultáneamente.
Procesamiento aplicado
Al ejecutar consultas con IA:
- Se cargan los modelos LLM seleccionados
- Se ejecuta la inferencia (generación de texto / embeddings / RAG)
- Se consumen recursos de acuerdo al modo elegido:
| CPU | GPU |
|---|---|
| Procesamiento secuencial | Procesamiento paralelo |
| Mayor latencia | Menor latencia |
| Adecuado para cargas ligeras | Ideal para cargas pesadas |
En resumen, la elección entre CPU y GPU depende de las necesidades específicas de rendimiento, costo y compatibilidad de los modelos de lenguaje que se estén utilizando. Para tareas intensivas o múltiples usuarios, GPU es la opción recomendada, mientras que para cargas ligeras o entornos de prueba, CPU puede ser suficiente.
El uso de IA con RAG puede incrementar significativamente el consumo de CPU/GPU. Se recomienda habilitar esta opción solo si se cuenta con un servidor dedicado con GPU y utilizarla únicamente cuando sea necesario para evitar afectar el rendimiento del sistema.