Skip to main content

GPU vs CPU

· 2 min read

GPU vs CPU

Modo de procesamiento de LLM

Permite seleccionar cómo se ejecutarán los modelos de lenguaje: utilizando CPU o GPU.

CPU

El procesamiento se realiza mediante el procesador principal del servidor. Es adecuado para cargas moderadas, entornos de prueba o cuando no se dispone de GPU dedicada.

GPU

El procesamiento se acelera mediante una unidad gráfica. Recomendado para escenarios de mayor demanda, consultas complejas, RAG intensivo o múltiples usuarios concurrentes.

¿Qué cambia al seleccionar CPU o GPU?

  • Rendimiento: GPU ofrece un rendimiento significativamente mejor para tareas de procesamiento intensivo, reduciendo los tiempos de respuesta.
  • Costo: El uso de GPU puede implicar costos adicionales, especialmente en entornos de nube, debido a su mayor capacidad de procesamiento.
  • Compatibilidad: Algunos modelos de lenguaje pueden requerir GPU para funcionar de manera óptima, mientras que otros pueden ejecutarse eficientemente en CPU.
  • Escalabilidad: GPU permite manejar cargas de trabajo más grandes y concurrentes, mientras que CPU puede limitar el número de solicitudes que se pueden procesar simultáneamente.

Procesamiento aplicado

Al ejecutar consultas con IA:

  • Se cargan los modelos LLM seleccionados
  • Se ejecuta la inferencia (generación de texto / embeddings / RAG)
  • Se consumen recursos de acuerdo al modo elegido:
CPUGPU
Procesamiento secuencialProcesamiento paralelo
Mayor latenciaMenor latencia
Adecuado para cargas ligerasIdeal para cargas pesadas

En resumen, la elección entre CPU y GPU depende de las necesidades específicas de rendimiento, costo y compatibilidad de los modelos de lenguaje que se estén utilizando. Para tareas intensivas o múltiples usuarios, GPU es la opción recomendada, mientras que para cargas ligeras o entornos de prueba, CPU puede ser suficiente.

Advertencia de uso

El uso de IA con RAG puede incrementar significativamente el consumo de CPU/GPU. Se recomienda habilitar esta opción solo si se cuenta con un servidor dedicado con GPU y utilizarla únicamente cuando sea necesario para evitar afectar el rendimiento del sistema.