La narrativa global dice que todo va a la nube. En proyectos enterprise de LATAM, vemos lo contrario cada vez más seguido: on-prem y air-gapped vuelven a ganar peso.
1. Marco regulatorio fragmentado
Cada país tiene su régimen de datos personales. La LGPD brasileña, la Ley Federal mexicana, la Ley 25.326 argentina, la 1581 colombiana, la 29733 peruana — todas con criterios distintos sobre transferencia internacional, tratamiento por terceros y obligaciones de notificación.
Mover datos a un provider de IA en otra jurisdicción dispara discusiones legales largas. Mantener los datos donde están corta esas discusiones de raíz.
2. Costos de salida más altos de lo esperado
El costo por token parece bajo hasta que multiplicas por volumen real. Cuando un agente atiende 50 mil consultas diarias con prompts largos (RAG), las APIs comerciales se vuelven caras rápido.
Un modelo open-source en una GPU propia tiene costo fijo. A partir de cierto volumen, el cálculo da on-prem por amplio margen.
3. Riesgo de proveedor
Cuando tu producto depende de la API de un tercero, sufres sus cambios de precio, sus cambios de términos y sus caídas. En B2B enterprise eso es difícil de defender frente a auditoría.
Lo que no significa
On-prem no significa “todo viejo”. Las prácticas modernas — observabilidad, IaC, CI/CD, despliegue canary — aplican igual. Lo que cambia es que la GPU está en tu rack en lugar de la nube pública.
Cómo lo combinamos en la práctica
En la mayoría de implementaciones, terminamos con un modelo open-source en GPU on-prem para la mayoría del tráfico, y un modelo SOTA externo reservado para casos donde el costo extra rinde (razonamiento complejo, escritura larga). El ruteo entre los dos también es código.