Selección de modelos
Elegir el modelo adecuado puede afectar significativamente el costo y la calidad.Recomendaciones basadas en tareas
| Tarea | Modelos recomendados | Motivo |
|---|---|---|
| Preguntas y respuestas simples | gpt-5-mini, gemini-2.5-flash | Rápido, barato, suficientemente bueno |
| Razonamiento complejo | gpt-5.4, claude-opus-4-6, deepseek-r1 | Mejor lógica y planificación |
| Programación | claude-sonnet-4-6, gpt-4o, deepseek-v3.2 | Optimizado para código |
| Escritura creativa | claude-sonnet-4-6, gpt-4o | Mejor calidad de redacción |
| Visión/Imágenes | gpt-4o, claude-sonnet-4-6, gemini-2.5-flash | Soporte nativo de visión |
| Contexto largo | gemini-2.5-pro, claude-sonnet-4-6 | Ventanas de 1M+ token |
| Sensible al costo | gpt-5-mini, gemini-2.5-flash, deepseek-v3.2 | Mejor relación calidad-precio |
Niveles de costo
Optimización de costos
1. Usa primero modelos más pequeños
2. Configura max_tokens
Establece siempre un límite razonable de max_tokens:
3. Optimiza los prompts
4. Agrupa solicitudes similares
Optimización del rendimiento
5. Usa streaming para la UX
El streaming mejora el rendimiento percibido:6. Elige modelos rápidos para uso interactivo
| Caso de uso | Recomendado | Latencia |
|---|---|---|
| UI de chat | gpt-5-mini, gemini-2.5-flash | ~200ms hasta el primer token |
| Autocompletado de pestañas | claude-haiku-4-5 | ~150ms hasta el primer token |
| Procesamiento en segundo plano | gpt-4o, claude-sonnet-4-6 | ~500ms hasta el primer token |
7. Configura timeouts
Fiabilidad
8. Implementa reintentos
9. Maneja los errores con elegancia
10. Usa modelos de respaldo
Seguridad
11. Protege las API keys
12. Valida la entrada del usuario
13. Configura límites para API keys
Crea API keys separadas con límites de gasto para:- Desarrollo/pruebas
- Producción
- Diferentes aplicaciones
Monitoreo
14. Haz seguimiento del uso
Revisa tu dashboard regularmente para ver:- Uso de token por modelo
- Desglose de costos
- Tasas de acierto de caché
- Tasas de error
15. Registra métricas importantes
16. Configura alertas
Configura alertas de saldo bajo en tu dashboard para evitar interrupciones del servicio.Lista de verificación
Optimización de costos
Optimización de costos
- Uso del modelo adecuado para cada tarea
- Configuración de límites de max_tokens
- Los prompts son concisos
- Caché habilitado donde corresponde
- Agrupación de solicitudes similares
Rendimiento
Rendimiento
- Streaming para UX interactiva
- Modelos rápidos para uso en tiempo real
- Timeouts configurados
Fiabilidad
Fiabilidad
- Lógica de reintentos implementada
- Manejo de errores implementado
- Modelos de respaldo configurados
Seguridad
Seguridad
- API keys en variables de entorno
- Validación de entrada
- Keys separadas para dev/prod
- Límites de gasto configurados