GPT-5, Claude 4 y Gemini 3 en agentes de WhatsApp: qué cambió, qué no, y cuándo elegir cuál

Cuando OpenAI lanzó GPT-5 en agosto de 2025 (después del entrenamiento corregido a finales de 2024), pasé las primeras 6 semanas comparándolo a fondo contra GPT-4.1, Claude 3.5 Sonnet, y la primera versión de Gemini 2.5 Pro en las cuentas reales que opero. En 2026 sumé Claude 4.5 y Gemini 3. Esto es lo que aprendí — y lo que no se cuenta en los benchmarks de Twitter.

Lo que de verdad mejoró con GPT-5

Las tres mejoras concretas que se notan en producción, no en el benchmark sintético:

Tool calling fiable a múltiples herramientas en cadena. GPT-4 podía llamar 1-2 funciones en una conversación. GPT-5 sostiene cadenas de 6-8 funciones (consultar inventario, calcular envío, generar payment link, crear orden, actualizar CRM, notificar al admin) sin perder coherencia. Esa diferencia es la que separa un chatbot de un agente operativo real.
Razonamiento sobre reglas combinadas. Pude reemplazar 3 capas de lógica condicional escritas a mano por instrucciones en lenguaje natural en el prompt. Ejemplo real: "si la entrega es para hoy y son después de las 4 PM y la zona es periférica, cobra envío express y advierte que no garantizamos antes de las 8 PM" — antes esto eran 4 ifs anidados en código, ahora es una línea de prompt que el modelo respeta consistente.
Español mexicano natural. Es el modelo que mejor maneja "ahorita", "manche", "checa", "porfa", "neta", giros norteños y chilangos sin descomponerse en lo coloquial. Claude 4 es más formal, Gemini 3 demasiado neutro de LATAM.

Lo que sigue exactamente igual

Esto es donde la gente se equivoca: pensar que GPT-5 reduce el esfuerzo de configuración. No. Lo que reduce es el esfuerzo de código; sigues necesitando:

Curar la base de conocimiento. Garbage in, garbage out es ley física.
Definir los handoffs explícitamente. El modelo no sabe cuándo debe callarse — tú se lo dices.
Integrar herramientas reales (calendario, CRM, pagos, inventario). El modelo no tiene poderes mágicos para conectarse solo.
Monitorear las 20 peores conversaciones cada semana. El bot mejora con corrección, no con plegarias.

GPT-5 acelera el techo, no construye el piso. El piso lo construyes con disciplina operativa.

Costo por conversación, con números reales

El terror típico al ver "GPT-5 cobra por token" se resuelve haciendo la cuenta. En Florería Suspiros, durante marzo de 2026:

4,180 conversaciones procesadas por el agente.
Tokens medianos por conversación: ~2,800 input + 480 output.
Costo de OpenAI a tarifa GPT-5 ($1.25 / 1M input, $10 / 1M output): ~$32 USD para todo el mes.

Comparado contra el costo de un agente humano de tiempo completo en Monterrey ($8,000-12,000 MXN/mes incluyendo prestaciones), no hay debate. Pero si diseñas mal el prompt (instrucciones de 8,000 tokens cuando bastan 1,500, o contextos que se acumulan sin compresión), puedes gastar 4-5x más fácilmente. He visto a gente quemar $400 USD/mes en una cuenta de 1,500 conversaciones por no comprimir contexto entre turnos.

Cuándo elegir cada uno

GPT-5: el default para casi todo

Mi default actual para nuevos proyectos. Tool calling fiable, razonamiento sobre reglas, español mexicano natural, ecosistema más maduro de integraciones. Lo uso en el 80% de las cuentas que abro hoy.

Claude 4.5 Sonnet: cuando importa el matiz emocional

En conversaciones de cobranza, soporte sensible, y casos donde el tono importa más que la velocidad de ejecución, Claude maneja matices mejor. Es más caro por token (~$3 / 1M input, $15 / 1M output) pero la diferencia de NPS post-conversación que he medido en cuentas de cobranza es notoria: 78% positivo con Claude vs 71% con GPT-5. Para 5,000 conversaciones de cobranza al mes, ese 7pp justifica el premium.

Gemini 3 Pro: cuando el volumen es altísimo y el caso es simple

Para flujos de alta fricción / bajo razonamiento (FAQs de soporte tier 1, calificación inicial de leads, recordatorios estructurados), Gemini 3 es 60% más barato que GPT-5 con calidad comparable. Lo uso en una cuenta de e-commerce que procesa 35,000 conversaciones mensuales — el ahorro vs GPT-5 es de ~$180 USD/mes sin pérdida medible de calidad.

Casos reales: lo que cada modelo hace mejor

Florería con flujo transaccional (GPT-5)

El agente toma pedidos del catálogo, valida zona contra Google Maps, cobra con Stripe Payment Links y dispara el webhook al sistema interno. Necesita orquestar 5-7 herramientas en una sola conversación; GPT-5 es el único modelo que lo hizo sin perderse en pruebas comparativas que corrí entre los tres.

Cobranza B2C (Claude 4.5)

Para una cuenta de cobranza, Claude responde con más empatía cuando el cliente explica que tiene un problema de liquidez. GPT-5 tiende a empujar al pago aún con tono frío; Claude pausa, ofrece alternativas, escala mejor. Esto es subjetivo y dependiente de prompt, pero replicable.

Inmobiliaria con calificación automática (Gemini 3)

Una inmobiliaria de la CDMX recibe 4,000 leads mensuales de portales. El agente solo califica (presupuesto, zona, tipo de propiedad) y pasa los calificados a un asesor. La tarea es estructurada, no necesita razonamiento profundo, y Gemini 3 lo hace al 38% del costo de GPT-5 sin diferencia en la tasa de calificación correcta.

La trampa de cambiar de modelo

Una vez tenías un prompt calibrado para GPT-4 y querías "subir" a GPT-5. Cuidado: los modelos no son drop-in replacements. Cada uno tiene sus quirks de seguir instrucciones. He visto migraciones donde la "tasa de resolución" cae 12 puntos porcentuales solo por copiar el prompt sin recalibrar.

Lo que hago siempre en una migración:

Defino 30 escenarios de prueba con respuesta esperada antes de migrar.
Corro ambos modelos en paralelo con el mismo prompt durante 1 semana.
Comparo divergencias línea por línea.
Ajusto el prompt al nuevo modelo (típicamente puedo simplificarlo en 20-30% en GPT-5).
Otra semana de paralelo con el prompt ya ajustado antes de cortar el viejo.

El siguiente salto: agentes que ejecutan, no solo responden

La conversación cómoda sobre "qué modelo es mejor" se vuelve irrelevante cuando entendés que el verdadero diferencial es lo que el agente hace, no lo que dice. Un buen agente de WhatsApp en 2026:

Crea citas en Google Calendar y manda invitaciones.
Genera cotizaciones reales en tu sistema y las adjunta al chat.
Manda payment links de Stripe o Mercado Pago y procesa el webhook de confirmación.
Crea órdenes en tu ERP o ecommerce.
Sube archivos del cliente a Drive o Notion automáticamente.
Actualiza el estado del lead en HubSpot o Pipedrive.

Esa es la diferencia entre un chatbot y un empleado digital. El modelo es la inteligencia, las herramientas son los brazos. Crea tu cuenta de Yolani y elige las herramientas que tu agente debe poder usar — el modelo lo asignamos por ti según el caso de uso, sin que tengas que tomar la decisión técnica de qué LLM contratar.