Acerca de
Biografía
Soy Juan Manuel Infante Quiroga, desarrollador de IA con foco en Generative AI, NLP y AIOps, con base en Bogotá, Colombia. Construyo sistemas de IA en producción para la capa que la mayoría de los tutoriales no llegan a cubrir. En Finanzauto, arquitecté una plataforma RAG que procesa cientos de miles de conversaciones diarias en WhatsApp — más de 1,000 usuarios simultáneos, cobranza automatizada, atención al cliente en tiempo real.
Next Token es la capa de documentación de ese trabajo — las decisiones de orquestación, los tradeoffs de infraestructura y los modos de fallo que no aparecen en los posts de prompt engineering. Artículos extensos cuando una idea merece la profundidad, notas de campo cuando no, notebooks renderizados cuando el código es el punto.
Qué Construyo
El trabajo gira en torno a cuatro problemas que producción convierte en difíciles de forma consistente.
Los pipelines RAG son el primero. El retrieval parece mecánico hasta que estás ensamblando contexto a escala — decidiendo qué entra en el window, en qué orden, mientras mantenés la latencia aceptable con cientos de requests simultáneos.
La orquestación es el segundo. Workflows en LangGraph, callbots integrados con Twilio, pipelines de Airflow que deben sobrevivir reinicios: la orquestación es donde la corrección se vuelve cara. El problema no es conectar las piezas — es mantenerlas coherentes cuando una falla.
NLP y los agentes multimodales son el tercero. Combinar reconocimiento de voz con razonamiento LLM introduce restricciones de latencia que los sistemas de solo texto nunca enfrentan. Las decisiones en esa capa — cómo buffear, cómo recuperarse de un error de reconocimiento a mitad de conversación — no aparecen en ningún tutorial de chatbot.
AIOps es el cuarto. Saber si un sistema que procesó 300,000 mensajes la semana pasada va a procesar los de la próxima es el problema que hace honesto a cualquier deployment en producción. Frameworks de evaluación, pipelines de observabilidad y la disciplina de CI/CD que convierte un modelo que funciona en un servicio confiable.