La interacción por voz con inteligencia artificial ha alcanzado un nuevo nivel. Las principales compañías tecnológicas están apostando por asistentes conversacionales que responden con fluidez, sin latencia y con entonación natural, marcando el inicio de una nueva generación de experiencias de voz.
Entre las soluciones más destacadas se encuentran:
| Plataforma | Tipo | Características principales | 
|---|---|---|
| OpenAI API RT | Comercial | Voz y respuesta en tiempo real. Latencia mínima. GPT-4 Turbo. | 
| Google Project Astra | Comercial (preview) | Interacción multimodal (voz, visión). En tiempo real. | 
| Nvidia Riva | On-premise | STT + TTS + NLP acelerado por GPU. Tiempo real para empresas. | 
| Meta Voicebox | Experimental | TTS multitarea. Generación de voz con estilo y emoción. | 
| Coqui.ai | Open source | TTS y STT en tiempo real. Entrenamiento personalizado posible. | 
Desde Faktoria estamos explorando este ecosistema de soluciones, analizando tanto tecnologías comerciales como open source, para ofrecer siempre herramientas que aporten valor real, flexibilidad y eficiencia a nuestros clientes.

Nuestra primera prueba con OpenAI RT ya está en marcha
Como parte de nuestra estrategia de innovación, hemos integrado la nueva API Real-Time de OpenAI dentro del ecosistema Faktoria. El objetivo: validar su comportamiento en condiciones reales, en un flujo completo de atención telefónica automatizada.
Ya estamos trabajando con esta tecnología en proyectos piloto reales, y pronto podremos compartir un caso de uso completo en producción con todos vosotr@s.
Escucha el ejemplo real
A continuación, puedes escuchar la conversación generada por IA en tiempo real durante nuestras pruebas:
Duración: 2 minutos y 47 segundos
Escenario: atención a un cliente para la gestión de un pedido de gasóleo
Análisis técnico: coste estimado de la interacción
Durante la prueba, simulamos una conversación de atención al cliente de 2 minutos y 47 segundos, generada en tiempo real mediante:
- Reconocimiento de voz (ASR) con Whisper
 - Procesamiento de texto con GPT-4 Turbo
 - Síntesis de voz (TTS) con tts-1-telephony
 
| Componente | Cálculo técnico | Coste estimado | 
|---|---|---|
| ASR (Whisper) | 2,78 min × 0,006 USD/min | 0,017 USD | 
| GPT-4 Turbo | ~2.000 tokens ida/vuelta | 0,060 USD | 
| TTS (respuesta de voz) | 2,78 min × 0,015 USD/min | 0,042 USD | 
| Total aproximado | 0,12 USD | 
Una conversación multivuelta, fluida y completamente automatizada por 12 céntimos de dólar.
Análisis conversacional: naturalidad y adaptabilidad
Durante la interacción, el sistema fue capaz de:
- Reconocer correctamente datos como el DNI o el número de teléfono.
 - Corregir errores en tiempo real y validar información del usuario.
 - Adaptarse al contexto: ajustar un pedido según condiciones económicas.
 - Mantener una conversación fluida, sin pausas ni interrupciones artificiales.
 - Confirmar datos finales y cerrar el ciclo de atención con tono cercano.
 
Todo esto, sin estructura rígida de menús ni guiones predefinidos.
Aplicabilidad real y próximos pasos
Este tipo de soluciones abre la puerta a usos reales en:
- Automatización de llamadas entrantes fuera de horario.
 - Atención a picos de demanda o campañas específicas.
 - Derivación inteligente entre IA y agentes humanos.
 - Mejora de accesibilidad y ampliación de cobertura en múltiples canales.
 
Desde Faktoria ya hemos iniciado su integración en entornos reales y próximamente compartiremos un caso de uso completo en producción.
IA conversacional al servicio de las personas
En Faktoria e Irontec, creemos que la inteligencia artificial debe estar al servicio de las personas. No sustituimos personas: acompañamos su trabajo, liberando tiempo de tareas repetitivas y mejorando la experiencia del usuario en cada interacción.
La nueva API Real-Time de OpenAI representa una tecnología con gran potencial, y en Faktoria ya la estamos aprovechando para transformar, una vez más, la forma en la que las empresas se comunican.





