La interacción por voz con inteligencia artificial ha alcanzado un nuevo nivel. Las principales compañías tecnológicas están apostando por asistentes conversacionales que responden con fluidez, sin latencia y con entonación natural, marcando el inicio de una nueva generación de experiencias de voz.
Entre las soluciones más destacadas se encuentran:
Plataforma | Tipo | Características principales |
---|---|---|
OpenAI API RT | Comercial | Voz y respuesta en tiempo real. Latencia mínima. GPT-4 Turbo. |
Google Project Astra | Comercial (preview) | Interacción multimodal (voz, visión). En tiempo real. |
Nvidia Riva | On-premise | STT + TTS + NLP acelerado por GPU. Tiempo real para empresas. |
Meta Voicebox | Experimental | TTS multitarea. Generación de voz con estilo y emoción. |
Coqui.ai | Open source | TTS y STT en tiempo real. Entrenamiento personalizado posible. |
Desde Faktoria estamos explorando este ecosistema de soluciones, analizando tanto tecnologías comerciales como open source, para ofrecer siempre herramientas que aporten valor real, flexibilidad y eficiencia a nuestros clientes.
Nuestra primera prueba con OpenAI RT ya está en marcha
Como parte de nuestra estrategia de innovación, hemos integrado la nueva API Real-Time de OpenAI dentro del ecosistema Faktoria. El objetivo: validar su comportamiento en condiciones reales, en un flujo completo de atención telefónica automatizada.
Ya estamos trabajando con esta tecnología en proyectos piloto reales, y pronto podremos compartir un caso de uso completo en producción con todos vosotr@s.
Escucha el ejemplo real
A continuación, puedes escuchar la conversación generada por IA en tiempo real durante nuestras pruebas:
Duración: 2 minutos y 47 segundos
Escenario: atención a un cliente para la gestión de un pedido de gasóleo
Análisis técnico: coste estimado de la interacción
Durante la prueba, simulamos una conversación de atención al cliente de 2 minutos y 47 segundos, generada en tiempo real mediante:
- Reconocimiento de voz (ASR) con Whisper
- Procesamiento de texto con GPT-4 Turbo
- Síntesis de voz (TTS) con tts-1-telephony
Componente | Cálculo técnico | Coste estimado |
---|---|---|
ASR (Whisper) | 2,78 min × 0,006 USD/min | 0,017 USD |
GPT-4 Turbo | ~2.000 tokens ida/vuelta | 0,060 USD |
TTS (respuesta de voz) | 2,78 min × 0,015 USD/min | 0,042 USD |
Total aproximado | 0,12 USD |
Una conversación multivuelta, fluida y completamente automatizada por 12 céntimos de dólar.
Análisis conversacional: naturalidad y adaptabilidad
Durante la interacción, el sistema fue capaz de:
- Reconocer correctamente datos como el DNI o el número de teléfono.
- Corregir errores en tiempo real y validar información del usuario.
- Adaptarse al contexto: ajustar un pedido según condiciones económicas.
- Mantener una conversación fluida, sin pausas ni interrupciones artificiales.
- Confirmar datos finales y cerrar el ciclo de atención con tono cercano.
Todo esto, sin estructura rígida de menús ni guiones predefinidos.
Aplicabilidad real y próximos pasos
Este tipo de soluciones abre la puerta a usos reales en:
- Automatización de llamadas entrantes fuera de horario.
- Atención a picos de demanda o campañas específicas.
- Derivación inteligente entre IA y agentes humanos.
- Mejora de accesibilidad y ampliación de cobertura en múltiples canales.
Desde Faktoria ya hemos iniciado su integración en entornos reales y próximamente compartiremos un caso de uso completo en producción.
IA conversacional al servicio de las personas
En Faktoria e Irontec, creemos que la inteligencia artificial debe estar al servicio de las personas. No sustituimos personas: acompañamos su trabajo, liberando tiempo de tareas repetitivas y mejorando la experiencia del usuario en cada interacción.
La nueva API Real-Time de OpenAI representa una tecnología con gran potencial, y en Faktoria ya la estamos aprovechando para transformar, una vez más, la forma en la que las empresas se comunican.