Amazon presentó Nova Sonic, su modelo de inteligencia artificial enfocado en voz, que destaca por ofrecer respuestas más naturales, rápidas y precisas que otras tecnologías similares como GPT-4o de OpenAI o las soluciones de Google. Este desarrollo marca un paso importante en la apuesta de Amazon por recuperar protagonismo en el competitivo mundo de la IA.
Un modelo unificado que entiende la conversación humana
A diferencia de los métodos tradicionales que usan múltiples modelos separados para tareas como transcripción, comprensión del lenguaje y síntesis de voz, Nova Sonic integra todo en una sola arquitectura. Esto le permite mantener el contexto acústico, detectar pausas naturales, adaptarse al tono del hablante y responder de forma más fluida y humana.
Los ingenieros de Amazon destacan que esta integración simplifica el desarrollo de asistentes conversacionales y aplicaciones de voz en sectores como salud, educación, entretenimiento, viajes o atención al cliente.
Alta precisión y velocidad en varios idiomas
Nova Sonic demostró una tasa de error de palabras (WER) del 4.2% en inglés, español, francés, italiano y alemán, superando en un 46.7% la precisión de GPT-4o en conversaciones complejas con múltiples interlocutores. También es más veloz: responde en solo 1.09 segundos, frente a los 1.18 de su competidor directo.
Disponible y accesible
La nueva IA de voz ya está disponible a través de Amazon Bedrock, la plataforma de servicios empresariales de IA, mediante una API de streaming bidireccional. Además de su rendimiento, Amazon afirma que Nova Sonic es la opción más rentable del mercado, con un costo hasta 80% menor que el de modelos equivalentes como GPT-4o.
Parte de una estrategia más amplia
Este lanzamiento forma parte de una estrategia más amplia de Amazon para posicionarse como líder en inteligencia artificial. La empresa también ha renovado su asistente Alexa+, ahora potenciado con IA para ofrecer respuestas contextuales, análisis más complejos y conversaciones más naturales.
Con Nova Sonic, Amazon no solo apuesta por la eficiencia técnica, sino también por una experiencia conversacional más cercana a la interacción humana real.