OpenAI a dévoilé sa nouvelle génération de traitement audio, introduisant la norme GPT-5 pour le traitement audio via l’API Realtime. La nouvelle version, GPT-Realtime-2, est conçue pour aller au-delà du système d’appel et de réponse, permettant aux agents d’IA de réfléchir de manière critique, de gérer les distractions et d’effectuer des tâches complexes tout en maintenant un flux naturel.
Parallèlement au modèle original, la société a lancé GPT-Realtime-Translate et GPT-Realtime-Whisper. Ces outils permettent une traduction cohérente dans plus de 70 langues avec traduction instantanée. Cette version marque l’évolution des systèmes « voix-action », dans lesquels l’IA peut effectuer des tâches en temps réel, telles que planifier une visite ou réacheminer un vol, via des conversations. WhatsApp lance « Business AI » en Inde pour aider les PME à améliorer leur service client et leurs prospects ; Vérifiez ce qu’il contient et comment l’activer.
Discussion avancée avec GPT-Realtime-2
Le thème est GPT-Realtime-2, qui apporte le plus haut niveau d’intelligence à l’interface utilisateur. Les développeurs peuvent désormais ajuster les niveaux de « conversation » de faible à « xélevé », permettant à l’IA de faire correspondre la vitesse de questions simples avec une approche plus délibérée de la résolution de problèmes. Les tests internes montrent une amélioration de 15,2 % de l’intelligence vocale par rapport aux modèles précédents.
Pour rendre l’interaction humaine, le modèle inclut des « bases » telles que « laissez-moi regarder » lors du traitement des données. Il prend également en charge l’appel d’appareils parallèles, ce qui signifie qu’il peut consulter le calendrier et la carte en même temps et en informer l’utilisateur. Le contrôle de la tonalité permet à l’assistant d’ajuster sa prestation en fonction de ses préférences d’écoute.
Briser les barrières grâce à la traduction en temps réel
La nouvelle méthode GPT-Realtime-Translate vise à surmonter les barrières de la communication internationale. Il prend en charge plus de 70 langues et 13 langues de sortie, la traduction vocale et la navigation avec un haut-parleur. Des entreprises comme Deutsche Telekom explorent déjà la technologie pour fournir sans délai un service client dans la langue de leur choix.
Ceci est pris en charge par GPT-Realtime-Whisper, un moteur de conversion de texte en parole. Contrairement aux fonctions de saisie qui attendent la fin d’une phrase, ce modèle tape les mots au fur et à mesure qu’ils sont prononcés. Cela permet la production de transcriptions et de notes de conférence, rendant les réunions numériques plus accessibles et productives.
La voix comme interface prête pour la production
OpenAI positionne ces modèles comme des outils prêts à l’emploi pour des applications industrielles allant du logement au transport. Zillow utilise une API pour créer des agents capables de réfléchir aux options immobilières et au moment de choisir. De même, Priceline développe des systèmes permettant aux voyageurs de gérer leurs réservations d’hôtel et de suivre vocalement les retards de vol.
Pour répondre à ces défis « agents », la fenêtre de jetons a été étendue de 32 000 à 128 000 jetons. Cela permet à l’IA de mémoriser de longues conversations et de rester connectée sur plusieurs tâches. Ces exemples démontrent également la résilience de directives strictes et le respect des mesures de sécurité de l’entreprise.
(L’article ci-dessus a été publié pour la première fois sur Latestly le 7 mai 2026 à 23 h 27 IST. Pour plus d’informations et de mises à jour sur la politique, le monde, les sports, le divertissement et le style de vie, visitez notre site Web Latestly.com).