O

gpt-realtime-1.5

Input:$3.2/M
Output:$12.8/M
Context:32,000
Max Output:4,096
Le meilleur modèle vocal pour audio en entrée, audio en sortie.
New
Commercial Use

Spécifications techniques de gpt-realtime-1.5

Élémentgpt-realtime-1.5 (positionnement public)
Famille de modèlesGPT Realtime 1.5 (variante optimisée pour la voix)
Modalité principaleParole à parole (S2S)
Types d’entréeAudio (diffusion en continu), texte
Types de sortieAudio (diffusion en continu), texte, appels de fonctions structurés
APIAPI Realtime (WebRTC / sessions persistantes de diffusion en continu)
Profil de latenceOptimisé pour une faible latence et des interactions conversationnelles en direct
Modèle de sessionSessions de diffusion en continu avec état
Utilisation d’outilsAppels de fonctions et intégrations d’outils pris en charge
Cas d’usage cibleAgents vocaux en direct, assistants, systèmes interactifs

Remarque : Les limites exactes de jetons et les tailles de fenêtres de contexte ne sont pas largement documentées dans les résumés publics ; le modèle est positionné pour la réactivité en temps réel plutôt que pour des sessions au contexte extrêmement long.


Qu’est-ce que gpt-realtime-1.5 ?

gpt-realtime-1.5 est un modèle à faible latence, optimisé pour la parole à parole, conçu pour les systèmes conversationnels en direct. Contrairement aux modèles traditionnels de type requête-réponse, il fonctionne au moyen de sessions de diffusion en continu persistantes, permettant une alternance de parole naturelle, la gestion des interruptions et une interaction vocale dynamique.

Il est conçu spécifiquement pour les applications où la vitesse du flux conversationnel compte davantage que la longueur maximale du contexte.


Fonctionnalités principales

  1. Véritable interaction de parole à parole — Accepte des entrées audio en direct et diffuse des réponses vocales en temps réel.
  2. Architecture à faible latence — Conçue pour une réactivité conversationnelle sous la seconde dans les agents vocaux.
  3. Conception axée sur le streaming — Fonctionne via des sessions persistantes (WebRTC ou protocoles de diffusion).
  4. Prise de parole naturelle — Prend en charge la gestion des interruptions et un flux de conversation dynamique.
  5. Prise en charge des appels de fonctions — Peut déclencher des appels de fonctions structurés durant une session en temps réel.
  6. Base prête pour la production pour agents vocaux — Conçu spécifiquement pour des assistants interactifs, kiosques et appareils embarqués.

Benchmarks et positionnement des performances

OpenAI positionne gpt-realtime-1.5 comme une évolution des modèles temps réel antérieurs, avec une meilleure exécution des consignes, une stabilité accrue lors de sessions vocales prolongées et une prosodie plus naturelle par rapport aux versions précédentes.

Contrairement aux modèles axés sur le code (par ex., variantes Codex), la performance se mesure davantage par la latence conversationnelle, le naturel de la voix et la stabilité des sessions que par des benchmarks de type classement.


gpt-realtime-1.5 par rapport aux modèles associés

Caractéristiquegpt-realtime-1.5gpt-audio-1.5
Objectif principalInteraction vocale en directFlux conversationnels avec prise en charge de l’audio
LatenceOptimisé pour un délai minimalÉquilibre qualité/vitesse
Type de sessionSession de diffusion persistanteFlux Chat Completions standard
Taille du contexteOptimisé pour la réactivitéPrise en charge d’un contexte plus large
Meilleur cas d’usageAgents vocaux en temps réelAssistants conversationnels avec audio

Quand choisir chaque modèle

  • Choisissez gpt-realtime-1.5 pour les centres d’appels, kiosques, réceptionnistes IA ou assistants embarqués en direct.
  • Choisissez gpt-audio-1.5 pour des applications de chat vocal nécessitant une mémoire de conversation plus longue ou des workflows multimodaux.

Cas d’usage représentatifs

  • Agents de centres d’appels IA
  • Assistants pour appareils intelligents
  • Kiosques interactifs
  • Systèmes de tutorat en direct
  • Outils de pratique linguistique en temps réel
  • Applications contrôlées par la voix
  • Comment accéder à l’API GPT realtime 1.5

Étape 1 : Inscrivez-vous pour obtenir une clé API

Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre CometAPI console. Récupérez la clé API d’accès de l’interface. Cliquez sur “Add Token” dans la section API token du centre personnel, obtenez la clé de jeton : sk-xxxxx et validez.

cometapi-key

Étape 2 : Envoyez des requêtes à l’API GPT realtime 1.5

Sélectionnez le point de terminaison “gpt-realtime-1.5” pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont obtenus à partir de la documentation API de notre site Web. Notre site propose également des tests Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle issue de votre compte. L’URL de base est Chat Completions

Insérez votre question ou votre demande dans le champ content — c’est ce à quoi le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérez et vérifiez les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API renvoie l’état de la tâche et les données de sortie.

FAQ

More Models