OpenAI 发布了实时 API 的公开测试版,允许付费开发者在应用中构建低延迟的多模态体验,例如自然语音到语音的对话。
实时 API 使用 GPT-4o 模型,支持持续的 WebSocket 连接,并能处理语音中断,类似于 ChatGPT 的高级语音模式。
实时 API 支持语音输入和输出,开发者不再需要将多个模型拼接在一起。Chat Completions API 也将很快支持音频输入和输出。
实时 API 使用文本令牌和音频令牌计费:
实时 API 使用多层安全保护措施来降低 API 滥用的风险,包括自动监控和对标记的模型输入和输出进行人工审查。
OpenAI 计划在未来: