OpenAI 实时 API 公开测试版要点总结

实时 API 公开测试

OpenAI 发布了实时 API 的公开测试版,允许付费开发者在应用中构建低延迟的多模态体验,例如自然语音到语音的对话。

实时 API 功能

实时 API 使用 GPT-4o 模型,支持持续的 WebSocket 连接,并能处理语音中断,类似于 ChatGPT 的高级语音模式。

GPT-4o 模型
WebSocket 连接

语音输入输出

实时 API 支持语音输入和输出,开发者不再需要将多个模型拼接在一起。Chat Completions API 也将很快支持音频输入和输出。

定价

实时 API 使用文本令牌和音频令牌计费:

  • 文本输入:每百万个 5 美元
  • 文本输出:每百万个 20 美元
  • 音频输入:每百万个 100 美元
  • 音频输出:每百万个 200 美元

安全与隐私

实时 API 使用多层安全保护措施来降低 API 滥用的风险,包括自动监控和对标记的模型输入和输出进行人工审查。

多层安全保护
自动监控

未来计划

OpenAI 计划在未来:

  • 引入更多模态(如视觉和视频)
  • 提高速率限制
  • 提供官方 SDK 支持
  • 添加提示缓存功能
  • 扩展模型支持(例如 GPT-4o mini)