OpenAI 实时 API 公开测试版要点总结

OpenAI 发布了实时 API 的公开测试版，允许付费开发者在应用中构建低延迟的多模态体验，例如自然语音到语音的对话。

实时 API 使用 GPT-4o 模型，支持持续的 WebSocket 连接，并能处理语音中断，类似于 ChatGPT 的高级语音模式。

GPT-4o 模型

WebSocket 连接

实时 API 支持语音输入和输出，开发者不再需要将多个模型拼接在一起。Chat Completions API 也将很快支持音频输入和输出。

实时 API 使用文本令牌和音频令牌计费：

实时 API 使用多层安全保护措施来降低 API 滥用的风险，包括自动监控和对标记的模型输入和输出进行人工审查。

多层安全保护

自动监控

OpenAI 计划在未来：