OpenAI 实时 API 文档要点总结

该 API 允许构建低延迟、多模态的对话体验，支持文本和音频作为输入和输出，以及函数调用。

低延迟

多模态

文本

音频

函数调用

提供了控制台演示应用，帮助快速了解 API 功能，但建议生产环境中不要使用该应用的前端模式。

控制台演示

通过 WebSocket 连接到 `wss://api.openai.com/v1/realtime`，需要指定模型、API 密钥等参数。

WebSocket

支持 24kHz 的 16 位 PCM 音频和 8kHz 的 G.711 音频。音频需要进行 Base64 编码。

24kHz PCM

8kHz G.711

Base64 编码

可通过会话或每个响应设置指令，控制服务器响应的内容。

客户端可以设置默认函数或每个响应的函数，服务器根据需要进行函数调用。客户端需要响应函数调用，并可以使用 `response.create` 触发新的模型响应。

建议在指令中包含安全防护措施，并检查模型输出，以确保内容安全。

客户端可以通过 `conversation.item.create` 事件添加会话历史，但不能创建包含音频的助手消息。

实时 API 会话是短暂的，断开连接后会话信息不会保留。可以使用新的会话，并通过注入项目来模拟之前的对话。

提供了完整的客户端和服务器事件列表以及示例代码。