该 API 允许构建低延迟、多模态的对话体验,支持文本和音频作为输入和输出,以及函数调用。
提供了控制台演示应用,帮助快速了解 API 功能,但建议生产环境中不要使用该应用的前端模式。
通过 WebSocket 连接到 `wss://api.openai.com/v1/realtime`,需要指定模型、API 密钥等参数。
支持 24kHz 的 16 位 PCM 音频和 8kHz 的 G.711 音频。音频需要进行 Base64 编码。
可通过会话或每个响应设置指令,控制服务器响应的内容。
客户端可以设置默认函数或每个响应的函数,服务器根据需要进行函数调用。客户端需要响应函数调用,并可以使用 `response.create` 触发新的模型响应。
建议在指令中包含安全防护措施,并检查模型输出,以确保内容安全。
客户端可以通过 `conversation.item.create` 事件添加会话历史,但不能创建包含音频的助手消息。
实时 API 会话是短暂的,断开连接后会话信息不会保留。可以使用新的会话,并通过注入项目来模拟之前的对话。
提供了完整的客户端和服务器事件列表以及示例代码。