OpenAI API 提示缓存功能要点总结

OpenAI 推出提示缓存功能，可以为模型近期已处理过的输入自动提供 50% 的折扣，并加快提示处理速度，这对于需要重复使用相同上下文的应用（如代码编辑、多轮对话）非常有用。

50% 折扣

加快处理速度

提示缓存功能已应用于 GPT-4o、GPT-4o mini、o1-preview、o1-mini 等模型的最新版本及其微调版本。

自动缓存

无需更改集成

使用提示缓存的请求会在 API 响应的 `usage` 字段中包含 `cached_tokens` 值，用于指示缓存的 Token 数量。

cached_tokens

缓存通常在 5-10 分钟的空闲时间后被清除，最晚会在最后一次使用后的一小时内被移除。

5-10 分钟空闲

最长 1 小时

提示缓存遵循 OpenAI 的企业隐私承诺，不会在组织之间共享。

企业隐私承诺

不共享组织数据