OpenAI API 提示缓存功能要点总结

自动折扣和加速提示处理

OpenAI 推出提示缓存功能,可以为模型近期已处理过的输入自动提供 50% 的折扣,并加快提示处理速度,这对于需要重复使用相同上下文的应用(如代码编辑、多轮对话)非常有用。

50% 折扣
加快处理速度

适用模型和定价

提示缓存功能已应用于 GPT-4o、GPT-4o mini、o1-preview、o1-mini 等模型的最新版本及其微调版本。

缓存机制

  • 当提示长度超过 1024 个 Token 时,API 会自动使用提示缓存。
  • 缓存会存储提示的最长前缀,并以 128 个 Token 为增量逐步增加。
  • 开发者无需更改 API 集成即可享受折扣。
自动缓存
无需更改集成

API 响应中的缓存信息

使用提示缓存的请求会在 API 响应的 `usage` 字段中包含 `cached_tokens` 值,用于指示缓存的 Token 数量。

cached_tokens

缓存清理

缓存通常在 5-10 分钟的空闲时间后被清除,最晚会在最后一次使用后的一小时内被移除。

5-10 分钟空闲
最长 1 小时

隐私和安全性

提示缓存遵循 OpenAI 的企业隐私承诺,不会在组织之间共享。

企业隐私承诺
不共享组织数据