OpenAI Prompt Caching 功能要点总结

什么是 Prompt Caching?

OpenAI 的一种自动缓存机制,用于存储 API 请求中重复的提示内容(例如系统提示和通用指令),从而加速后续请求并降低成本。

自动缓存
加速请求
降低成本

如何工作?

  1. 缓存查找:系统检查请求提示的前缀是否已存在于缓存中。
  2. 缓存命中:如果找到匹配的前缀,则使用缓存结果,显著降低延迟和成本。
  3. 缓存未命中:如果未找到匹配的前缀,则处理完整提示,并将提示的前缀缓存起来供将来使用。

缓存持续时间

缓存的前缀通常在 5 到 10 分钟的空闲时间后失效,但在非高峰时段可能会持续长达一小时。

5-10 分钟
最长 1 小时

缓存条件和可缓存内容

最佳实践

  • 将静态或重复内容放在提示开头,动态内容放在结尾
  • 监控缓存命中率、延迟和缓存 token 百分比等指标,优化提示和缓存策略
  • 使用较长的提示并在非高峰时段发送请求,以提高缓存命中率
  • 保持对相同提示前缀的持续请求,以最大程度减少缓存失效

数据隐私

缓存不会在不同组织之间共享,仅同一组织成员可以访问相同的缓存。

组织隔离

对输出的影响

缓存不会影响输出 token 生成或 API 的最终响应。

其他问题

  • 目前无法手动清除缓存
  • 使用缓存功能无需额外付费
  • 缓存不会影响 TPM 速率限制
  • Batch API 不支持缓存折扣,Scale Tier 支持
  • 缓存功能兼容 Zero Data Retention 策略