OpenAI Prompt Caching 功能要点总结

什么是 Prompt Caching？

OpenAI 的一种自动缓存机制，用于存储 API 请求中重复的提示内容（例如系统提示和通用指令），从而加速后续请求并降低成本。

自动缓存

加速请求

降低成本

如何工作？

缓存查找：系统检查请求提示的前缀是否已存在于缓存中。
缓存命中：如果找到匹配的前缀，则使用缓存结果，显著降低延迟和成本。
缓存未命中：如果未找到匹配的前缀，则处理完整提示，并将提示的前缀缓存起来供将来使用。

缓存持续时间

缓存的前缀通常在 5 到 10 分钟的空闲时间后失效，但在非高峰时段可能会持续长达一小时。

5-10 分钟

最长 1 小时

缓存条件和可缓存内容

最佳实践

将静态或重复内容放在提示开头，动态内容放在结尾
监控缓存命中率、延迟和缓存 token 百分比等指标，优化提示和缓存策略
使用较长的提示并在非高峰时段发送请求，以提高缓存命中率
保持对相同提示前缀的持续请求，以最大程度减少缓存失效

数据隐私

缓存不会在不同组织之间共享，仅同一组织成员可以访问相同的缓存。

组织隔离

对输出的影响

缓存不会影响输出 token 生成或 API 的最终响应。

其他问题

目前无法手动清除缓存
使用缓存功能无需额外付费
缓存不会影响 TPM 速率限制
Batch API 不支持缓存折扣，Scale Tier 支持
缓存功能兼容 Zero Data Retention 策略