OpenAI 推出提示缓存功能,可以为模型近期已处理过的输入自动提供 50% 的折扣,并加快提示处理速度,这对于需要重复使用相同上下文的应用(如代码编辑、多轮对话)非常有用。
提示缓存功能已应用于 GPT-4o、GPT-4o mini、o1-preview、o1-mini 等模型的最新版本及其微调版本。
使用提示缓存的请求会在 API 响应的 `usage` 字段中包含 `cached_tokens` 值,用于指示缓存的 Token 数量。
缓存通常在 5-10 分钟的空闲时间后被清除,最晚会在最后一次使用后的一小时内被移除。
提示缓存遵循 OpenAI 的企业隐私承诺,不会在组织之间共享。