OpenAI 视觉微调 API 要点总结

OpenAI 宣布 GPT-4o 模型现已支持视觉微调，开发者可以使用图像和文本数据对模型进行微调，增强其视觉理解能力。

GPT-4o 模型

视觉微调

视觉微调可用于提升多种应用的性能，例如：

视觉微调的流程与文本微调类似，开发者只需准备符合格式的图像数据集并上传到平台即可。少量数据（至少100张图像）即可提升模型性能，更多数据则可获得更优异的结果。

简化流程

少量数据即可

利用视觉微调提升地图数据准确性，提高车道计数和限速标志识别准确率。

OpenAI 对微调模型进行持续的安全评估和使用监控，并遵守企业隐私承诺。开发者拥有其业务数据的完全所有权，OpenAI 不会在未经许可的情况下使用该服务中的输入或输出数据训练模型。

安全评估

隐私保护

视觉微调功能现已面向所有付费用户开放，支持最新的 GPT-4o 模型快照 'gpt-4o-2024-08-06'。

2024年10月31日前，每天可免费使用100万训练令牌进行图像微调。
2024年10月31日后：
- GPT-4o 微调训练费用：每100万令牌25美元
- 推理费用：每100万输入令牌3.75美元，每100万输出令牌15美元
- 图像输入会根据图像大小进行标记，并按与文本输入相同的每令牌价格计费