OpenAI 视觉微调 API 要点总结

视觉微调功能上线

OpenAI 宣布 GPT-4o 模型现已支持视觉微调,开发者可以使用图像和文本数据对模型进行微调,增强其视觉理解能力。

GPT-4o 模型
视觉微调

应用场景广泛

视觉微调可用于提升多种应用的性能,例如:

  • 增强视觉搜索
  • 改进自动驾驶和智慧城市中的物体检测
  • 提高医学图像分析的准确性

微调流程简化

视觉微调的流程与文本微调类似,开发者只需准备符合格式的图像数据集并上传到平台即可。少量数据(至少100张图像)即可提升模型性能,更多数据则可获得更优异的结果。

简化流程
少量数据即可

合作伙伴案例展示

利用视觉微调提升地图数据准确性,提高车道计数和限速标志识别准确率。

安全与隐私保障

OpenAI 对微调模型进行持续的安全评估和使用监控,并遵守企业隐私承诺。开发者拥有其业务数据的完全所有权,OpenAI 不会在未经许可的情况下使用该服务中的输入或输出数据训练模型。

安全评估
隐私保护

可用性和定价

视觉微调功能现已面向所有付费用户开放,支持最新的 GPT-4o 模型快照 'gpt-4o-2024-08-06'。

  • 2024年10月31日前,每天可免费使用100万训练令牌进行图像微调。
  • 2024年10月31日后:
    • GPT-4o 微调训练费用:每100万令牌25美元
    • 推理费用:每100万输入令牌3.75美元,每100万输出令牌15美元
    • 图像输入会根据图像大小进行标记,并按与文本输入相同的每令牌价格计费