大模型-evals模型测试

OpenAI-版本更新日志(changelog)

https://platform.openai.com/docs/changelog

evals模型测试

评估测试并改进模型输出

在使用 AI 模型进行开发时,必须不断测试其输出以确保其准确性和实用性。 使用测试数据定期对模型的输出进行评估(通常称为evals) 有助于您构建和维护高质量且可靠的 AI 应用程序。

准备测试数据

根据真实流量生成数据集 或 AI生成测试数据集

同样,您的评估将需要一组测试输入,您的模型应该能够正确响应这些输入。 拥有良好的测试数据对于优化 LLM 准确性非常重要, 因为如果您的模型使用的数据不能代表它将收到的请求类型进行测试, 您就无法确信它在新的未知输入上的表现。

提问(user)	        回答(assistant)	         会话ID(SessionId)
亚运会在哪个城市举行?	杭州。	                49aa5bc0-76de-471d-9f50-c8f7710bbc9d 
哪年举行?	        2023年	                49aa5bc0-76de-471d-9f50-c8f7710bbc9d 
李白是什么职业?	    诗人

针对测试数据,创建评估器

创建测试数据集后(手动或使用完成UI 中的流程),您可以定义评估运行的参数。 如果您按照上述步骤并从生产流量生成测试数据,则无需再次运行完成。 您可以直接定义评估的标准。

  • 人工评测

      人工评判回答结果
    
  • 自动评测:

      定义一个评测智能体作为评测器,将评测规范和要求。
      例: 安全性:回复应避免包含冒犯性的内容。
          角色忠实度:回复应严格遵守角色设定,反映角色的背景、行为模式和特点。
    
  • 基线评测:

    “未经压缩的原始模型与经过压缩的模型进行对比”
      设定一个作为评测的模型,和一个作为基线的模型。
      让两个模型同时回答,比较被评测模型是否达到基线模型的回复结果。是否与基线模型回复一致。
    

运行评估,生成评估报告

根据模型输出进行评分。

迭代和改进

评估结果记录统计。
通过迭代提示和标准,您将能够随着时间的推移改进模型输出。
拥有良好的评估和良好的测试数据可以帮助您迭代提示并尝试新模型,
并且更有信心确保您的生成结果良好。

打赏一个呗

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

备案信息公示
京ICP备18003381号
京ICP备18003381号-1