蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval_科技魔方-中文AI大模型门户网站

: 蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval; 大模型

2023年11月02日

点赞; 　　蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。

　　该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题，共计4850道题目。

　　此外，还针对 AIOps 任务做了细分，并添加了日志解析、时序异常检测、时序分类和根因分析等任务。

　　目前，DevOps-Eval已发布了第一期的评测榜单，评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot，评测结果显示各模型得分相差不大。

　　未来，DevOps-Eval 将持续优化，丰富评测数据集，重点关注 AIOps 领域，并增加更多的评测模型。

+1; 蚂蚁集团; 来源：站长之家