微软发布 ASSERT 开源框架：让开发者更高效地评测 AI 智能体和应用行为

IT之家 6 月 3 日消息，微软今日宣布推出开源框架 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自适应规范驱动评分），旨在将自然语言写成的行为规范直接转换为可执行的评估流程。据介绍，ASSERT 能够从产品需求、政策文件或系统提示等文本出发，自动生成测试场景、数据集、评估指标和计分卡，并针对目标模型、应用或智能体运行测试。微软发布 ASSERT 开源框架：让开发者更高效地评测 AI 智能体和应用行为休闲区蓝鸢梦想 - Www.slyday.coM 该框架建立在这样一个前提之上：行为规范本身应当成为评估的核心输入，而非仅仅作为背景参考。ASSERT 将这一过程系统化为四个阶段：微软发布 ASSERT 开源框架：让开发者更高效地评测 AI 智能体和应用行为休闲区蓝鸢梦想 - Www.slyday.coM 为了验证 ASSERT 的有效性，微软团队开展了两项覆盖率研究和人工评审对比。第一项覆盖率研究显示，相比直接从意图生成的评估集，ASSERT 在多项行为（IT之家注：如社会评分、拍马屁行为、任务遵循、工具使用规范、不安全健康建议）上生成的测试集覆盖更广，暴露出更多值得检查的案例，区分强弱系统的能力更强，同时显现出更多独特的失败模式。第二项验证通过对比 LLM 判定器与人工审核，显示两者一致率通常在 80%–90%，而人工标注者之间一致率约为 90%，表明 LLM 判定器能够捕捉大部分目标信号，但在策略细微差别或高度专业领域仍需谨慎。微软发布 ASSERT 开源框架：让开发者更高效地评测 AI 智能体和应用行为休闲区蓝鸢梦想 - Www.slyday.coM 微软指出，ASSERT 最适用于行为定义明确、约束清晰的场景。丰富的工具、政策和边界描述有助于生成更精确的测试用例。开发者不应将汇总评分视为最终结论，更多情况下，收集的失败案例和操作轨迹对改进系统和评估方法更有价值。ASSERT 并不能替代人工判断、遥测数据或领域专家评审，而应将其作为使评估更快速、更明确和更易于迭代的一种方式。参考资料：微软 Build 2026 开发者大会专题
广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，蓝鸢梦想所有文章均包含本声明。

相关文章

郭明錤：黄仁勋高喊“重新发明 PC”口号凝聚市场共识，英伟达 RTX Spark 勾勒端侧 AI 智能体蓝图

微软发布 Web IQ：专为 AI 智能体打造的搜索 API，减少 Token 消耗并提升响应速度

相关文章

郭明錤：黄仁勋高喊“重新发明 PC”口号凝聚市场共识，英伟达 RTX Spark 勾勒端侧 AI 智能体蓝图

微软发布 Web IQ：专为 AI 智能体打造的搜索 API，减少 Token 消耗并提升响应速度

相关推荐

微信扫一扫