科学家发现多数大语言模型测试标准存在缺陷,无法客观给出评分
牛津大学等机构研究发现,多数大语言模型测试标准存在方法论缺陷,如术语模糊、数据采样不当等,导致AI进步难以客观衡量。研究建议明确定义目标、防止数据污染等改进措施。#AI测试标准##大语言模型#
牛津大学等机构研究发现,多数大语言模型测试标准存在方法论缺陷,如术语模糊、数据采样不当等,导致AI进步难以客观衡量。研究建议明确定义目标、防止数据污染等改进措施。#AI测试标准##大语言模型#
Meta 今晚发布 Llama 3.1 开源大语言模型,提供 8B、70B 及 405B 参数版本,改进了推理能力及多语言支持,上下文长度提升至 128K。