中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低

00 后国人一作登上 Nature,这篇大模型论文引起热议。简单来说,论文发现:更大且更遵循指令的大模型也变得更不可靠了,某些情况下 GPT-4 在回答可靠性上还不如 GPT-3。结论一出,立即引来 20 多万网友围观:中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM在 Reddit 论坛也引发围观议论。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM这让人不禁想起,一大堆专家 / 博士级别的模型还不会“9.9 和 9.11”哪个大这样的简单问题。关于这个现象,论文提到这也反映出,模型的表现与人类对难度的预期不符。换句话说,“LLMs 在用户预料不到的地方既成功又(更危险地)失败”。Ilya Sutskever2022 年曾预测:然而这篇论文发现情况并非如此。不止 GPT,LLaMA 和 BLOOM 系列,甚至 OpenAI 新的 o1 模型和 Claude-3.5-Sonnet 也在可靠性方面令人担忧。更重要的是,论文还发现依靠人类监督来纠正错误的做法也不管用。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM有网友认为,虽然较大的模型可能会带来可靠性问题,但它们也提供了前所未有的功能。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM还有人认为,这项研究凸显了人工智能所面临的微妙挑战(平衡模型扩展与可靠性)。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM为了说明结论,论文研究了从人类角度影响 LLMs 可靠性的三个关键方面:1、难度不一致:LLMs 是否在人类预期它们会失败的地方失败?2、任务回避:LLMs 是否避免回答超出其能力范围的问题?3、对提示语表述的敏感性:问题表述的有效性是否受到问题难度的影响?更重要的是,作者也分析了历史趋势以及这三个方面如何随着任务难度而演变。下面一一展开。对于第 1 个问题,论文主要关注正确性相对于难度的演变。从 GPT 和 LLaMA 的演进来看,随着难度的增加,所有模型的正确性都会明显下降。(与人类预期一致)然而,这些模型仍然无法解决许多非常简单的任务。这意味着,人类用户无法发现 LLMs 的安全操作空间,利用其确保模型的部署表现可以完美无瑕。令人惊讶的是,新的 LLMs 主要提高了高难度任务上的性能,而对于更简单任务没有明显的改进。比如,GPT-4 与前身 GPT-3.5-turbo 相比。以上证明了人类难度预期与模型表现存在不一致的现象,并且此不一致性在新的模型上加剧了。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM这也意味着:中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM其次,关于第 2 点论文发现(回避通常指模型偏离问题回答,或者直接挑明“我不知道”):中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM一般来说,人类面对越难的任务,越有可能含糊其辞。但 LLMs 的实际表现却截然不同,研究显示,它们的规避行为与困难度并无明显关联。这容易导致用户最初过度依赖 LLMs 来完成他们不擅长的任务,但让他们从长远来看感到失望。后果就是,人类还需要验证模型输出的准确性,以及发现错误。(想用 LLMs 偷懒大打折扣)中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM最后论文发现,即使一些可靠性指标有所改善,模型仍然对同一问题的微小表述变化敏感。举个栗子,问“你能回答…… 吗?”而不是“请回答以下问题……”会导致不同程度的准确性。分析发现:仅仅依靠现存的 scaling-up 和 shaping-up 不太可能完全解决指示敏感度的问题,因为最新模型和它们的前身相比优化并不显著。而且即使选择平均表现上最佳的表述格式,其也可能主要对高难度任务有效,但同时对低难度任务无效(错误率更高)。这表明,人类仍然受制于提示工程。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM更可怕的是,论文发现,人类监督无法缓解模型的不可靠性。论文根据人类调查来分析,人类对难度的感知是否与实际表现一致,以及人类是否能够准确评估模型的输出。结果显示,在用户认为困难的操作区域中,他们经常将错误的输出视为正确;即使对于简单的任务,也不存在同时具有低模型误差和低监督误差的安全操作区域。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM以上不可靠性问题在多个 LLMs 系列中存在,包括 GPT、LLaMA 和 BLOOM,研究列出来的有 32 个模型。这些模型表现出不同的 Scaling-up(增加计算、模型大小和数据)以及 shaping-up(例如指令 FT、RLHF)。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM除了上面这些,作者们后来还发现一些最新、最强的模型也存在本文提到的不可靠性问题:并有一篇文档分别举出了例子(具体可查阅原文档):中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM此外,为了验证其他模型是否存在可靠性问题,作者将论文用到的测试基准 ReliabilityBench 也开源了。这是一个包含五个领域的数据集,有简单算术(“加法”)、词汇重组(“字谜”)、地理知识(“位置”)、基础和高级科学问题(“科学”)以及以信息为中心的转换(“转换”)。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM论文一作 Lexin Zhou(周乐鑫),目前刚从剑桥大学 CS 硕士毕业(24 岁),研究兴趣为大语言模型评测。在此之前,他在瓦伦西亚理工大学获得了数据科学学士学位,指导老师是 Jose Hernandez-Orallo 教授。中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM个人主页显示,他曾有多段工作实习经历。在 OpenAI 和 Meta 都参与了红队测试。(Red Teaming Consultancy )中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM关于这篇论文,他重点谈到:中国 00 后大佬周乐鑫论文登上 Nature,发现大模型对人类可靠性降低休闲区蓝鸢梦想 - Www.slyday.coM论文也具体提到了导致这些不可靠性的一些可能原因,以及解决方案:对此,你有何看法?文章:参考链接:
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,蓝鸢梦想所有文章均包含本声明。

相关推荐

  • 友情链接:
  • PHPCMSX
  • 智慧景区
  • 微信扫一扫

    微信扫一扫
    返回顶部

    显示

    忘记密码?

    显示

    显示

    获取验证码

    Close