可信大模型新挑战:噪声思维链提示下的鲁棒推理准确率直降40%

  然而,在人工标注或机器生成的思维链中,可能会包含一些与问题不相关或不准确的推理步骤(见图 2 右下角)★★★,这些噪声思维链可能会对推理性能产生负面影响,但目前 LLM 对噪声思维链(Noisy Rationales)的鲁棒性依旧未知。

  AIxiv专栏是机器之心发布学术、技术内容的栏目★★★。过去数年★★,机器之心AIxiv专栏接收报道了2000多篇内容★★,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:;

  我们以 GPT-3★★★.5-Turbo 为 base model★★★,测试了其在 NoRa 上的表现★,并且对比了多种去噪方法★★★。这些去噪方法可以分为两类★★:

  :将选取的思维链排列成不同的上下文,与目标问题一同输入给 LLM,并采用较高的温度参数进行多次重复推理,以探索多样的推理路径(见图 8 step3);

  被称作“奶龙娘”的藤田琴音,会成为下一个被迫害的抽象明星吗★★?/

  ★★:借助一个干净的思维链示例,引导 LLM 通过对比改写和纠正噪声思维链,并生成多个改写的思维链(见图 7 step1)★;

  四川挖出一具遗骸★★,脚带7公斤铁链,脚踝钉着4颗铆钉,经考证★★,他是失踪40多年的……

  因此,我们认为有必要引入外部监督信号来增强模型鲁棒性,且这种监督信号既要足以实现去噪,又要在实际应用中切实可行。对此,我们提出了一种简单有效的去噪推理方法,CD-CoT(Contrastive Denoising with Noisy Chain of Thoughts)★★★。

  :我们构建了 NoRa 数据集★★★,用于评测 LLM 在噪声思维链提示下的推理鲁棒性★。我们使用 NoRa 数据集对 LLM 展开系统评估,揭露了 LLM 推理的鲁棒性不足,数据去噪能力非常有限的问题;

  目前★,已经有许多工作探索了 Noisy Questions 对 LLM 推理性能的影响(见图 2 左下角),揭示了 LLM 对输入中微小修改的敏感性 [2,3]★★★。

  特别声明★★★:以上内容(如有图片或视频亦包括在内)为自媒体平台★“网易号★★”用户上传并发布★,本平台仅提供信息存储服务★★。

  主站 商城 论坛 自运营 登录 注册 被称作★★“奶龙娘”的藤田琴音★★,会成为下一个被迫害...

  CD-CoT 借鉴了对比学习的思路,通过让 LLM 显式地对比有噪和干净的思维链,从而识别出噪声信息。方法主要包括四个关键步骤,步骤 1&2 进行显式的去噪,步骤 3&4 进行精细推理并获得最终答案★。

  在构建数据集时,我们通过插入 Noisy Thoughts 来生成噪声思维链★★★,这些噪声仅影响推理链的细节,而不改变问题和最终答案的正确性★★。此外★★★,我们使用不同的噪声比例(Noise Ratio,即 Noisy Thoughts 占所 Thoughts 的比例★,如 0.3、0.5、0.8)来控制任务的困难程度,Noise Ratio 越大任务难度也越大。NoRa 数据集的统计信息如图 4 所示★★。

  :对当前流行的思维链提示技术,我们提出了尚未充分探究的噪声思维链问题(Noisy Rationales)★,并给出了详细的问题定义和统一的问题建模;

  此外★★,我们还进行了各种消融研究★,来探索不同因素对 NoRa 数据集评估结果的影响(见图 6),我们发现:

  图 10. 各种需要额外监督信息的方法 在 NoRa 数据集上的测评结果

  已有的鲁棒研究大多侧重于噪声问题(Noisy Questions),然而★★★,LLM 在噪声思维链(Noisy Rationales)下的推理还没有得到充分的探究。在本工作中★★,我们将噪声思维链定义为★★:包含不相关或者不准确推理步骤的思维链,如图 1 右侧 R1 中的「13 + 8 = 21」步骤★,对于 base-9 计算来说,是错误的推理步骤。

  图 6. 消融实验:(左) 温度系数对性能的影响;(中) 示例个数对性能的影响★;(右) 各种模型的性能

  :通过答案匹配,筛选出改写后答案不变的思维链,形成精炼的候选集★★;再从中随机选取一定数量的思维链,用于后续的推理(见图 7 step2)★★;

  课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局杰出青年学者计划,国家自然科学基金面上项目和青年项目★★★,以及微软、英伟达、字节跳动、百度★★、阿里、腾讯等企业的科研基金。青年教授和资深研究员手把手带,GPU 计算资源充足★★,长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外,本组也欢迎自费的访问博士后研究员、博士生和研究助理申请,访问至少 3-6 个月,支持远程访问★★。有兴趣的同学请发送个人简历和初步研究计划到邮箱。

  一条思维链(Rationale)包含多个连续的推理步骤(Thoughts)★;噪声思维链(Noisy Rationale)包含的噪声推理步骤(Noisy Thoughts)被定义为如下两类(示例见图 3)★:

  因此,本文提出了新的研究问题 Noisy Rationales:当示例的推理步骤中包含无关的或者不准确的内容时★,LLM 的推理鲁棒性如何?对这一问题的探索,有助于深入理解和提升 LLM 在非完备场景中的推理能力★★。

  更多的实验分析和技术细节★,请移步参阅我们的论文及源码★★★,我们也将持续更新本工作的内容。

  我们希望通过这项工作★,呼吁人们更多地关注 LLM 推理的鲁棒性问题★★,并开展关于大模型推理鲁棒性的探讨与研究。非常感谢大家关注我们的工作!

  对此,我们构建了NoRa 数据集,并进行了大量的实验评测★。结果表明,GPT-3★★★.5-Turbo★★、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等开源或闭源 LLM 都极容易受到噪声思维链的影响。其中,GPT-3.5-Turbo 的准确率至多可降低40.4%★★★。因此,我们也呼吁大家更多地关注大模型推理的鲁棒性问题★★★。

  根据测评结果★★★,大语言模型在应对噪声思维链提示时★★,其自身的去噪能力非常有限;即便使用自我纠正或自一致性方法,效果仍不理想★★★。

  为了评估 LLM 在噪声思维链下的鲁棒性★★,我们构建了 NoRa(Noisy Rationales)数据集★,NoRa 涵盖了 3 种推理任务类型★:数学推理、符号推理和常识推理,共包含26391个问题以及5种子任务。

  ,与 base model(GPT-3.5-Turbo 和 Gemini-Pro)相比,其准确率分别提高了

  思维链可以有效提升大模型的推理能力 [1]。具体来说,通过给出带有中间推理步骤的示例,LLM 可以很快地适应到新任务上,而无需进行参数修改(见图 2 右上角)。现有工作中★★,通常假设思维链包含清楚且正确的推理步骤★★★,但实际情况可能并非如此。

  :我们设计了一种简单有效的方法(CD-CoT),基于单个正确的思维链示例★,去纠正噪声思维链并完成推理★,并通过大量实验验证了方法的有效性。

  这些噪声思维链通常源自 LLM 的实际应用,比如众包平台、对话系统、机器生成数据等场景,人类和机器在推理中都会不可避免地犯错,从而产生噪声思维链。因此,噪声思维链的实际影响和技术挑战不容小觑。当前,我们仍然不清楚 LLM 在面对噪声思维链提示时的鲁棒性能如何,也缺少有效的应对策略。因此,非常有必要构建一个新的数据集,用于系统评估当前 LLM 在噪声思维链场景下的鲁棒性★,以及验证相应的鲁棒推理策略。

  接下来将从新问题、新数据集、新方法这三个角度★★★,简要地介绍我们关于大模型推理鲁棒性的研究结果★★★,相关论文已发表于 NeurIPS 2024 会议。

  然而★,现有研究表明,LLM 在应对噪声输入时存在明显不足:当输入的问题包含无关内容,或者遭到轻微修改时,模型极容易受到干扰,进而偏离正确的推理方向。如图 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10」 是关于 base-9 计算的噪声信息,该信息容易误导模型输出错误的结果。

  OPPO新机三连发:Find X8 Ultra、mini、S版,均明年上半年发布★★★!

  香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授★★、博士后研究员、博士生★★、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系★★。课题组专攻可信表征学习、可信基础模型★★★、基于因果推理的可信学习等相关的算法,理论和系统设计以及在自然科学上的应用★★,具体研究方向和相关成果详见本组 GitHub (。

  ★★★;当变化 N,M,C 等超参数的取值时★★★,准确性仅呈现出细微的变化(见图 11)。在论文中,我们默认采用 M 设为 2 的 CD-CoT 示例★★★,以在效率和效果之间取得平衡★;

  我们在 NoRa 数据集上全面测试了 CD-CoT,并对比了多个需要额外监督信息的去噪方法(见图 10),我们发现★★★: