UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透
在提问时,人类和大型语言模型(大模型)采用的思维方式差异显著。大模型倾向于生成需要详细解析的问题,而人类则更关注直接且基于事实的提问形式。
负责企业培训时,如果需要在培训后设计考试题目,可以选择利用大模型来处理这些题目,并提供参考答案。
不过,由大模型生成的考题和人类出题有什么不同?差异又在哪里呢?
最近,加州大学伯克利分校、沙特阿拉伯阿卜杜拉国王科技城(KACST)及华盛顿大学的学者们联合开展了一项研究,系统地评估了大模型生成问题的能力,并指出这两者在提问模式上存在显著区别。
论文链接:https://arxiv.org/pdf/2501.03491
提问评估的四个维度
本研究基于维基百科的文本内容,将其分解为86万个段落,接着通过亚马逊 Mechanical Turk平台,邀请人类参与者为每段文本拟定匹配的问题及答案,以人类生成的内容作为大模型评估的基准。
图 1:大模型出题和评估的流程
研究人员将这些段落提供给主流大模型,比如GPT-4o和开源的LLaMA-3.1-70b-Instruct,让大模型根据文本内容和上下文生成提问,并对问题进行自我评估。
问题的评估包含六个指标,可分为两组。前三个指标集中在评估问题本身,而后面三则评估与问题相关的答案质量。首先,介绍与答案无关的标准。
1. 问题类型
研究中定义了十种问题类型,主要包括验证问题、具体事实和数据问题,以及身份和归属类问题等。这显示了人类提问的主观选择性。
2. 问题长度
此指标用于测量问题中单词的数量。除了比较人类与大模型生成的问题长度外,研究也探讨了问题长度和问题类型之间的相关性。
3. 上下文覆盖率
此标准反映了问题是否涉及多个句子,或者是否需要跨句推理,旨在评估问题覆盖文本内容的广度,同时研究还分析了大模型生成问题时关注上下文的特定部分。
4. 可回答程度
判断问题的质量关键在于其是否能基于特定知识精确回答,生成的问题在有上下文的情况下应能被清晰理解,而不是模糊不清的提问。
5. 罕见性
大模型的训练依赖于广泛的网络常识,因此即便没有明确的上下文,大模型也能生成问题,需要评估这些问题在预训练数据中的普遍性,以判断其提问的针对性和有效性。
6. 答案所需的长度
答案所需的长度是评估提问模式的重要指标。由于生成模型的回答通常较为冗长,且常常包含无关细节,因此在评估时需指导模型在一定字数限制内生成内容,并对答案的压缩情况进行评估。
大模型与人类,问题差异解析
研究发现,首先,在问题类型上,大模型生成的提问更为偏向描述性且需要较长答案的内容,约44%的人工智能问题属于这一类。
这可能因大模型在训练中接触了大量的描述性文本。而人类则较常提出简单直接、以事实为基础的问题,如确认具体数据或信息的提问。
在问题长度方面,大模型生成的问题整体较长,不同模型对问题长度的偏好也存在差异,例如GPT-4o生成的描述性问题通常更长;相比之下,人类生成的问题则相对简短,且不同类型的问题之间长度迥异。
图 2:大模型生成的问题长度与人类参与者问题长度的对比
在上下文覆盖方面,人类创造的问题能更全面地反映上下文信息,能够涵盖句子与词语层面。这表明相比人类,大模型在提问时较难对文本进行全面覆盖,往往只专注于某个细节。
图 3:大模型与人类所提出问题的上下文覆盖比
更加值得注意的是,大模型往往更加关注文本的开始和结束部分,而忽视中间内容,这一现象在之前的研究中也有所提及。
图 4:大模型提问中不同段落位置的覆盖情况
在可回答性评估方面,依据上下文信息来判断问题的有效性至关重要。如果提问的文本提供了背景支持,大模型所提出的问题通常能得到明确回答;然而缺乏上下文和常识的支持时,大模型生成的问题的可回答性会显著下降,有些问题甚至无法回答。
图 5:在含有与不含上下文文本情况下,大模型提问的可回答性评分分布
由于生成模型的特性,大模型生成的问题通常需要更长的答案,也是相对更复杂的,且其生成答案不可压缩性较差:尽管可以缩减,但仍需较人类输入更为冗长的回答。
图 6:大模型与人类提问对应回答长度的对比
研究AI提问的重要性
本研究中,大模型测试的仅为单个段落,而非包含更多上下文的完整文章。未来的研究将探讨大模型在长文本及多篇文章中的提问能力,以及涉及不同阅读难度和学科的文本类型。
现在,AI生成问题在商业应用中越来越普遍,如亚马逊购物助手会提问与产品相关的问题,Perplexity搜索引擎和聊天机器人Grok使用后续问题帮助用户深入了解主题。
由于AI提问方式的独特性,对RAG系统的测试,能够帮助识别AI系统生成的虚假信息。
了解大模型的提问模式也有助于用户更有效地设计提示,无论是希望AI生成更自然的问题,还是特定类型的问题。
随着人们对大模型的依赖加剧,基于大模型生成考试题目的做法将逐渐普及,这或许会潜移默化地影响人类学生的思维方式,导致下一代或更加繁复,或在阅读时只关注文本特定的细节,尤其是前后部分。
值得一提的是,大模型的提问模式是可以调整的,了解两者在提问方式上的差异,可以帮助实现针对性的改善。
参考链接:
https://arxiv.org/pdf/2501.03491
本文来源于微信公众号:新智元(ID:AI_era)
广告声明:文中所包含的外部链接(包括超链接、二维码、口令等),旨在传递更多信息,节省筛选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。