超越 GPT-4o:开源科研模型 OpenScholar 登场,4500 万篇论文检索增强生成回答
仅需片刻,开源模型检索 4500 万篇论文,比 GPT-4o 更可靠!
这是由华盛顿大学和艾伦人工智能研究所(Ai2)研发的最新模型 OpenScholar,首个将论文、数据集、模型检查点完全开源的科研助手模型。
20 位专家进行的 500 次对比实验显示,有72%的情况下他们认为 OpenScholar 的输出结果超越了人类。
OpenScholar 还会提供参考文献列表,贴心周到。
该模型功能丰富。
你可以询问 OpenScholar 某个研究课题的现状:“是否有人尝试将检索增强型 LM 的检索库扩大到万亿级词元?”
搜索最新数据集:
查询特定论文的技术细节:
或询问算法细节,如机器人算法 / ReLU 算法等:
多位用户表示使用后,即使处理复杂课题也能快速搜集有用资料,称之为科研神器!
运用 8B 模型
简单概括:存储了 4500 万篇论文的大量数据,使用自定义训练的检索器、重排器和 8B 参数语言模型进行检索,并根据最新科学文献回答问题。
具体来说,OpenScholar-8B(OS-8B)系统包含以下组件:
1.学者数据存储:包括超过 4500 万篇论文和约 2.5 亿段落嵌入。底层论文数据截至到 2024 年 10 月。
2.专业检索器和重排序器:这些工具专门用于从科学文献数据存储库中辨别相关段落。
3.专业 8B 语言模型:该 8B 参数语言模型专为科学文献任务优化,在性能和计算效率上取得了良好平衡。团队基于来自迭代自我反馈生成管道的合成数据训练和微调了 Llama 3.1 8B。
4.迭代自我反馈生成:团队在推理过程中使用迭代自我反馈来通过自然语言反馈改进模型输出。每次迭代都会检索更多论文,提高模型回答质量并缩小引用差异。
为评估 OpenScholar,团队还开发了ScholarQABench——一种专门用于评估综合多篇论文信息以解决开放式科学问题的基准。
ScholarQABench 包括七个数据集:三个专注于单篇论文评估的现有数据集,以及四个需要综合多篇论文的新收集数据集。
实验自动评估和人工评估显示,OpenScholar 模型表现优于许多主流模型,包括 GPT-4o 和 Llama 3.1 70B。
在搜索可靠性方面,OpenScholar超越了GPT-4o。
GPT-4o引用不存在论文的情况高达90%以上,而OpenScholar的结果均来自确定来源。
另外,在信息涵盖率、实用性、相关性等多方面,OpenScholar的表现均优于GPT-4o。
运营成本节省百倍
与基于OpenAI的GPT-4o和Anthropic的Claude的科研模型相比,OpenScholar挑战现有大型模型进入市场,尽管性能卓越,价格昂贵且工作原理不透明。
据开发人员称,OpenScholar是首个完全开源的科学助手语言模型,从数据到训练规范再到模型检查点,一览无余!
研究人员可清晰了解模型的训练过程和数据集内容,并可针对工作进行调整。
因此,基于较小规模、简化架构的OpenScholar-8B的运营成本比构建在GPT-4o基础上的同时期系统PaperQA2降低了100倍。
对于小型机构、资金不足的实验室以及发展中国家的研究人员而言,这样的运营成本具有极大吸引力。
不过,目前OpenScholar仍存在一些限制,例如:
1.OpenScholar 可能会引用不太具代表性的论文。
举例来说,在描述某特定方法时,可能未引用提出该方法的原始论文,而是引用提及该方法的其他文章。
2.OpenScholar 有时可能生成缺乏参考文献支持的响应,或检索到该领域不是最相关或最新的论文。
例如:当询问机器人学领域中的大型基础模型时,该回应引用具有30.7亿参数模型的论文,而目前截至2024年11月,机器人学领域最大的基础模型(RT-2)具有550亿参数。
3.OpenScholar 有时可能生成幻想性结果,而非根据检索到的真实论文。
4.很多科研论文设置了付费墙。
目前,出于版权尊重,OpenScholar数据存储库仅包含公开论文,这可能影响模型在封闭领域回答问题的能力。
未来,团队计划增加更多论文、改进检索增强算法,并对各领域经典研究问题及论文进行深度整合,提升OpenScholar的专业性。
不过,从实验结果看,OpenScholar已是目前一款表现优秀的AI学术研究助手之一,有兴趣的朋友可直接查阅底下的公开资料进行尝试!
演示:
论文:
https://openscholar.allen.ai/paper
OpenScholar 代码:
https://github.com/AkariAsai/OpenScholar
ScholarQABench 数据集代码:
https://github.com/AkariAsai/ScholarQABench
更多测试 code:
https://github.com/AkariAsai/OpenScholar_ExpertEval
参考链接
[1] https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/
[2] https://allenai.org/blog/openscholar
本文来自微信公众号:量子位(ID:QbitAI),作者:奇月,原标题《超越 GPT-4o!开源科研神器登场,4500 万篇论文检索增强生成靠谱回答》
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。