首个科学计算基座大模型 BBT-Neutron 开源,突破大科学装置数据分析瓶颈

xxn 阅读:69885 2024-12-26 00:00:15 评论:0

大语言模型是否能解决传统大语言模型在大规模数值数据分析中的限制,并为科学界大科学装置设计和高能物理领域科学计算提供支持?

高能物理是研究宇宙基本组成和规律的前沿科学领域,探究粒子在高能量下的相互作用,是揭示宇宙起源、暗物质和暗能量等谜团的重要手段。

在高能物理实验中产生的数据量庞大而复杂,传统的数据分析方法在处理海量数据和复杂物理结构时遇到计算瓶颈。

近期,arXiv上发布了一篇题为《Scaling Particle Collision Data Analysis》的论文,研究人员从粒子对撞实验出发,探索了大语言模型在大科学装置数据分析和科学计算领域的全新应用场景。

具体而言,团队利用他们最新研发的科学基座大模型BBT-Neutron,在粒子对撞实验中采用了全新的二进制分词方法,可以混合预训练多模态数据,包括大规模数值实验数据、文本和图像数据。

论文链接:https://arxiv.org/ abs / 2412.00129
代码地址:https://github.com/supersymmetry-technologies/bbt-neutron

论文对比了BBT-Neutron的通用架构模型和专业JoI模型(如ParticleNet和Particle Transformer)在粒子物理领域Jet Origin Identification(JoI)分类任务上的实验结果。

粒子分类的识别准确率显示研究表明通用架构的性能与专业模型相当,验证了基于sequence-to-sequence建模的decoder-only架构在学习物理规律方面的能力。

图 1:BBT-Neutron模型十一种类的粒子喷注来源鉴别结果--超对称技术团队
图 2:ParticleNet模型十一种类的粒子喷注来源鉴别结果--论文协作者、ParticleNet开发团队
图 3:Particle Transformer模型十一种类的粒子喷注来源鉴别结果--论文协作者、Particle Transformer开发团队

这些模型在数据集扩展时显示出性能提升,Jet Flavor Tagging Efficiency、Charge Flip Rate形成了S曲线。

然而,BBT-Neutron和专业模型之间观察到不同的扩展行为,S曲线上关键数据阈值表明BBT-Neutron出现了涌现现象,不仅打破了传统认为该架构不适用于连续物理特征建模的限制,更验证了通用模型在大规模科学计算任务中的可扩展性。

图 4:喷注味鉴别准确率 (上) 以及电荷误判率 (下) 与训练数据量的关系

二进制分词:统一多模态数据处理,突破数值数据分析瓶颈

...
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容