摘要
海洋覆盖我们星球表面70%以上,对于理解生命的丰富储备和生物多样性至关重要。鉴于海洋在调节全球气候和支持经济中的关键作用,海洋科学研究具有重大意义。最近,大型语言模型(LLMs)的进步改变了科学的范式。尽管在其他领域取得了成功,但现有的LLMs在满足海洋学家等领域专家的需求方面往往不足,LLMs在海洋科学方面的潜力尚未被充分探索。内在原因包括海洋数据的庞大和复杂性,以及对更高粒度和知识丰富度需求。为了缓解这些问题,我们引入了OCEANGPT,这是海洋领域的第一个大型语言模型,它在各种海洋科学任务中表现出专家级的能力。我们还提出了DOINSTRUCT,这是一个新颖的框架,通过多代理合作自动获取大量海洋领域指令数据,生成指令。此外,我们构建了第一个海洋学基准测试OCEANBENCH,以评估LLMs在海洋领域任务中的能力。实验证明,OCEANGPT不仅在海洋科学任务中显示出更高水平的知识专长,在海洋技术方面也体现出智能化能力。
一、引言
• 海洋科学深入研究覆盖地球表面70%以上的海洋,不仅对于理解丰富的生命和生物多样性至关重要,而且在调节全球气候和支持经济方面也起到了关键作用。
• 最近,大语言模型在医学( Moor et al. ,2023) 、分子科学 (Fang et al. ,2023) 、蛋白质科学( Lin et al. , 2023)和地球科学(Deng et al. ,2023)等科学领域得到应用。然而 ,大型语言模型在海洋科学中的潜力尚未得到充分开发。
• 目前LLMs仍然不能完全满足海洋学家的特定需求。这种不足主要是由于:
(1)海洋数据的