
点击上方蓝字关注我们

《大数据》
第11卷第2期 2025年3月
大数据2025年第2期
(点击原文链接在官网阅读完整文章)
目次
杜小勇
朱扬勇
程大伟, 贾仁军, 李江彤, 丁志军, 蒋昌俊
李紫宣, 白龙, 任韦澄, 苏淼, 刘文轩, 陈磊, 靳小龙
王敏, 高晓影, 汪诗蕊, 向阳
王露笛, 陈鸣, 崔文娟
龚后武, 金敏
08 基于大模型的具身智能任务规划研究:从单智能体到多智能体
贾子琦, 王健宗, 张旭龙, 瞿晓阳
王慜懋, 赵洪科, 吴李康, 焦之贤, 黄振亚
李艳红, 李志华, 郑建兴, 白鹤翔, 郭鑫
11 StabilizeNet:用于缓解时间序列非平稳性的新型框架
安俊秀, 万里浪
孙金烨, 郭树行
孙玥, 丁建立
李祎恒, 吴嘉慧
徐艺轩, 吴冰
谢波峰, 朱扬勇
十周年寄语
《大数据》期刊发展中的二三事
作者:杜小勇
摘要:《大数据》是CCF大数据专家委员会(简称CCF大专委)的合作期刊。我曾担任CCF大专委主任,同时也是《大数据》副主编,因此对《大数据》期刊的发展倾注了更多的关注,也希望CCF大专委的工作能与《大数据》期刊有更紧密的结合。我欣喜地看到《大数据》的影响力越来越大,其中固然有大数据作为国家战略的时代背景,同时期刊编委和编辑部工作人员的不懈努力也功不可没。回望过去,有几件重要的事情我印象深刻,但需要再思考、再努力。
《大数据》十周年寄语
作者:朱扬勇
摘要:2015年国家发布大数据战略,《大数据》应运而生,在郑纬民院士的领导下,在编委会的合作下,在编辑部的辛勤工作下,《大数据》十年取得了非凡成就。十年来,《大数据》为国家大数据战略做出了卓越贡献。《大数据》被各级政府数据相关部门广泛订阅,有多篇前瞻观点、政策研究、技术趋势的论文被编送至政府高层,为政府政策制定、数据产业发展规划提供参考。
专栏:大模型与知识图谱
知识增强的中文金融大模型研究
作者:程大伟, 贾仁军, 李江彤, 丁志军, 蒋昌俊
摘要:金融行业长期以来面临海量市场数据与信息的处理难题。当前,大语言模型在通用文本理解任务上取得了显著进展,但在专业性更强的中文金融领域还有较大的提升空间。针对当前大语言模型在处理专业领域文本任务上的不足,提出基于知识增强的继续预训练和监督微调的两阶段训练方法,并改进了训练数据的组织形式和训练范式,从而提升模型在复杂金融场景下的性能。最后,通过实验验证了提出的知识增强方法在大模型训练中的有效性。
代码大语言模型赋能的知识图谱关键技术综述
作者:李紫宣, 白龙, 任韦澄, 苏淼, 刘文轩, 陈磊, 靳小龙
摘要:传统知识图谱技术在将用自然语言表达的人类知识转化为用形式化语言表达的知识图谱再加以利用的过程中仍面临诸多挑战。近年来,代码大语言模型具备了同时理解自然语言与形式化语言并将两者进行转化的能力,有望为新一代知识图谱技术的发展带来重要突破。因此,综述了代码大语言模型在知识图谱中的运用。首先,从知识图谱构建、推理以及问答3个方面,对代码大语言模型赋能的知识图谱关键技术进行了体系化梳理;其次,围绕上述3个方面,对现有相关技术进行了较为详细的介绍;最后,对代码大语言模型赋能的知识图谱关键技术进行了总结与展望。未来基于编程语言的知识表示有望在知识图谱上实现更加高效、自动且复杂的操作,实现知识编程。
基于知识图谱和大语言模型增强的推荐系统研究
作者:王敏, 高晓影, 汪诗蕊, 向阳
摘要:推荐系统的核心是用户和商品,用户与商品之间的关系可抽象为图结构,因此图神经网络在推荐领域具有广泛应用。但基于图的推荐交互数据较稀疏,严重依赖于编号信息和图结构信息,忽略了与用户和商品相关的有价值的文本信息,表征信息较少。同时,隐式反馈数据中存在一定的噪声和偏差,为推荐系统理解用户行为与偏好带来挑战。为了解决这些问题,提出了一种基于知识图谱和大语言模型增强的推荐系统。知识图谱可以提供商品的结构化信息,使模型能学习商品之间的潜在关系,理解用户行为和偏好。大语言模型具备非常出色的生成与理解能力,可以通过提示工程技术,深入分析并挖掘文本信息,推理获取商品和用户画像特征。所提模型分别将这些辅助信息增强的特征编码,并对表征进行增强以与图神经网络获得的ID表征对齐,完成下游推荐任务。实验结果证明,本文提出的系统可以全面地表征用户和商品,具有较好的性能。
基于知识增强大模型的电催化剂设计
作者:王露笛, 陈鸣, 崔文娟
摘要:作为实现可持续碳循环的重要手段,开发高性能的电催化剂是未来可持续发展的关键,而推荐具有创新性的有价值制备方案是提升电催化开发效率的有效手段之一。基于电催化领域的科技文献,邀请领域专家进行知识体系的建设与知识抽取,形成电催化剂领域知识库。此外,利用相关文献数据对通用大语言模型进行微调与知识增强,共同实现面向目标产物、材料类别和调控方法类别的制备方案推荐,辅助电催化剂的设计。实验表明,知识增强大模型推荐的制备方案的有效性和创新性都有一定的提升。
原文链接:https://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2025028&lang=zh
基于生成式AI的药物重定位研究
作者:龚后武, 金敏
摘要:针对当前药物重定位研究药物适用症预测数量固定、无法全面揭示药物潜在适应症的问题,提出了生成式AI的药物重定位模型GenDrugShifter。该模型由图注意力神经网络和Transformer Decoder模块组成,能够进行端到端的药物重定位。该模型以InChI格式表示的药物分子结构为图注意力神经网络的输入,使用自监督方法学习药物活性分子结构和药物适应症之间的潜在联系,通过自回归的方法输出药物的适应症。西药重定位实验结果表明,GenDrugShifter在预测性能上优于其他4种先进药物重定位方法。GenDrugShifter能够更全面地揭示药物潜在的适应症,具有优越性和可靠性。临床数据进一步证明了其在实际应用中的有效性。
基于大模型的具身智能任务规划研究:从单智能体到多智能体
作者:贾子琦, 王健宗, 张旭龙, 瞿晓阳
摘要:随着人工智能的发展,具身智能和任务规划逐渐成为研究热点。传统任务规划方法在面对不可预测环境时缺乏灵活性,而大语言模型凭借其强大的语言理解和多模态能力,为智能体提供更全面的任务规划方案,为解决这一问题提供了可能性。综述了基于大模型的智能体任务规划方法,涵盖了单智能体与多智能体情境下的不同策略,并探讨了几种代表性框架及其在实际应用中的表现与潜力。具体而言,分别介绍了端到端规划、分阶段规划、动态规划等单智能体大模型任务规划方法,以及集中式规划、分布式规划和混合式规划等多智能体大模型任务规划方法,并分析了这些方法如何结合强化学习、多模态感知等技术来优化规划过程。此外,讨论了基于大模型的具身智能任务规划的特点、局限性以及存在的挑战,并展望了未来的发展方向。本研究旨在为设计更加灵活、适应性强的下一代具身智能系统提供有价值的参考。
研究
语言模型增强的引文网络连边因子挖掘
作者:王慜懋, 赵洪科, 吴李康, 焦之贤, 黄振亚
摘要:GNN可以有效聚合图结构数据中邻近节点的信息以学习节点表征,在引文网络数据挖掘领域展现出了巨大的潜力。然而,现有的大多数GNN在捕获连边信息的驱动因子方面缺乏深入探索,这限制了对节点间复杂关系的深入理解和解释。例如,不同论文之间的引用关系通常由各种研究主题驱动,尽管已有研究尝试通过整合LLM的强文本理解和生成能力来丰富节点与连边的特征表达,但这些方法仍未能有效挖掘连边信息隐含的驱动因子。鉴于此,提出了一个创新的框架——语言模型增强连边因子挖掘,旨在以插件形式提高各种图神经网络对连边关系建模的区分度,探究其在引文网络链接预测场景下的应用价值。粗粒度因子挖掘通过为LLM设计结构化信息提示文本,从引文网络图中提取出显式的类别相关连边因素。细粒度因子挖掘利用K-means聚类算法从图文本数据中捕捉更细致的语义主题级别连边因素。为了验证所提框架的有效性,在3个公开数据集上进行实验。实验结果表明,语言模型增强连边因子挖掘框架在提升各类图神经网络模型性能方面具有显著优势。
有限标签下的非平衡数据流分类方法
作者:李艳红, 李志华, 郑建兴, 白鹤翔, 郭鑫
摘要:数据流分类是数据流挖掘的重要研究内容,其核心任务是从实时到达的数据流中快速捕获概念漂移,并及时调整分类模型。极限学习机具有训练速度快和泛化性能好的优点,然而目前基于极限学习机的数据流分类方法很少可以同时处理数据流中常见的多类非平衡、概念漂移、标签成本昂贵的问题。为此,提出了一种有限标签下的非平衡数据流分类方法。该方法定义了预测概率差值与信息熵相结合的样本预测确定性度量,提出了不确定性标签请求策略;定义了基于类不平衡比率和样本预测误差的样本重要性度量;提出了基于概念漂移指数的分类器的更新与重构机制。在6个人工数据流和3个真实数据流上的对比实验表明,本文提出方法的分类性能优于已有的6种数据流分类方法的分类性能。
StabilizeNet:用于缓解时间序列非平稳性的新型框架
作者:安俊秀, 万里浪
摘要:时间序列预测在现代生活中广泛应用于众多领域,其重要性日益凸显。非平稳性是影响时间序列预测准确性的主要问题之一。时间序列数据的统计特性随时间变化,导致从历史数据中学习的规律难以被稳定地应用于未来预测,从而增加了预测的难度和不确定性。针对该问题,提出了一种新型框架StabilizeNet,旨在减少时间序列数据的非平稳性。该框架包括中心化和尺度变换、线性变换及逆序变换3个部分,通过引入可学习的归一化线性变换矩阵,优化数据的信息保留,并增强模型对时间序列动态的捕捉能力。与先进的时间序列预测模型Informer、SCINet、Pyraformer、FEDformer和Crossformer相比,StabilizeNet在多个数据集上展现出有效性和优越性。此框架为时间序列预测提供了一个新的预处理手段,有助于提升时间序列预测模型的预测性能。
面向权属治理的分布式数据空间架构模型研究
作者:孙金烨, 郭树行
摘要:当前,我国有关权属治理的顶层制度有待体系化完善,并且存在交易机制不健全、数据流通共享水平较低等问题,阻碍数据要素市场化进程,抑制其价值充分释放。基于上述背景,首先,从价值网理论、生态协同理论、架构者理论和金融信托理论4个视角探究了跨领域数据流转的权属治理理论基础;其次,结合分布式架构理论和动态能力理论,创新性地提出了面向数据授权运营商的基于跨领域协同视角的分布式数据空间架构模型;最后,结合交通数据流通场景开展应用探究。分析结果表明,该架构模型能够有效指导跨领域场景应用,使不同维度数据通过叠加产生放量的增益价值,并优化权属配置,提升数据市场交易的有序性。
应用
面向恶劣天气的航班延误Stacking集成预测模型
作者:孙玥, 丁建立
摘要:天气因素作为影响航班延误的首要因素,对航班延误预测有重要影响。面向恶劣天气,对航班延误时长进行多分类预测,并针对传统单一模型预测精度低、稳定性差等问题,提出一种基于Stacking的航班延误集成预测模型,融合航班数据与天气数据特征,采用LightGBM、XGBoost等多个异质分类器作为基学习器,SVM作为元学习器,构建堆叠式的双层集成学习框架。为验证模型有效性,构建多个单一模型与集成模型进行比较。实验结果证明,Stacking集成预测模型性能最优,总体准确率达到95.25%,F1分数达到0.9527。
生态环境大数据背景下环境治理的路径优化研究
作者:李祎恒, 吴嘉慧
摘要:生态环境大数据作为新质生产力的重要组成部分,有助于推动环境治理高效化、科学化、精准化,实现环境治理向智能化转型。然而,将生态环境大数据应用于我国环境治理实践仍面临诸多现实问题:一是缺乏数据利用相关的法律规范,妨碍了数据利用,导致数据调用困难;二是生态环境大数据安全技术保障不足,引发数据失真和数据泄露等安全风险;三是算法监管制度不完善带来算法歧视,破坏我国环境治理生态。为解决上述现实问题,提出加强立法、技术保障和监督管理三方面的优化措施,通过加强数据基本法律制度建设,加强隐私保护、区块链等数字安全保障技术的研究以及健全算法监管方式等措施,纾解生态环境大数据应用过程中面临的问题,为实现环境治理现代化打下坚实基础。
论坛
数据产品定价策略:独占式与非独占式定价
作者:徐艺轩, 吴冰
摘要:从数据交易实践来看,数据交易定价机制尚未成熟。探究“独占式定价”与“非独占式定价”对交易各方的影响,丰富了学术界对数据交易的研究,为数据产品提供方制定实际定价策略提供参考。以数据规模和数据产品价格为变量,构建经济学模型,考虑价格歧视及交易市场各方的相互影响,对比分析“独占式定价”与“非独占式定价”两种数据产品的定价方式。研究发现,在数据产品交易市场中,数据产品提供方应根据市场活跃度调整定价策略。市场活跃度低时,“独占式定价”可剥夺消费者剩余;市场活跃度高时,“非独占式定价”因边际成本低而利润高。同时,数据产品提供方应重视产品质量,满足市场需求,以获取更高利润并推动市场健康发展。忽视市场变化、产品质量、市场需求将导致利润流失和市场发展受阻。
专家视点
数据财政的非税收入及其分配机制实践探索
作者:谢波峰,朱扬勇
联系我们:
Tel:010-53879208
010-53878019
E-mail:bdr@bjxintong.com.cn
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
转载、合作:010-53878078
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号,获取更多内容

114

被折叠的 条评论
为什么被折叠?



