自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

机器学习,深度学习

踏实一些、不要着急,你想要的、岁月都会给你。

  • 博客(234)
  • 资源 (7)
  • 收藏
  • 关注

原创 Qwen-VL: 一种多功能的视觉-语言模型,用于理解、定位、文本阅读等

在这项工作中,介绍了 Qwen-VL 系列,一系列大规模的视觉-语言模型(LVLMs),旨在感知和理解文本与图像。

2024-08-12 17:53:54 1664

原创 基于LoRA和AdaLoRA微调Qwen1.5-0.5B-Chat

基于LoRA和AdaLoRA微调Qwen1.5-0.5B-Chat

2024-07-31 15:50:23 833

原创 PA3D-基于姿态的3D视频行为识别网络

论文题目:PA3D: Pose-Action 3D Machine for Video Recognition论文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Yan_PA3D_Pose-Action_3D_Machine_for_Video_Recognition_CVPR_2019_paper.pdf今天是大年初二...

2020-01-27 11:34:44 2649 1

原创 U-Net经典卷积分割网络

论文名称:U-Net: Convolutional Networks for Biomedical Image Segmentation论文地址:https://arxiv.org/pdf/1505.04597.pdf最近读了一篇分割方向的文章,这是对FCN(全卷积网络)的改进,论文的题目是《U-Net: Convolutional Networks for Biomedical Im...

2019-09-16 17:09:36 3667 4

原创 T3D基于DenseNet可变时序的3D视频行为识别网络

Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification论文地址:https://arxiv.org/pdf/1711.08200最近读了一篇关于行为识别方向的文章《Temporal 3D ConvNets: New Architecture and Transfer L...

2019-08-30 22:36:50 5733 5

原创 行为识别之——Two-Stream Convolutional Networks

Two-Stream Convolutional Networks for Action Recognition in Videos论文地址:http://de.arxiv.org/pdf/1406.2199 在目前的研究中行为识别的方法比较多,主要可以分为两类,基于传统的方法和基于深度学习的方法。这两周我读了一篇行为识别论文《Two-Stream Convolutiona...

2019-07-14 12:31:56 6107 2

原创 I3D【Inflated 3D ConvNet】——膨胀卷积网络用于行为识别

I3D:Quo Vadis,Action Recognition? A New Model and the Kinetics Dataset 论文地址:https://arxiv.org/pdf/1705.07750.pdf 最近读了一篇行为识别的论文I3D,全名《Quo Vadis,Action Recognition? A New Model ...

2019-07-01 16:46:38 32184 14

原创 Node2Vec核心原理解析:如何用有偏随机游走实现高效图嵌入?

网络节点与边的预测任务需要精心设计学习算法所使用的特征。近年来,表征学习领域的广泛研究通过自动学习特征本身,在预测自动化方面取得了重大进展。然而,当前的特征学习方法尚不足以充分捕捉网络中观察到的多样化连接模式。本文提出node2vec——一种学习网络中节点连续特征表示的算法框架。在node2vec中,通过学习将节点映射到低维特征空间,最大化保留节点网络邻域的可能性。本文定义了灵活的节点网络邻域概念,并设计了一种有偏随机游走程序,可高效探索多样化的邻域。

2025-07-24 11:52:26 589

原创 LINE:突破DeepWalk局限,双阶建模实现工业级图嵌入

为此,本文提出了一种名为"LINE"的新型网络嵌入方法,该方法适用于任意类型的信息网络:无向/有向/加权网络均可处理。尽管近期少数研究开始探索大规模网络嵌入,但这些方法要么采用非网络专用的间接方法,要么缺乏针对网络嵌入设计的明确目标函数。本文研究将信息网络嵌入低维空间的问题,即将每个顶点表示为低维向量的方法。和以往一样,我会严格依照论文的结构框架,从研究背景、核心论点、实验设计到最终结论,逐一对文章的各个关键部分进行细致剖析 ,力求为大家呈现这篇时间序列预测论文的全貌,挖掘其中的研究价值与创新点。

2025-07-18 17:58:25 459

原创 DeepWalk:图嵌入领域的Word2Vec时刻

本文提出DeepWalk,一种学习网络中顶点潜在表示的新方法。这些潜在表示将社交关系编码在连续向量空间中,便于统计模型利用。DeepWalk将语言建模和无监督特征学习(即深度学习)领域的最新进展从词序列推广到图结构。DeepWalk通过截断随机游走获取局部信息,将游走序列视作"句子"来学习潜在表示。作者在BlogCatalog、Flickr和YouTube等社交网络的多标签分类任务上验证了DeepWalk的潜在表示能力。

2025-07-17 08:38:58 796

原创 超越谱方法:DCNN如何用扩散卷积提升图神经网络性能?

本文提出了一种针对图结构数据的新模型——扩散卷积神经网络(DCNNs)。通过引入扩散卷积运算,作者展示了如何从图结构数据中学习基于扩散的表征,并将其作为节点分类的有效基础。DCNNs具有多项引人注目的特性:其生成的图数据潜在表征在图同构条件下保持不变;支持多项式时间复杂度的预测与学习过程,可表示为张量运算并高效部署于GPU平台。在多个真实结构化数据集上的实验表明,DCNNs在关系型节点分类任务中的表现优于概率关系模型和图核方法。

2025-07-03 12:55:14 355

原创 图神经网络新突破!GCN 如何高效解决半监督节点分类难题?

本文提出了一种可扩展的图结构数据半监督学习方法,该方法基于一种直接在图上运行的高效卷积神经网络变体。通过谱图卷积的局部一阶近似,论证了所选卷积架构的合理性。该模型的计算复杂度与图的边数呈线性关系,其学习的隐藏层表征能够同时编码节点局部图结构及特征。在引文网络和知识图谱数据集上的大量实验表明,提出的方法以显著优势超越了相关基线模型。

2025-06-30 18:16:34 140

原创 图神经网络新突破!GCN 如何高效解决半监督节点分类难题?

本文提出了一种可扩展的图结构数据半监督学习方法,该方法基于一种直接在图上运行的高效卷积神经网络变体。通过谱图卷积的局部一阶近似,论证了所选卷积架构的合理性。该模型的计算复杂度与图的边数呈线性关系,其学习的隐藏层表征能够同时编码节点局部图结构及特征。在引文网络和知识图谱数据集上的大量实验表明,提出的方法以显著优势超越了相关基线模型。

2025-06-20 13:03:14 195

原创 NLP意图识别实战:基于POS机客户意向识别全流程解析(附完整Pytorch代码)

标签层级定义标准典型话术特征业务处理策略高意向: 明确需求+询价+询问办理流程。关键词: "怎么签约?如何领取?..."中意向: 比价阶段+模糊需求 "其他家费率多少?关键词:"再考虑下;我想想;考虑一下..."。一般意向: 直接拒绝/无需求。关键词:"不需要;已有POS机"。后续做意图识别也是基于这3个类别展开的。

2025-06-10 19:43:31 371

原创 基于TarNet、CFRNet与DragonNet的深度因果推断模型全解析

这正是因果推断所试图解答的核心挑战,尤其是在无法进行随机对照实验的观测数据中,如何准确估计个体处理效应(Individual Treatment Effect,ITE)变得尤为关键。随着深度学习的崛起,TarNet、CFRNet 与 DragonNet 等神经网络架构被提出,作为一系列创新性的深度因果推断模型,它们在建模处理偏倚、对抗分布不一致以及提升反事实预测准确性方面展现出强大潜力。给定一个人接受或未接受某种干预,我们只能看到一个结果,如何估计未观测到的另一个结果?TarNet:因果预测的基本结构;

2025-06-07 21:23:41 542

原创 深度学习与特征交叉:揭秘FNN与SNN在点击率预测中的应用

预测用户响应,如点击率和转化率,在许多网页应用中至关重要,包括网页搜索、个性化推荐和在线广告。与通常在图像和音频领域中看到的连续原始特征不同,网络空间中的输入特征始终是多字段的,并且大多数是离散和类别型的,而它们之间的依赖关系却鲜为人知。主要的用户响应预测模型要么局限于线性模型,要么需要手动构建高阶组合特征。前者失去了探索特征交互的能力,而后者在庞大的特征空间中带来了沉重的计算负担。

2025-06-03 17:14:19 589

原创 LLMTIME: 不用微调!如何用大模型玩转时间序列预测?

通过将时间序列编码为数字字符串,可以将时间序列预测重新表述为文本中的“下一个 token 预测”问题。在这一思路基础上,本文发现大型语言模型(LLMs),如 GPT-3 和 LLaMA-2,竟然能够在零样本(zero-shot)条件下进行时间序列外推,其表现与为下游任务专门设计的时间序列模型相当,甚至更优。为了实现这种性能,提出了一些方法,用于有效地对时间序列数据进行 token 化,并将模型输出的离散 token 分布转化为对连续数值的高灵活度密度分布。

2025-05-31 18:47:23 591

原创 FiBiNET详解:动态特征重要性与细粒度特征交互的CTR利器

广告投放和信息流排序对于许多互联网公司(如 Facebook 和新浪微博)至关重要。在众多真实世界中的广告与信息流排序系统中,点击率(CTR,Click Through Rate)预测扮演着核心角色。目前该领域已经提出了许多模型,例如逻辑回归、基于树的模型、因子分解机模型以及基于深度学习的 CTR 预测模型。然而,当前许多方法在计算特征交互时较为简单,常采用哈达玛积(Hadamard Product)或内积(Inner Product),并且较少关注特征的重要性。本文提出了一种新模型,命名为FiBiNET。

2025-05-28 09:29:34 781

原创 因果推断四大算法全解析:从理论到实战

因果推断关注的是"某个处理(treatment)是否对结果有因果影响",这是一个总体层面的问题;而 Uplift 模型则更进一步,聚焦于每个个体在接受与不接受处理之间的差异,即干预是否"对这个人"有效,量化的是个体层面的因果效应(CATE)。由于我们无法同时观察到同一个体的两种状态(这被称为"根本问题"),因果推断算法通过巧妙的统计和机器学习方法来估计这种效应。经典的例子是"冰淇淋销量与溺水事件呈正相关",但这并不意味着吃冰淇淋会导致溺水,真正的原因是气温升高同时影响了这两个变量。

2025-05-27 10:39:27 398

原创 NFM算法解析:如何用神经网络增强因子分解机的特征交互能力?

许多网络应用的预测任务需要对分类变量进行建模,例如用户ID以及性别、职业等人口统计特征。为了应用标准机器学习技术,这些分类预测变量通常通过独热编码转换为一组二元特征,导致生成的特征向量高度稀疏。为了有效利用此类稀疏数据进行学习,充分考虑特征间的交互作用至关重要。因子分解机(Factorization Machines,FM)是一种利用二阶特征交互的流行解决方案。然而,FM以线性方式建模特征交互,可能不足以捕捉现实数据中非线性和复杂的内在结构。

2025-05-21 18:09:20 1023

原创 比 Transformer 更高效!SCINet 如何做到 O(T*log(T)) 的时间预测

SCINet是一种创新的时间序列预测神经网络架构,它通过“下采样—卷积—交互”的递归结构,有效捕捉多尺度时序特征。与传统依赖递归或自注意力机制的模型不同,SCINet利用卷积滤波器从下采样子序列中提取动态时间特征,从而提升了对局部与全局依赖的建模能力。实验显示,SCINet在多个真实世界数据集上的预测精度显著优于现有卷积模型和Transformer方法,同时计算效率更高。该模型充分考虑了时间序列数据的特殊性,如通过下采样保留时间关系,为时间序列预测领域提供了新的研究视角和解决方案。

2025-05-21 18:05:25 550

原创 特征工程太累?试试这款不用特征交叉的工业级算法 Deep Crossing!

手工构造的组合特征一直是许多成功模型背后的“秘密武器”。然而,在网页规模(web-scale)的应用中,由于特征种类繁多、数据量庞大,这些手工构造特征的创建、维护和部署成本非常高。本文提出了一种名为 Deep Crossing 的模型,这是一种深度神经网络,可以自动组合特征,从而构建更优的模型。Deep Crossing 的输入是一组个体特征,这些特征可以是稠密的(dense)也可以是稀疏的(sparse)。网络会自动识别和学习重要的组合特征,而无需显式手工构造。

2025-05-18 17:00:07 446

原创 AFM模型:如何让特征交叉更智能,提升推荐系统性能

因子分解机(FM)是一种监督学习方法,它通过引入二阶特征交互来增强线性回归模型。尽管效果显著,但FM对所有特征交互采用相同权重的建模方式可能成为其局限,因为并非所有特征交互都具有同等效用和预测性。例如,与无关特征产生的交互甚至可能引入噪声从而降低模型性能。本研究通过区分不同特征交互的重要性来改进FM,提出了一种名为注意力因子分解机(AFM)的新模型,该模型通过神经注意力网络从数据中学习各特征交互的重要性。

2025-05-15 00:20:13 719

原创 推荐系统:深度解析阿里DSIN模型的会话兴趣建模技术

点击通过率(CTR)预测在在线广告和推荐系统等众多工业应用中扮演着重要角色。如何从用户行为序列中捕捉其动态且不断演变的兴趣,始终是CTR预测领域持续研究的方向。然而,现有研究大多忽略了行为序列的内在结构:这些序列由多个会话组成,而会话是根据发生时间划分的用户行为片段。作者观察到,用户行为在单个会话内呈现高度同质性,而在跨会话间则表现出明显异质性。基于这一发现,本文提出了一种名为深度会话兴趣网络(DSIN)的新型CTR预测模型,该模型充分利用用户行为序列中的多重历史会话信息。

2025-05-10 12:41:21 950

原创 双轴注意力+多分辨率成像:TIMEMIXER++在时序建模领域再创佳绩

配合多尺度混合(MCM)与多分辨率混合(MRM)的层级架构,有效解决了传统方法在处理嵌套周期和复杂动态时的局限性。实验证明该框架在预测、分类、异常检测等8大类时序任务中全面超越现有模型,其中长期依赖建模误差降低达34%,为构建下一代通用时序分析平台树立了新标杆。接下来,我将深入对这篇论文展开全面解读。和以往一样,我会严格依照论文的结构框架,从研究背景、核心论点、实验设计到最终结论,逐一对文章的各个关键部分进行细致剖析 ,力求为大家呈现这篇时间序列预测论文的全貌,挖掘其中的研究价值与创新点。

2025-04-04 17:43:06 475

原创 TimeGAN:开启时间序列生成新纪元,结合GAN与自回归模型的优势

为此,本文提出了一种新的框架来生成真实的时间序列数据,该框架结合了无监督方法的灵活性和监督训练提供的可控性。今天周末,给大家介绍一篇时序数据生成网络TimeGAN,一种用于时间序列生成的新框架,它将无监督GAN方法的多功能性与有监督自回归模型对条件时间动态的控制相结合。接下来,我将深入对这篇论文展开全面解读。和以往一样,我会严格依照论文的结构框架,从研究背景、核心论点、实验设计到最终结论,逐一对文章的各个关键部分进行细致剖析 ,力求为大家呈现这篇时间序列预测论文的全貌,挖掘其中的研究价值与创新点。

2025-03-16 19:23:13 644

原创 突破时序预测新边界:TimesFM 让零样本预测媲美全监督模型!

受近期自然语言处理(NLP)领域大规模语言模型进展的启发,本文设计了一种用于时间序列预测的基础模型。该模型在多种公开数据集上的开箱即用零样本预测性能,接近针对每个单独数据集训练的最先进的监督预测模型的精度。本文的模型基于解码器风格的注意力机制,并结合输入分块技术,通过包含真实世界和合成数据集的大规模时间序列语料库进行预训练。在多个未见过的预测数据集上的实验表明,该模型能够在不同领域、预测时间范围和时间粒度下生成高精度的零样本预测结果。

2025-02-21 15:21:07 985

原创 【技术解析】MultiPatchFormer:多尺度时间序列预测的全新突破

通过在七个真实数据集上的大量实验,我们的模型(MultiPatchFormer)在误差指标上超越了当前主流基线模型,取得了最先进的性能,并展现出更强的泛化能力。这篇论文提出了一种基于Transformer的创新模型,旨在解决时间序列预测中的关键挑战,特别是在处理多尺度时间依赖性和复杂通道间相关性时的难题。和以往一样,我会严格依照论文的结构框架,从研究背景、核心论点、实验设计到最终结论,逐一对文章的各个关键部分进行细致剖析 ,力求为大家呈现这篇时间序列预测论文的全貌,挖掘其中的研究价值与创新点。

2025-02-15 23:22:53 809

原创 一文搞懂 MTGNN,图神经网络开启多变量时间序列新玩法

多变量时间序列建模长期以来一直是一个吸引来自经济学、金融学和交通等多个领域研究人员的课题。多变量时间序列预测的一个基本假设是,其变量之间相互依赖,但仔细观察可以发现,现有方法未能充分利用变量对之间的潜在空间依赖性。近年来,图神经网络(GNNs)在处理关系依赖性方面表现出强大的能力。然而,GNN需要明确定义的图结构来进行信息传播,这意味着它们不能直接应用于多变量时间序列,因为其依赖关系通常是未知的。在本文中,提出了一种专门为多变量时间序列数据设计的通用图神经网络框架。

2025-02-12 18:26:39 390

原创 一文读懂!Triplet Loss 原理与代码实战全解析

Triplet Loss 是一种用于度量学习的损失函数,旨在通过学习样本的嵌入表示(Embedding),使得同类样本在嵌入空间中距离较近,而不同类样本距离较远。它的名字来源于其核心思想:通过构建三元组(Triplet)来训练模型。

2025-02-10 15:53:59 343

原创 LightTS:基于 MLP 的高效时间序列预测算法解析

多变量时间序列预测在金融、交通、能源和医疗等多个领域具有广泛的应用。为了捕捉复杂的时间模式,大量研究采用了基于 RNN、GNN 和 Transformer 等不同变体的神经网络架构。然而,这些复杂模型通常计算开销较大,在处理大规模真实数据集时,训练和推理的效率面临严峻挑战。在本文中,提出了一种轻量级深度学习架构 LightTS,其核心仅依赖于简单的 MLP 结构。

2025-02-09 15:38:28 890

原创 AI时序预测: Transformer 性能被高估?简单模型 LTSF-Linear 来挑战

文中指出,过往实验中,基于Transformer的模型虽展现出不错的性能提升,但对比的非Transformer基线模型多采用迭代多步预测技术,存在严重的误差累积问题,这使得这些模型的性能提升可能更多得益于直接多步预测策略,而非Transformer架构本身的优势。在当今数据驱动的世界中,时间序列无处不在。和以往一样,我会严格依照论文的结构框架,从研究背景、核心论点、实验设计到最终结论,逐一对文章的各个关键部分进行细致剖析 ,力求为大家呈现这篇时间序列预测论文的全貌,挖掘其中的研究价值与创新点。

2025-02-06 16:22:49 652

原创 AI时序预测: iTransformer算法代码深度解析

回顾Paper,我们知道iTransformer通过简单地将注意力机制和前馈网络应用于倒置的维度上。具体而言,单个序列的时间点被嵌入为变量令牌(variate tokens),并利用注意力机制捕捉变量间的相关性;同时,前馈网络被应用于每个变量令牌,以学习非线性表示。iTransformer 整体架构如下图所示,采用了 Transformer(Vaswani et al., 2017)的仅编码器(encoder-only)架构,包括嵌入层、投影层和 Transformer 块。

2025-01-30 18:51:03 594

原创 DeepSeek!中国 AI 大模型凭什么让科技金融圈颤抖?

A 股市场同样未能幸免,算力硬件股纷纷崩盘,铜高速连接、CPO 等相关板块领跌,A 股股王寒武纪盘中一度深跌 10%,港股中芯国际也大幅下跌逾 10%。2024 年底,幻方推出的 DeepSeek-v3 横空出世,它仅耗费 550 万元、使用 2000 张卡就完成了训练,但其表现却与 OpenAI 耗费数亿资金打造出来的模型不相上下。在刚刚过去的这个周末,一款来自中国的 AI 大模型 DeepSeek,如同一颗重磅炸弹,在全球范围内掀起了惊涛骇浪,不仅让科技界为之侧目,更让金融市场产生了巨大震荡。

2025-01-29 11:41:24 298

原创 深度解析iTransformer:维度倒置与高效注意力机制的结合

近年来,线性预测模型的迅速发展对基于 Transformer 的预测模型的架构改进热潮提出了质疑。这些预测模型利用 Transformer 来建模时间序列中时间片段(temporal tokens)之间的全局依赖关系,其中每个时间片段由同一时间点的多个变量组成。然而,当处理具有较长回溯窗口的时间序列时,Transformer 面临性能下降和计算成本爆炸的问题。此外,每个时间片段的嵌入融合了多个变量,这些变量可能代表潜在的延迟事件或不同的物理测量值,这可能导致无法学习基于变量的表示,从而生成无意义的注意力图。

2025-01-26 16:57:31 1089

原创 WPMixer: 基于多级小波分解的时间序列预测算法

今天,我将介绍一种基于多级小波分解的时序预测算法——WPMixer,该算法旨在有效捕捉时间序列数据中的多分辨率信息,涵盖时间域和频率域的特征。随着数据的复杂性和多变性增加,传统的时间序列预测方法往往难以处理数据中的突然波动和长期依赖关系。WPMixer通过引入小波变换的多级分解,能够在多个尺度上同时提取时序数据的局部和全局特征,从而增强模型对数据复杂性和变化模式的适应性。此外,WPMixer采用补丁和嵌入混合器策略,进一步提高了模型的表达能力,使其在实际应用中具有较强的预测性能和计算效率。

2025-01-24 17:48:39 856

原创 BART:一种面向自然语言生成、翻译与理解的去噪序列到序列预训练方法

近期的研究通过改进掩码标记的分布(Joshi 等人,2019)、掩码标记的预测顺序(Yang 等人,2019)以及替换掩码标记时可用的上下文(Dong 等人,2019),实现了进一步的性能提升。在使用相同训练资源的情况下,BART 在 GLUE(Wang 等人,2018)和 SQuAD(Rajpurkar 等人,2016)数据集上的表现与 RoBERTa(Liu 等人,2019)相当,并在一系列抽象式对话、问答和摘要任务上取得了新的最先进结果。发现,BART 在考虑的所有任务范围内表现出最一致的强大性能。

2025-01-20 09:58:59 1089

原创 深度剖析:NLP 领域基于 TF-IDF 和 Text-Rank 的关键字提取原理

这两项技术在文本处理的世界里犹如两颗璀璨的明星,各自散发着独特的光芒,帮助我们从海量的文本数据中精准地提炼出关键信息,无论是在学术研究、信息检索,还是商业智能分析等领域,都有着举足轻重的地位。关键词提取是一个常见的需求,它从一段文本中提取出重要的词,这些词是对文章的一种粗略的摘要,可以帮助读者快速捕获文章的关键信息。话题聚合: 根据文章计算的关键词,聚合相同关键词的文章,便于用户对同一话题的文章进行全方位的信息阅读。个性化推荐: 通过对文章的关键词计算,结合用户画像,精准的对用户进行个性化推荐。

2025-01-16 18:54:33 803

原创 Crossformer:基于Transformer的多变量时序预测模型

近年来,许多深度模型被提出用于多元时间序列(MTS)预测。特别是,基于 Transformer 的模型展现了巨大的潜力,因为它们能够捕获长期依赖性。然而,现有的基于 Transformer 的模型主要集中于建模时间上的依赖关系(跨时间依赖性),而往往忽略了不同变量之间的依赖关系(跨维度依赖性),而这种依赖性对于 MTS 预测至关重要。为弥补这一空白,本文提出了一种基于 Transformer 的模型——Crossformer,利用跨维度依赖性来进行 MTS 预测。

2025-01-14 18:18:35 1355

原创 Longformer:一种适用于长文档处理的可扩展Transformer模型

基于Transformer的模型无法处理长序列,这是因为其自注意力机制的计算复杂度随着序列长度呈二次增长。为了解决这一限制,本文引入了Longformer,一种注意力机制,其计算复杂度随序列长度线性增长,从而能够轻松处理包含数千个token或更长的文档。Longformer的注意力机制可以直接替换标准的自注意力机制,并结合了局部窗口注意力和基于任务需求的全局注意力。

2025-01-13 16:07:38 646

informer时间序列预测

支持多步多变量输入,多步预测输出。 可以直接运行,代码简单。

2024-01-29

对于含有n个内节点的二元树,证明E=I+2n。其中E、I分别为外部和内部路径长度。

对于含有n个内节点的二元树,证明E=I+2n。其中E、I分别为外部和内部路径长度。

2019-01-04

16~17的国科大数据挖掘与模式识别期末考试卷子

16~17的国科大数据挖掘与模式识别期末考试卷子,希望对大家有利,谢谢大家!祝福大家考试顺利!

2019-01-05

国科大人工智能2015-2018期末参考答案

国科大高级人工智能卷子【2015-2016】【2017-2018】期末答案

2019-01-16

大数据作业.pdf

本文档只限作为参考,谢谢。希望您下载不是为了抄袭,为了对自己的学习负责!

2019-06-24

国科大模式识别与机器学习期末真题

国科大模式识别与机器学习期末真题

2019-01-04

极大似然估计方法

极大似然估计方法估计方法,极大似然估计方法估计方法

2019-01-04

国科大高级人工智能2016

国科大高级人工智能2016年期末考试卷子,欢迎下载!国科大高级人工智能2016年期末考试卷子

2019-01-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除