
表格学习-搜广推
文章平均质量分 90
算法部署
TTXS123456789ABC
基础要扎实!方案设计,baseline落地,发现问题,解决问题,方案优化(利他+敬畏生产)。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
表格学习代码备份
【代码】表格学习代码备份。原创 2024-03-05 11:26:42 · 156 阅读 · 0 评论 -
如何读论文
文章大概讲什么,质量怎么样结果怎么样,方法怎么样?原创 2024-03-11 16:05:24 · 798 阅读 · 0 评论 -
表格图_GraphFM:用于特征交互建模的图分解机
图1 GraphFM的概述。输入特征被建模为图,其中节点是特征字段,边是交互。在GraphFM的每一层,边(有益的交互)首先由交互选择组件选择。然后,通过注意力网络聚合这些选定的特征交互,以更新交互聚合组件中的特征嵌入。在每一层学习的特征嵌入被联合用于最终预测。表2不同方法在三个数据集上的性能比较。第5.1.1节中定义了四类模型(A,B,C,D)。.最后两列是我们提出的模型GraphFM与相应的基本模型相比的平均改进(“+“:增加,“-”:减少)。我们将突出显示每个数据集的最佳性能。原创 2024-09-14 21:38:08 · 348 阅读 · 0 评论 -
表格图_Fi-GNN:通过图神经网络建模特征交互以预测CTR
首先通过嵌入层将输入的原始多场特征向量转换为场嵌入向量,并表示为特征图,然后将其馈送到Fi-GNN以建模特征交互。在每个交互步骤中,每个节点将首先聚集来自邻居的转换的状态信息,然后根据聚集的信息和历史通过GRU和剩余连接更新其状态。图6:Avazu上全局和案例级别的注意力节点权重热图,反映了不同特征字段对最终预测的重要性。图4:Criteo和Avazu数据集上不同状态维度D(左)和交互步骤T(右)的AUC性能。图五:Avazu上全局水平的注意力边缘权重热图,反映了不同特征场之间关系的重要性。原创 2024-09-14 19:49:14 · 394 阅读 · 0 评论 -
表格图_使用TableGraphNet对表格数据进行可解释的深度建模(没代码)
通过每个记录的图形表示,我们可以提取以属性为中心的特征(例如,以每个属性为中心的成对距离的聚合),这些特征最终成为预测目标的加性深度集模型的输入。考虑到数据集中的每条记录现在都是使用由学习的距离函数导出的一组图来表示的,我们可以继续从每个图中提取以节点/属性为中心的特征,然后将它们集中在图中。Vj = {xk}k=1.M是对应于原始属性的节点的集合,并且Ej = {(ej,k,l,xk,xl)}k,l=1.M是边的集合,其中xk是源,xl是接收器,并且ej,k,l是第j个图中从xk到xl的距离。原创 2024-07-28 14:16:20 · 672 阅读 · 0 评论 -
表格图_Table2Graph: 将表格数据转换为统一的加权图(没代码)
因为图结构的优秀表达性,提出了构建表格数据的特征交互图:每个特征都被视为一个单独的节点。考虑到给定的样本x(i),我们通过连接X(i)K中的每个特征嵌入来获得其表示,并最终生成其预测值y(i)。给定表格数据中的m列,即,x = [x1,· · ·,xm],我们首先用列嵌入E ∈ Rm×d表示它们,以便于统一的图建模。用统一图的概率邻接矩阵表示特征列间的相互作用。考虑样本x(i)= [x(i)1,· · ·,x(i)m ],我们将其转化为特征嵌入X(i)0 ∈ Rm×d,其中每行是特征的稠密表示。原创 2024-09-14 12:55:01 · 324 阅读 · 0 评论 -
2024_GANDALF: Gated Adaptive Network for Deep Automated Learning of Features for Tabular Data
我们提出了一种新的高性能,可解释的,参数和计算效率高的深度学习架构,用于深度自动特征学习的门控自适应网络(GANDALF)。GANDALF依赖于一个新的表格处理单元,它具有门控机制和内置的特征选择,称为门控特征学习单元(GFLU)作为特征表示学习单元。我们证明了GANDALF优于或保持与SOTA方法,如XGBoost,SAINT,FT-变压器等。我们已经在https://github.com/manujosephv/pytorch_tabular上根据MIT许可证提供了代码。原创 2024-03-22 12:08:23 · 1049 阅读 · 0 评论 -
2023_TABR: TABULAR DEEP LEARNING MEETS NEAREST NEIGHBORS IN 2023
针对表格数据问题(例如分类、回归)的深度学习(DL)模型目前正受到研究人员越来越多的关注。然而,尽管最近的努力,基于梯度提升决策树(GBDT)的非DL算法仍然是这些问题的一个强有力的解决方案。旨在提高表格式深度学习的地位的研究方向之一涉及设计所谓的检索增强模型。对于目标对象,这些模型从可用的训练数据中检索其他对象(例如最近的邻居),并使用它们的特征和标签来进行更好的预测。在这项工作中,我们提出了TabR -本质上是一个前馈网络,中间有一个自定义的k-最近邻组件。原创 2024-03-22 15:06:50 · 288 阅读 · 0 评论 -
2022_THE GATEDTABTRANSFORMER. AN ENHANCED DEEP LEARNING ARCHITECTURE FOR TABULAR MODELING.
人们对将深度学习架构应用于表格数据越来越感兴趣。最先进的解决方案之一是 TabTransformer,它结合了注意力机制来更好地跟踪分类特征之间的关系,然后利用标准 MLP 输出其最终 logits。在本文中,我们提出对原始 TabTransformer 进行多种修改,以便在三个独立数据集的二元分类任务上表现更好,并获得超过 1% 的 AUROC 增益。受门控 MLP 的启发,在 MLP 模块中实现了线性投影,并测试了多个激活函数。我们还评估了训练期间特定超参数的重要性。原创 2024-05-18 13:34:01 · 316 阅读 · 0 评论 -
综述2024_Transformers for Tabular Data Representation: A Survey ofModels and Applications
在过去的几年中,自然语言处理社区见证了基于 Transformer 的语言模型 (LM) 的自由文本神经表示方面的进步。鉴于表格数据中可用知识的重要性,最近的研究工作通过开发结构化数据的神经表示来扩展语言模型。在本文中,我们提出了一项分析这些努力的调查。我们首先根据传统的机器学习管道在训练数据、输入表示、模型训练和支持的下游任务方面抽象出不同的系统。对于每个方面,我们都描述并比较了所提出的解决方案。最后,我们讨论了未来的工作方向。原创 2024-05-06 13:03:32 · 665 阅读 · 0 评论 -
综述2022_Revisiting Pretraining Objectives for Tabular Deep Learning
最新的表格数据深度学习模型目前正在与基于决策树 (GBDT) 的传统机器学习模型竞争。与 GBDT 不同,深度模型还可以从预训练中受益,预训练是 DL 视觉和 NLP 的主力。对于表格问题,提出了几种预训练方法,但并不完全清楚预训练是否能提供一致的显着改进以及应该使用什么方法,因为这些方法通常不会相互比较,或者比较仅限于最简单的 MLP 架构。在这项工作中,我们的目标是确定预训练表格深度学习模型的最佳实践,这些模型可以普遍应用于不同的数据集和架构。原创 2024-05-08 14:52:36 · 716 阅读 · 0 评论 -
综述2022_Why do tree-based models still outperform deep learning on typical tabular data?
虽然深度学习在文本和图像数据集上取得了巨大进步,但其在表格数据上的优越性尚不清楚。我们在大量数据集和超参数组合中提供了标准和新颖的深度学习方法以及基于树的模型(例如 XGBoost 和随机森林)的广泛基准。我们定义了来自不同领域的 45 个数据集的标准集,这些数据集具有表格数据的清晰特征以及用于拟合模型和寻找良好超参数的基准测试方法。结果表明,即使不考虑其卓越的速度,基于树的模型在中等规模的数据(~10K 样本)上仍然保持着最先进的水平。原创 2024-05-08 09:47:06 · 140 阅读 · 0 评论 -
综述2022_Revisiting Deep Learning Models for Tabular Data
关于表格数据深度学习的现有文献提出了各种新颖的架构,并报告了各种数据集上的竞争结果。然而,所提出的模型通常没有适当地相互比较,现有的作品往往使用不同的基准和实验协议。因此,研究人员和实践者都不清楚什么模型表现最好。此外,该领域仍然缺乏有效的基线,即在不同问题上提供有竞争力的性能的易于使用的模型。在这项工作中,我们对表格数据的DL架构的主要系列进行了概述,并通过识别两个简单而强大的深层架构来提高表格DL中的基线。第一个是一个类似ResNet的架构,这是一个强大的基线,在以前的作品中经常缺失。原创 2024-05-08 17:06:45 · 645 阅读 · 0 评论 -
综述2022_Deep Neural Networks and Tabular Data: A Survey
异构表格数据是最常用的数据形式,对于许多关键和计算要求较高的应用程序至关重要。在同质数据集上,深度神经网络多次表现出优异的性能,因此被广泛采用。然而,它们适应表格数据进行推理或数据生成任务仍然极具挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最先进的深度学习方法。我们将这些方法分为三组:数据转换、专用架构和正则化模型。对于每个群体,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并概述了解释表格数据深度模型的策略。原创 2024-05-10 11:24:07 · 958 阅读 · 0 评论 -
综述2021_Explainable Artificial Intelligence for Tabular Data: A Survey
摘要 机器学习技术由于在学术界和工业界各个学科的广泛使用而越来越受到关注。尽管取得了巨大的成功,但许多此类技术都遇到了“黑匣子”问题,即数据分析师无法解释为什么此类技术会做出某些决策的情况。这个问题激发了人们对可解释人工智能(XAI)的兴趣,它指的是人类可以轻松解释的技术。不幸的是,其中许多技术并不适合表格数据,考虑到表格数据在金融、医疗保健和刑事司法等关键应用中的重要性和广泛使用,这是令人惊讶的。同样令人惊讶的是,尽管有关 XAI 的文献数量巨大,但迄今为止仍然没有关注表格数据的调查文章。原创 2024-05-11 23:27:56 · 699 阅读 · 0 评论 -
表格预训练2022_PTab使用预先训练的语言模型对表格数据进行建模
表格数据是信息时代的基础,已被广泛研究。最近的研究表明,基于神经的模型可以有效地学习表格数据的上下文表示。学习有效的上下文表示需要有意义的特征和大量数据。然而,当前的方法通常无法从没有语义信息的特征中正确学习上下文表示。此外,由于数据集之间的差异,通过混合表格数据集来扩大训练集也很困难。为了解决这些问题,我们提出了一个新的框架 PTab,使用预训练语言模型来建模表格数据。PTab 通过三阶段处理学习表格数据的上下文表示:模态转换 (MT)、掩码语言微调 (MF) 和分类微调 (CF)。原创 2024-05-18 13:34:11 · 950 阅读 · 0 评论 -
表格预训练2022_TransTab学习跨表的可转换表格转换器
表格数据(或表格)是机器学习(ML)中使用最广泛的数据格式。然而,ML模型通常假设表结构在训练和测试中保持固定。在ML建模之前,需要进行大量的数据清理,以合并具有不同列的不同表。这种预处理通常会导致显著的数据浪费(例如,移除不匹配的柱和样品)。如何从具有部分重叠列的多个表中学习ML模型?如何随着时间的推移随着更多列变得可用而增量地更新ML模型?我们可以在多个不同的表上利用模型预训练吗?如何训练一个可以在看不见的表上进行预测的ML模型?原创 2024-02-22 19:36:43 · 927 阅读 · 0 评论 -
表格预训练2021_TABBIE表格数据的预训练表示
现有的表格表示法学习使用从预先训练的语言模型(如ERT)导出的自我监督目标函数,联合对表格和相关文本进行建模。虽然这种联合预训练改善了涉及配对表格和文本的任务(例如,回答有关表格的问题),但我们表明,它在处理没有任何关联文本的表格(例如,填充缺失的单元格)的任务中表现不佳。我们设计了一个简单的预训练目标(损坏单元检测),它只从表格数据中学习,并在一套基于表格的预测任务中达到最先进的水平。与竞争对手的方法不同,我们的模型(Tabbie)提供了所有表子结构(单元格、行和列)的嵌入,而且它需要的计算训练也少得多。原创 2024-05-15 09:52:53 · 906 阅读 · 0 评论 -
2020_TABERT: Pretraining for Joint Understanding of Textual and Tabular Data
近年来,用于基于文本的自然语言(NL)理解任务的预训练语言模型(LM)蓬勃发展。此类模型通常在自由格式的自然语言处理文本上进行训练,因此可能不适合结构化数据的语义解析等任务,这些任务需要对自由格式的自然语言处理问题和结构化表格数据(例如数据库表)进行推理。在本文中,我们提出了 TABERT,一种预训练的 LM,它联合学习 NL 句子和(半)结构化表的表示。TABERT 接受了包含 2600 万张表格及其英语上下文的大型语料库的训练。原创 2024-05-20 13:08:19 · 880 阅读 · 0 评论 -
2020_TabNet: Attentive Interpretable Tabular Learning
我们提出了一种新颖的高性能且可解释的规范深度表格数据学习架构 TabNet。TabNet 使用顺序注意力来选择在每个决策步骤中要推理的特征,从而实现可解释性和更高效的学习,因为学习能力用于最显着的特征。我们证明 TabNet 在各种非性能饱和的表格数据集上优于其他变体,并产生可解释的特征归因以及对其全局行为的洞察。最后,我们演示了表格数据的自监督学习,在未标记数据丰富时显着提高了性能。原创 2024-05-21 11:12:26 · 1054 阅读 · 0 评论 -
2020_TabTransformer
我们提出了TabTransformer,这是一种用于监督和半监督学习的新型深度表格数据建模架构。TabTransformer是建立在基于自我注意力的Transformers之上的。Transformer层将分类特征的嵌入转换为强大的上下文嵌入,以实现更高的预测准确性。通过对15个公开数据集的广泛实验,我们表明TabTransformer在平均AUC上比最先进的表格数据深度学习方法至少高出1.0%,并且与基于树的集成模型的性能相匹配。此外,我们证明了从。原创 2025-02-06 15:18:00 · 1217 阅读 · 0 评论 -
2020_VIME
自监督和半监督学习框架在使用图像和语言领域的有限标记数据训练机器学习模型方面取得了重大进展。这些方法严重依赖于领域数据集中的独特结构(例如图像中的空间关系或语言中的语义关系)。它们不适用于不具有与图像和语言数据相同的显式结构的一般表格数据。在本文中,我们通过提出新颖的表格数据自监督和半监督学习框架来填补这一空白,我们将其统称为 VIME(值插补和掩模估计)。除了用于自监督学习的重建借口任务之外,我们还创建了一个新颖的借口任务,即从损坏的表格数据中估计掩模向量。原创 2024-05-21 09:21:36 · 867 阅读 · 0 评论 -
2019_AutoInt
点击率(CTR)预测的目的是预测用户点击广告或项目的概率,其对于诸如在线广告和推荐系统的许多在线应用至关重要。该问题非常具有挑战性,因为(1)输入特征(例如,用户ID、用户年龄、项目ID、项目类别)通常是稀疏的和高维的,以及(2)有效的预测依赖于高阶组合特征(也称为,交叉特征),这对于领域专家手工制作是非常耗时的,并且不可能被枚举。因此,人们一直在努力寻找稀疏和高维原始特征及其有意义的组合的低维表示。在本文中,我们提出了一个有效的和高效的方法称为AutoInt自动学习输入功能的高阶功能的相互作用。原创 2025-02-06 15:10:08 · 1056 阅读 · 0 评论 -
2019表格学习_NEURAL OBLIVIOUS DECISION ENSEMBLES FOR DEEP LEARNING ON TABULAR DATA
如今,深度神经网络 (DNN) 已成为视觉、NLP 和语音等广泛领域机器学习任务的主要工具。与此同时,在异构表格数据的一个重要案例中,DNN 相对于浅层网络的优势仍然值得怀疑。特别是,没有足够的证据表明深度学习机制允许构建优于梯度提升决策树(GBDT)的方法,而梯度提升决策树通常是表格问题的首选。在本文中,我们介绍了神经不经意决策集成(NODE),这是一种新的深度学习架构,旨在处理任何表格数据。原创 2024-05-19 10:37:22 · 949 阅读 · 0 评论 -
2017_DCN(Deep & Cross Network for Ad Click Predictions)
特征工程是许多预测模型成功的关键。然而,该过程是不平凡的,并且优化需要手动特征工程或穷举搜索。DNN能够自动学习特征交互;然而,它们隐式地生成所有交互,并且在学习所有类型的交叉特征时不一定有效。深度和交叉网络(DCN),它保留了DNN模型的优点,除此之外,它还引入了一种新的交叉网络,在学习某些有界度特征交互方面更有效。特别是,DCN在每一层都显式地应用特征交叉,不需要手动特征工程,并为DNN模型增加了可忽略的额外复杂性。原创 2025-02-06 15:15:50 · 911 阅读 · 0 评论