86、基于邻域的标签预测:HAMLET方法解析

基于邻域的标签预测:HAMLET方法解析

1. 引言

在当今的Web 2.0时代,在线社区中用户共享和标注文档的应用日益增多。从CiteULike上的科学出版物,到Flickr上的图片,再到del.icio.us上的书签,用户通过标签这一用户生成的元数据来描述文档,以增强搜索功能。然而,由于标注文档需要人工参与,大多数文档的元数据并不完整,这严重影响了搜索效率。

为了解决这一问题,人们进行了多种尝试。一些项目通过激励用户来创建更多标签,而自动标签创建技术在特定标签类别上有一定效果,但在通用场景下仍面临挑战。本文提出了一种标签推理技术——HAMLET(Harvesting Adjacent Metadata in Large-ScalE Tagging Systems),它基于相似文档共享相似标签的假设,利用文档图来自动传播标签。

2. 计算模型

HAMLET的计算模型基于三个核心概念:文档、标签和文档邻域。
- 文档(Document) :用 $d \in D$ 表示,在本文场景中可以是科学出版物或网页,由与标签系统交互的用户创建和共享。
- 标签(Tag) :用 $t \in T$ 表示,是用户为文档提供的非结构化元数据。$t \rightarrow d$ 表示标签 $t$ 附着在文档 $d$ 上,$T(d)$ 表示文档 $d$ 所附着的标签集合。
- 文档邻域(Document Neighborhood) :文档图由文档作者通过引用(科学出版物)或HTML链接(网页)生成。$d_i \rightarrow d_

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值