17、跨语言概念网络的自动构建

跨语言概念网络的自动构建

1. 标题对齐

标题可视为文本的代表,是文本的“微观摘要”,包含了“整个表述中最重要的焦点信息”,是“文档内容最简洁的陈述”。在基于文本的方法中,利用最长公共子序列优化中英文标题的对齐,其对齐算法主要有三个步骤:
1. 词级和字符级对齐 :英文标题 (E) 由一系列英文简单单词组成,即 (E = e_1 e_2 e_3 … e_i …) ,其中 (e_i) 是 (E) 中的第 (i) 个英文单词;中文标题 (C) 由一系列中文字符组成,即 (C = char_1 char_2 char_3 … char_q …) ,其中 (char_q) 是 (C) 中的一个中文字符。通过字典查找,英文单词 (e_i) 可翻译为一组可能的中文翻译 (Translated(e_i)) ,(Translated(e_i) = {T_{e_i}^1, T_{e_i}^2, T_{e_i}^3, …, T_{e_i}^j, …}) ,其中 (T_{e_i}^j) 是 (e_i) 的第 (j) 个中文翻译。中文翻译 (T_{e_i}^j) 和 (C) 的最长公共子序列集合为 (LCS(T_{e_i}^j, C)) 。(MatchList(e_i)) 是一个集合,包含了 (e_i) 的所有中文翻译与 (C) 的所有唯一最长公共子序列。
2. 减少冗余 :由于冗余,英文单词的翻译在中文中可能会完全或部分重复。为处理冗余,(Dele(x,y)) 是一个编辑操作,用于从 (x) 中移除 (LCS(x,y)) 。(WaitList) 是一个列表,用于保存通过移除 (MatchList(e_i)) 和 (Reliable(e_i)) 元

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值