17、跨语言概念网络的自动构建-CSDN博客

本文链接：https://blog.csdn.net/fish/article/details/149735124

跨语言概念网络的自动构建

1. 标题对齐

标题可视为文本的代表，是文本的“微观摘要”，包含了“整个表述中最重要的焦点信息”，是“文档内容最简洁的陈述”。在基于文本的方法中，利用最长公共子序列优化中英文标题的对齐，其对齐算法主要有三个步骤：
1. 词级和字符级对齐 ：英文标题 (E) 由一系列英文简单单词组成，即 (E = e_1 e_2 e_3 … e_i …) ，其中 (e_i) 是 (E) 中的第 (i) 个英文单词；中文标题 (C) 由一系列中文字符组成，即 (C = char_1 char_2 char_3 … char_q …) ，其中 (char_q) 是 (C) 中的一个中文字符。通过字典查找，英文单词 (e_i) 可翻译为一组可能的中文翻译 (Translated(e_i)) ，(Translated(e_i) = {T_{e_i}^1, T_{e_i}^2, T_{e_i}^3, …, T_{e_i}^j, …}) ，其中 (T_{e_i}^j) 是 (e_i) 的第 (j) 个中文翻译。中文翻译 (T_{e_i}^j) 和 (C) 的最长公共子序列集合为 (LCS(T_{e_i}^j, C)) 。(MatchList(e_i)) 是一个集合，包含了 (e_i) 的所有中文翻译与 (C) 的所有唯一最长公共子序列。
2. 减少冗余 ：由于冗余，英文单词的翻译在中文中可能会完全或部分重复。为处理冗余，(Dele(x,y)) 是一个编辑操作，用于从 (x) 中移除 (LCS(x,y)) 。(WaitList) 是一个列表，用于保存通过移除 (MatchList(e_i)) 和 (Reliable(e_i)) 元