跨语言概念网络的自动构建
1. 标题对齐
标题可视为文本的代表,是文本的“微观摘要”,包含了“整个表述中最重要的焦点信息”,是“文档内容最简洁的陈述”。在基于文本的方法中,利用最长公共子序列优化中英文标题的对齐,其对齐算法主要有三个步骤:
1. 词级和字符级对齐 :英文标题 (E) 由一系列英文简单单词组成,即 (E = e_1 e_2 e_3 … e_i …) ,其中 (e_i) 是 (E) 中的第 (i) 个英文单词;中文标题 (C) 由一系列中文字符组成,即 (C = char_1 char_2 char_3 … char_q …) ,其中 (char_q) 是 (C) 中的一个中文字符。通过字典查找,英文单词 (e_i) 可翻译为一组可能的中文翻译 (Translated(e_i)) ,(Translated(e_i) = {T_{e_i}^1, T_{e_i}^2, T_{e_i}^3, …, T_{e_i}^j, …}) ,其中 (T_{e_i}^j) 是 (e_i) 的第 (j) 个中文翻译。中文翻译 (T_{e_i}^j) 和 (C) 的最长公共子序列集合为 (LCS(T_{e_i}^j, C)) 。(MatchList(e_i)) 是一个集合,包含了 (e_i) 的所有中文翻译与 (C) 的所有唯一最长公共子序列。
2. 减少冗余 :由于冗余,英文单词的翻译在中文中可能会完全或部分重复。为处理冗余,(Dele(x,y)) 是一个编辑操作,用于从 (x) 中移除 (LCS(x,y)) 。(WaitList) 是一个列表,用于保存通过移除 (MatchList(e_i)) 和 (Reliable(e_i)) 元