大规模汉英双语语料库构建与图形组合设计在计算机视觉艺术教学中的应用
大规模汉英双语语料库构建
- 双语块结构
- 每个双语块由源子块和目标子块两部分组成。例如,“my baggage”和“my baggage”是对应的名词块,“in the room”和“in my room”是对应的介词块。
- 每个子块包含一个语义核心和围绕它的几个附属词。空集、单词、连续字符串和从句都可能成为双语块中的子块。句子由子块和单词组成,子块在句子中含义明确,且子块之间没有交集和嵌套。
- 平行句对的双语块表示公式为:$Q = {< S, T > |< bskbtk >, k ∈[0, K]; bsk ∈S }$,其中,$q$是双语句子对;$S$和$T$分别是源语言和目标语言句子;是句子对中包含的双语块序列;$K$是双语块的数量。
- 句子对齐研究
- 对齐的重要性和层次 :构建具有实际应用价值的双语语料库的关键技术之一是对齐,即从不同语言的翻译文本中找出翻译片段。文本的组成单位有章节、段落、句子、短语、单词和字节等,对齐单位也分为相应的不同层次,不同的自然语言应用可能需要不同层次的对齐,如词典编纂常需要词汇级的双语文本对齐。
- 现有对齐方法
- 基于长度的方法 :Brown和Gale根据翻译句子之间的长度关