47、大规模汉英双语语料库构建与图形组合设计在计算机视觉艺术教学中的应用

大规模汉英双语语料库构建与图形组合设计在计算机视觉艺术教学中的应用

大规模汉英双语语料库构建
  1. 双语块结构
    • 每个双语块由源子块和目标子块两部分组成。例如,“my baggage”和“my baggage”是对应的名词块,“in the room”和“in my room”是对应的介词块。
    • 每个子块包含一个语义核心和围绕它的几个附属词。空集、单词、连续字符串和从句都可能成为双语块中的子块。句子由子块和单词组成,子块在句子中含义明确,且子块之间没有交集和嵌套。
    • 平行句对的双语块表示公式为:$Q = {< S, T > |< bskbtk >, k ∈[0, K]; bsk ∈S }$,其中,$q$是双语句子对;$S$和$T$分别是源语言和目标语言句子;是句子对中包含的双语块序列;$K$是双语块的数量。
  2. 句子对齐研究
    • 对齐的重要性和层次 :构建具有实际应用价值的双语语料库的关键技术之一是对齐,即从不同语言的翻译文本中找出翻译片段。文本的组成单位有章节、段落、句子、短语、单词和字节等,对齐单位也分为相应的不同层次,不同的自然语言应用可能需要不同层次的对齐,如词典编纂常需要词汇级的双语文本对齐。
    • 现有对齐方法
      • 基于长度的方法 :Brown和Gale根据翻译句子之间的长度关
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值