基于字符家族的中文计算机辅助学习与机器翻译形式风格控制
1. 中文计算机辅助学习相关内容
1.1 背景知识
在中文学习中,语义 - 形声字是重要的组成部分。在《说文解字》中,82.5%的汉字是形声字,同时也有估计称最常用汉字中81%为形声字。形声字由表示语义类别的义符和提示读音的声符组成,例如“晴”字,左边的“日”是义符,与语义密切相关;右边的“青”是声符,读音相似。
汉字的语音和语义相似度也有不同类别。语音相似度可分为五类:相同音素和声调、相同音素不同声调、相同韵部、相同声母以及无相似性。在对3027个最常用左右结构汉字的研究中,约33%的形声字属于“相同音素和声调”类别。语义相似度方面,有研究将其分为六个语义透明度等级。当一个字的含义与义符相同或直接相关,或者属于义符的类别时,该字被认为是透明的;当含义与义符仅间接或松散相关时,则为半透明。
目前大多数中文计算机辅助学习(CALL)游戏的目标是用一组部首组成汉字。例如一款棋盘游戏提供左右和上下结构的部首卡片,可组合成2200多个汉字。但这些游戏主要关注结构规律,部首选择基于生产率和频率,而非突出汉字间的语音或语义模式。而新的方法在游戏目标相似的情况下,优化部首选择以体现语音和语义规律。
1.2 数据准备
从汉语水平考试(HSK)、汉语作为外语考试(TOCFL)的词汇列表以及中文维基百科40000个最常用词中的汉字构建了4214个汉字库。使用传统汉字,并通过HanziJS将其分解为部首,分解类型包括“左右”“上下”和“内外”。4214个汉字中,3535个被分解,形成了字符家族的基础。确定每个汉字的两个部首后,将汉字分配到各自的家族,得到616个候选字符家族,平均每个家族有11.1个