《数学之美》第21章 拼音输入法的数学原理
本站寻求有缘人接手,详细了解请联系站长QQ1493399855
1 输入法和编码
将一个方块形状的汉字输入到计算机中,本质上是一个将人为约定的信息记录编码--汉字,转换成计算机约定的编码(国际码或者UTF-8)的信息转换过程。
对汉字的编码分为两部分:对拼音的编码和消除歧义的编码。
拼音输入法,而且是每个汉字编码较长的全拼输入法。优点:
1. 它不需要专门学习。
2. 输入自然,不会中断思维,也就是说找每个键的时间非常短。
3. 因为编码长,有信息冗余。容错性好。
2 输入一个汉子需要敲多少个键--谈谈香农第一原理
香农第一定理指出,对于一个信息,任何编码的长度都不小于它的信息熵。
利用上下文最好的办法是借助语言模型。只要承认概率论,就无法否认语言模型可以保证拼音转汉字(解决一音多字的问题)的效果最好。
目前,各家拼音输入法基本处在同一个量级,将来技术上进一步提升的关键就在于看谁能准确而有效地建立语言模型。
3 拼音转汉子的算法
拼音转汉字的算法和在导航中寻找最短路径的算法相同,都是动态规划。
拼音输入法就是要根据上下文在给定拼音条件下找到最优的句子,即
数学的妙处在于它的每一个工具有相当的普遍性,在不同的应用中都可以发挥很大的作用。
4 个性化的语言模型
个性化的出发点是不同人平时写的东西主题不同,由于文化程度的差异,用词习惯不同,说话和写作的水平也不相同,因此,他们各自应该有各自的语言模型。
训练用户特定的语言模型的整个步骤如下:
1. 将训练语言模型的文本按照主题分成很多不同的类别,比如1000个,C1,C2,...,C1000
2. 对于每个类,找到他们的特征向量(TF-IDF)X1,X2,...,X1000
3. 统计某个人输入的文本,得到他输入的词的特征向量Y
4. 计算Y和X1,X2,...,X1000的余弦
5. 选择前K个和Y距离最近的类对应的文本,作为这个特定用户语言模型的训练数据
6. 训练一个用户特定的语言模型M