
搜索引擎
hincon
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
N-gram模型
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串转载 2015-03-20 21:46:37 · 535 阅读 · 0 评论 -
simhash与重复信息识别
在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可转载 2015-03-21 21:51:53 · 619 阅读 · 0 评论 -
KD树在knn算法中的应用
李航博士的书只讲了求得最近邻的一个样本点的检测,但我们实际中要的是k个近邻点。 我的一些猜测是在进行距离比较时,比如k=3,需要同时保存3个最近的距离,那我们可以以当前最近邻点的三个点与目的点的距离为半径,以目的点为圆心,看在这3个半径中,是否有新的样本点落在其中,如果有一个半径中包含新的样本点,kd树就需要转到那个分支上进行检测。 有时间会研究下lire图片搜索引擎中的实现,原创 2015-06-14 16:10:58 · 2209 阅读 · 0 评论