2020-2021Web数据管理考试回忆

本文涵盖了信息检索与搜索技术的基础概念,包括填空题、名词解释及简答题等形式,涉及深度优先搜索(DFS)、广度优先搜索(BFS)、爬虫技术、词项词典构建、停用词处理、分词算法、统计语言模型等内容模型等多个方面,并简述了网站反爬虫策略、基于隐马尔可夫模型(HMM)的中文分词方法、网站排序算法及PLSA与LSA之间的异同等知识点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一部分 填空 一空一分 30分

1.DFS优于BFS的原因_____
2.爬虫的礼貌性是_______
3.按照页面的内容不同分为____型页面和____型页面
4.构建词项词典的步骤:文档解析,____ ,____ ,____,去除停用词
5.停用词表的构建方法:____和 ____
6.分词算法有基于NLP理解的分词方法,基于 ____的分词方法,基于 ____的分词方法
7.统计语言模型是 ____, 应用有 ____等
8.基于内容的信息检索模型有 ____模型, ____模型和概率模型
9. BM25公式主要由三个部分组成: ____, ____, ____
10.CBIR的关键技术:
11.颜色矩是在颜色直方图的基础上计算出 ____, ____, ____,用这些统计量替代颜色的分布来表示颜色特征
12.Tamura纹理特征中 ____, ____, ____对于图像检索尤为重要
13.LBP的全称是 _____,一种有效的 _____描述算子,记录像素点与 _______。

第二部分 名词解释 5*6

1.正则表达式
2.WEB数据抽取
3.倒排索引
4.TF/IDF
5.BOF

第三部分 简答题 4*10

1.简述网站反爬虫策略和爬虫的应对
2.HMM,基于HMM的中文分词
3.简述几种网站排序算法和原理
4.PLSA,PLSA和LSA的异同

(可以去找找信息检索和搜索技术这两门课,可能会发现新大陆)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值