信息检索与Web挖掘第一次思考题
信息检索与Web挖掘第一次思考题
1. 请说明词(term)作为基向量的好处及可能带来的问题。设想2个可能的改进方案。
1 |
|
2. IR系统的索引是什么类型的索引?如果要尽可能增强搜索引擎的检索功能并尽量简化在线计算以提高检索性能,索引系统可以预先存储哪些信息?请列举所有可能的存储信息,并说明理由。
1 |
|
3. 请说明衡量搜索引擎、问答系统、推荐系统的性能的常用指标都有哪些?尽可能全面,并概要说明衡量指标的计算方法。
1 |
|
4. 请比较链接分析算法PageRank、HITS、TrustRank的原理和计算方法的异同点,并为这些算法各设想2个除检索排序外的应用场景。
1 |
|
5. BM25模型、语言模型对TF、IDF及文档长度的利用与经典VSM模型有何不同?请做下对比分析。
1 |
|
6. 请说明主题模型的训练和推理过程,并设想主题模型的2个应用场景。
1 |
|
7. 为什么固定窗口长度的简单神经语言模型无法解决数据稀疏问题?
1 |
|
8. 什么是自注意力(self-attention)机制?请分析Transformer结构的特点以及带来的好处。
1 |
|
9. 请对比分析RNN、LSTM、GRU及Transformer在文本表征能力、计算效率、处理数据稀疏性及长句子等方面各有什么优缺点。
1 |
|
信息检索与Web挖掘第一次思考题
https://jetthuang.top/所有/信息检索与Web挖掘第一次思考题/