信息检索与Web挖掘第一次思考题

信息检索与Web挖掘第一次思考题

1. 请说明词(term)作为基向量的好处及可能带来的问题。设想2个可能的改进方案。

1
2
3
词(term)作为基向量的好处是可以降低维度,词嵌入将词转化为固定维度的实数向量,由于自然语言中的词汇量极大,直接使用词来表示文本将导致维度灾难。词作为基向量通过将词映射到低维空间,可以有效降低数据的维度。同时,好的词嵌入能够保持词的语义信心,即语义相近的词在嵌入空间中距离相近,有助于后续的NLP任务,如文本分类,情感分析等。低维向量计算效率更高,便于大规模数据处理。
这种方式可能带来的问题有,一个词可能有多个意义,但词作为基向量通常只为一个词分配一个向量,这可能无法准确地表示多义词的所有含义,词嵌入通常为每个词分配一个固定的向量,不考虑上下文的影响,这可能无法准确地捕捉词在特定上下文中的意义。
可以通过动态词向量和复合词嵌入的方案进行改进,使用上下文相关的词表示,如Transformer模型中的BERT,通过考虑词的上下文来生成动态的词嵌入,可以更好地处理多义词和上下文依赖问题。复合词嵌入则是结合多种词表示方法,如结合字符级别的嵌入和词级别的嵌入,可以同时捕捉到词的内部结构和全局语义信息,有助于处理未知次梁和提高模型的理解能力。

2. IR系统的索引是什么类型的索引?如果要尽可能增强搜索引擎的检索功能并尽量简化在线计算以提高检索性能,索引系统可以预先存储哪些信息?请列举所有可能的存储信息,并说明理由。

1
2
3
4
5
6
7
8
9
10
11
12
IR系统的索引通常使用的是Inverted index,这种索引方式能够快速地找到包含特定查询词的文档。
为了增强搜索引擎的检索功能并提高检索性能,索引系统可以预先存储一下信息,
1.词频(Term Frequency),记录每个词在文档中出现的次数,这有助于评估词在文档中的重要性。
2.逆文档频率(Inverse Document Frequency),记录每个词在整个文档集合中的稀有程度,可以评估词的区分度。
3.文档长度(Document Length),每个文档的长度,进行长度归一化,以改善检索效果。
4.词位置(Term Position),记录每个词在文档中的位置
5.文档频率(Document Frequency),记录每个词出现在多少个文档中,计算IDF的基础
6.Stopword List,对检索贡献不大的词可以预先存储在停用词列表中,方便再检索和查询时忽略
7.元数据(Metadata),如作者、日期、标题等,这些信息可以用于更加复杂的查询和结果排序
8.短语索引(Phrase Indexing),预先识别并索引常见的短语,可以加快短语查询的速度
9.连接分析信息(Link Analysis Information),如PageRank等,用于评估文档的权威性和重要性
10.Cached Popular Queries, 对于频繁的查询,可以缓存器结果以加快相应速度

3. 请说明衡量搜索引擎、问答系统、推荐系统的性能的常用指标都有哪些?尽可能全面,并概要说明衡量指标的计算方法。

1
2
3
搜索引擎常用的衡量指标有准确率、召回率、F1分数、平均精度均值、归一化折损累计增益nDCG。准确率是指检索到的相关文档数与检索到的文档总数之比,召回率是指检索到的相关文档数与所有相关文档总数之比。F1分数是准确率和召回率的调和平均数,用于综合衡量搜索引擎的性能。MAP是每个查询的准确率-召回率曲线下的面积的平均值,用于评估搜索引擎在不同查询上的性能。nDCG是评估搜索引擎结果列表的排序质量的指标,考虑了结果的相关性和位置。
问答系统常用的衡量指标有准确率、精确匹配度、BLEU分数、ROUGE分数。准确率是指问答系统正确回答的问题数与所有回答的问题总数之比。精确匹配率是指系统给出的答案与标准答案完全相同的问题数与所有问题的比例。BLEU是一种评估机器翻译质量的指标,也常用于问答系统,它衡量系统生成的答案与参考答案之间的重叠度。ROUGE是另一种用于评估自动文摘和问答系统性能的指标,它基于召回率来衡量系统生成的答案与参考答案之间的重叠度。
推荐系统常用的衡量指标有准确率和召回率、平均倒数排名、归一化折损累计增益、覆盖率、新颖性。准确率和召回率与搜索引擎类似,衡量推荐的项目中相关项目的比例和找到的相关项目的比例。MRR衡量推荐列表中第一个相关项目的排名的倒数。nDCG衡量推荐列表的排序质量。覆盖率是指推荐系统能够推荐的长尾项目的比例,衡量推荐系统的多样性和创新能力。新颖性是指推荐的项目对用户来说是新的比例。

4. 请比较链接分析算法PageRank、HITS、TrustRank的原理和计算方法的异同点,并为这些算法各设想2个除检索排序外的应用场景。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
PageRank基于这样一个假设,一个网页被越多的其他网页链接,说明这个网页越重要。此外,来自重要网页的链接比来自不重要网页的链接更有价值。计算方法如下:
初始化:所有网页的PageRank值被设定为相同的值
迭代过程:在每次迭代中,每个网页将其当前的PageRank值平均分配给所有它链接到的网页。
游走模型:用户在浏览网页时,既可能按照链接浏览,也可能随机跳转到任意网页。
遍历结束:当PageRank值的分布收敛时,迭代结束。
HITS算法分别计算每个网页的权威性和枢纽性,权威性高的网页被许多其他网页链接,而枢纽性高的网页则连接到许多权威性高的网页。计算方法:
初始化:所有网页的权威性和枢纽值被设定为相同的值。
迭代过程:在每次迭代中,权威性值根据指向它的网页的枢纽性值更新,枢纽性值根据它指向的权威性值更新。
归一化:为了避免值无限增长,每次迭代后需要对权威性和枢纽性值进行归一化处理。
收敛:当权威性和枢纽性值的分布稳定时,迭代结束。
TrustRank结合PageRank和人工判断,它首先由一组种子网页(被认为可靠和权威的网页)开始,然后通过链接关系传播信任值到其他网页。计算方法:
选择种子网页:专家或用户评定一组权威的种子网页。
信任传播:使用类似PageRank的方法,但仅限于种子网页及其链接的网页,传播信任值
收敛:当信任值分布稳定时,迭代结束
这些算法相同点在于都是基于图论,使用链接分析来确定网页的重要性,都采用了迭代算法来计算网页的排名或分数,都可能受到链接欺骗的影响。不同点在于PageRank和HITs是自底向上的方法,而TrustRank结合了人工判断和自顶向下的方法。HITS区分了权威性和枢纽性,TrustRank通过限制信任传播的范围来提高算法的准确性。
除了检索排序外,PageRank可以用于社交网络分析、学术文献引用分析。HITS可以用于网络社区发现、电子商务推荐,TrustRank可以用于垃圾邮件过滤、社交媒体平台。

5. BM25模型、语言模型对TF、IDF及文档长度的利用与经典VSM模型有何不同?请做下对比分析。

1
2
在经典的向量空间模型VSM中,文档和查询通常被表示为TF-IDF向量。TF-IDF是一种统计方法,用于评估一个词对于一个文档集或一个语料库中的其中一个文档的重要程度。在VSM中,TF通常被用来表示词在文档中的重要性,频率越高,认为词越重要。IDF用于降低常见词的权重,增加罕见词的权重。文档长度的影响通常通过文档长度的归一化来处理,比如使用文档的欧氏长度或余弦长度来进行归一化,以减少长文档对词权重的不当影响。
BM25是一种常用于信息检索的排名函数,它对TF、IDF和文档长度的处理方式与VSM有所不同,BM25使用一种改进的TF计算方法,它考虑了词频和文档长度的关系,通过一个公式来平滑高频词的权重,使得词频对权重的增加变得不那么剧烈。BM25中的IDF也略有不同,它使用了对数函数来计算IDF,并且有一个可调节的参数k1,可以用来控制TF的饱和度。BM25通过一个参数b来控制文档长度对权重的影响,这个参数允许文档长度的归一化更加灵活,更好地适应不同的文档集合。语言模型通常不直接使用TF和IDF的概念。它们通过训练来学习词的分布和上下文关系,因此它们考虑的是词的语义和上下文信息,而不是简单的统计信息。对于文档长度,语言模型通常能够处理不同长度的输入,因为它们设计用来处理变长的序列数据。模型内部机制(如注意力机制)可以帮助模型聚焦于重要的部分,而不仅仅是统计词频。

6. 请说明主题模型的训练和推理过程,并设想主题模型的2个应用场景。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
主题模型的训练过程包括
预处理:将文档集合进行预处理,包括分词、去除停用词、词干提取(stemming)或词形还原(lemmatization)等。
构建词袋模型:将每个文档表示为一个向量,其中每个元素对应于词汇表中的一个词,而元素的值是该词在文档中的频率。
初始化参数:为每个文档和每个主题分配随机的词分布(θ)和词-主题分布(β)。
吉布斯采样或变分推断:
吉布斯采样:通过迭代采样过程来更新文档中的词分配给主题的概率。
变分推断:使用变分方法来近似后验分布,优化文档-主题分布和词-主题分布的参数。
收敛判断:重复上述步骤直到模型收敛,即文档和词的分布变化小于某个阈值。
输出模型:最终得到的模型包括每个文档的主题分布和每个主题的词分布。
推理过程
输入新文档:对新的文档进行相同的预处理步骤。
计算主题分布:使用训练好的模型来计算新文档的主题分布。这通常通过推断新文档中每个词最可能属于哪个主题来完成。
生成主题表示:根据主题分布,选择最可能的主题或主题组合来表示文档。
输出结果:根据应用需求,输出可能是一个主题标签、主题列表或主题分布。
主题模型可以应用于文本分类和聚类,推荐系统和个性化搜索。

7. 为什么固定窗口长度的简单神经语言模型无法解决数据稀疏问题?

1
固定窗口长度的模型只能考虑窗口内的词来预测当前词,这限制了模型捕捉长距离依赖和深层次上下文关系的能力。在长文本中,重要的上下文信息可能超出了固定窗口的范围,导致模型无法充分利用这些信息。固定窗口长度的模型通常使用词袋模型来表示文本,这意味着模型的输入和输出空间都与词汇表的大小成线性关系。对于大型语料库,词汇表可能非常大,导致模型参数数量激增,增加了过拟合的风险,同时使得模型难以学习到每个词的精确表示。在固定窗口模型中,大多数词对的共现次数为零,这导致模型在训练过程中产生大量的稀疏梯度。稀疏梯度使得模型训练效率低下,因为许多参数更新是无效的,无法有效学习词之间的关联。固定窗口模型在训练时往往只能看到有限的上下文,这限制了模型的泛化能力。在遇到训练数据中未出现的词对或上下文时,模型可能无法做出准确的预测。

8. 什么是自注意力(self-attention)机制?请分析Transformer结构的特点以及带来的好处。

1
2
3
4
5
6
7
8
9
自注意力(Self-Attention)机制是一种在序列处理任务中用于捕捉序列内部各个元素之间关系的机制。它允许模型在处理一个序列(如一个句子)中的每个元素时,同时考虑序列中的所有其他元素,而不仅仅是相邻的元素或一个固定大小的上下文窗口。自注意力机制在Transformer模型中得到了广泛应用,并且是Transformer的核心组成部分。
自注意力机制通过以下步骤计算一个序列中每个元素的表示:
查询(Query)、键(Key)和值(Value)的计算:对于序列中的每个元素,通过矩阵变换得到其对应的查询向量、键向量和值向量。相似度计算:计算序列中每个元素的查询向量与其他所有元素的键向量之间的相似度,这通常使用点积来实现。权重分配:将计算出的相似度通过softmax函数转换为概率形式,称为注意力权重。加权求和:用注意力权重对值向量进行加权求和,得到加权后的值表示。输出合成:最后,将加权求和的结果通过另一个线性变换,得到该位置的最终输出表示。
Transformer结构的主要特点包括:
自注意力层:Transformer使用自注意力机制来捕捉序列内部的长距离依赖关系。
多头注意力:Transformer采用多头注意力机制,将输入分割成多个头,每个头关注不同的信息,然后将这些头的输出合并起来,以获得更丰富的表示。
位置编码:由于Transformer不包含循环或卷积结构,因此它无法直接捕捉序列中的位置信息。为了解决这个问题,Transformer在自注意力层之前加入了位置编码,将位置信息注入到输入序列中。
前馈神经网络:在自注意力层之后,Transformer使用前馈神经网络来对每个位置的表示进行进一步的非线性变换。
残差连接和层归一化:Transformer在自注意力层和前馈神经网络层之间使用残差连接,并应用层归一化技术,这有助于模型训练的稳定性和性能。

9. 请对比分析RNN、LSTM、GRU及Transformer在文本表征能力、计算效率、处理数据稀疏性及长句子等方面各有什么优缺点。

1
2
3
4
5
6
7
8
9
10
11
12
在文本表征能力方面
RNN优点:能够处理变长序列数据,具有一定的上下文学习能力。缺点:由于梯度消失和梯度爆炸问题,难以捕捉长距离依赖。LSTM优点:通过引入门控机制,能够更好地捕捉长距离依赖。
缺点:参数数量多,模型复杂,难以训练。GRU优点:结合了LSTM的优点,但参数更少,更容易训练。
缺点:在某些任务上可能不如LSTM表现好。Transformer优点:自注意力机制能够同时考虑序列中的所有元素,有效捕捉长距离依赖和复杂的上下文关系。
缺点:原始Transformer缺乏对序列顺序的内在理解,需要位置编码来补充。
在计算效率方面
RNN优点:模型简单,计算成本低。
缺点:无法并行计算,因为后续输出依赖于前一个输出。LSTM优点:与RNN相比,计算成本略高,但能有效捕捉长距离依赖。缺点:同样无法并行计算,因为存在序列依赖。GRU优点:计算成本低于LSTM,效率更高。缺点:同样无法并行计算。Transformer优点:可以并行计算,特别是在使用GPU和TPU时,计算效率极高。缺点:模型复杂,初始训练成本较高。
在处理数据稀疏性
RNN优点:可以通过共享参数来处理不同长度的序列。缺点:对于稀疏数据,可能无法有效学习到重要的信息。LSTM优点:门控机制有助于模型专注于重要的信息,减少稀疏性问题。缺点:对于极其稀疏的数据,模型效果可能依然不佳。GRU优点:门控机制有助于处理稀疏数据。缺点:对于极其稀疏的数据,效果可能有限。Transformer优点:多头注意力机制有助于聚焦于重要信息,减少稀疏性问题。缺点:对于极其稀疏的数据,可能需要大量的训练数据和计算资源。
在长句子处理方面上
RNN优点:理论上可以处理任意长度的句子。缺点:实际中,长句子会导致梯度消失和梯度爆炸问题,影响模型性能。LSTM优点:比RNN更擅长处理长句子,能够捕捉长期依赖。缺点:长句子会导致训练时间增加,且可能需要更多的内存资源。GRU优点:比RNN更有效地处理长句子,捕捉长期依赖。缺点:长句子可能导致训练难度增加。Transformer优点:能够有效处理长句子,不受梯度消失和梯度爆炸问题的影响。缺点:长句子可能需要更多的内存和计算资源。

信息检索与Web挖掘第一次思考题
https://jetthuang.top/所有/信息检索与Web挖掘第一次思考题/
作者
Jett Huang
发布于
2024年6月20日
许可协议