研究生课程：现代信息检索-第15讲基于深度神经网络的IR模型

《现代信息检索》课程笔记：第15讲基于深度神经网络的IR模型

第15讲基于深度神经网络的IR模型

深度神经网络基础

最简单的神经网络-神经元

激活函数：主要作用是引入非线性，增强网络的表示能力。

最简单的多层神经网络-多层感知机

Softmax归一化是在使用神经网络进行分类时常用的方法，对于分类问题，通常需要给出可能属于每一个类别的概率，即需要输出介于 0 和 1 之间，且加和为 1

参数的学习

正则化

卷积神经网络

循环神经网络

Neural IR Model

Neural IR 模型分类

Representation based：学习文本的分布式表示在高维空间匹配

词表示：one hot → distributed
句子表示：bag of words → distributed
匹配能力取决于学习文本表示的算法能力
代表模型：DSSM, CDSSM

Matching function：文本之间先进行交互匹配，再对匹配信号进行融合

输入：比较底层的输入
匹配函数：cosine, dot product → NN
优点：可以考虑更加丰富的匹配信号，如软匹配 (soft matching)
代表模型：MatchPyramid , DRMM, K NRM, PACRR, NPRF

Combination of both: 既考虑 Representation 又考虑 Matching function

代表模型：Duet

DSSM：Deep Structured Semantic Models

word hashing: Bag of letter trigrams representation

模型：DNN学习查询，文本的语义表示， cosine相似度作为匹配评分

MatchPyramid：

考虑各种层次的匹配信号，包括单词层次、短语层次以及句子层次等等；

在图像领域，基于 CNN 特征提取的图像金字塔被证明是有效的

DRMM：相比普通的文本匹配任务，检索任务更需要关注相关性匹配

通过显式地对精确匹配信号，查询词重要度以及多样匹配要求进行建模，得到的模型更加适合于检索任务。

DRMM是第一个在 TREC 数据集能够取得比传统检索模型更好效果的基于 DNN 模型

DRMM的设计思路在一定程度上借鉴了传统的 TF-IDF

K-NRM：使用kernel pooling 技术提取多层次的软匹配 (soft match)特征

PACRR：通过将具有不同大小(k= lg 卷积核的卷积层作用于查询与文档间的单词-单词相似度矩阵，来对 k gram 匹配信息进行建模。

DUET：Representation与Matching function 的方法是互补的

SNRM：监督学习得到文本稀疏表示，解决效率问题

NPRF：将反馈文档视为原始查询的扩充表示，通过增强与查询相关的信息匹配信号获得更好的交互矩阵

总结与展望

基于DNN 的检索模型的研究虽然目前取得了一定的成果，但还有许多问题没有解决
- 尚未得到明显优于传统模型（如BM25+QE ）的结果
- 很多论文回避了与传统PRF 模型的比较
CNN、统计直方图：有用； RNN ：没有效果
长文本IR 应用中往往 DNN 方法效果有限
但是在商品推荐、基于title 的检索、 microblog retrieval 等短文本应用中效果不错
通过CNN 等方法提取的特征 Vs 基于信息理论进行概率估计得到的特征
很多在NLP 领域证明非常有效的方法，在 IR 领域尚未发挥威力

BERT

基于BERT的检索模型

稠密向量检索模型

直接改变了原有第一阶段的检索模式，通过BERT等预训练语言模型，将查询和文档都映射到语义空间中，编码成单个稠密向量表示，用ANN 算法来进行检索。在一定程度上缓解了词汇不匹配问题，并将检索阶段的匹配效果推到了一个新的台阶

模型框架：一般采用双塔结构对查询和文档单独地编码得到二者独立的表达，从而使文档可以进行离线索引。

RepBERT：平均词项表示作为文档的单个向量

ANCE：利用k-1的模型来检索得到top-n文档并随机采样负样本，每隔一段时间都需要对训练数据中的负样本进行更新，因此该方法的训练代价较大。

RocketQA：与ANCE相比，做了额外的denoised操作；

TCT-ColBERT：通过蒸馏技术，将ColBERT的强建模能力蒸馏到类似于RepBERT这样的双塔架构上去

Condenser：为了将更完整的序列信息压缩到CLS 位置上

DAR：通过插值、扰动的方式在文档表示层面进行数据增强

JPQ：除了直接采用乘积量化（Product Quantization, PQ ）方法来压缩向量外，将乘积量化后的文档d†表示用于模型训练，通过排序排序训练目标来优化 PQ 的聚类中心表示

Study

#Postgraduate #UCAS #Information Retrieval

研究生课程：现代信息检索-第15讲基于深度神经网络的IR模型

https://zhangzhao219.github.io/2022/10/17/UCAS/information-retrieval/information-retrieval-15/

作者

Zhang Zhao

发布于

2022年10月17日

许可协议

研究生课程：机器学习-第10章神经网络与深度学习上一篇

研究生课程：现代信息检索-第15讲 基于深度神经网络的IR模型

第15讲 基于深度神经网络的IR模型

深度神经网络基础

Neural IR Model

BERT

研究生课程：现代信息检索-第15讲基于深度神经网络的IR模型

第15讲基于深度神经网络的IR模型