研究生课程:现代信息检索-第15讲 基于深度神经网络的IR模型
《现代信息检索》课程笔记:第15讲 基于深度神经网络的IR模型
第15讲 基于深度神经网络的IR模型
深度神经网络基础
最简单的神经网络-神经元
激活函数:主要作用是引入非线性,增强网络的表示能力。
最简单的多层神经网络-多层感知机
Softmax归一化是在使用神经网络进行分类时常用的方法,对于分类问题,通常需要给出可能属于每一个类别的概率,即需要输出介于 0 和 1 之间,且加和为 1
参数的学习
正则化
卷积神经网络
循环神经网络
Neural IR Model
Neural IR 模型分类
Representation based:学习文本的分布式表示 在高维空间匹配
- 词表示:one hot → distributed
- 句子表示:bag of words → distributed
- 匹配能力取决于学习文本表示的算法能力
- 代表模型:DSSM, CDSSM
Matching function:文本之间先进行交互匹配,再对匹配信号进行融合
- 输入:比较底层的输入
- 匹配函数:cosine, dot product → NN
- 优点:可以考虑更加丰富的匹配信号, 如软匹配 (soft matching)
- 代表模型:MatchPyramid , DRMM, K NRM, PACRR, NPRF
Combination of both: 既考虑 Representation 又考虑 Matching function
- 代表模型:Duet
DSSM:Deep Structured Semantic Models
word hashing: Bag of letter trigrams representation
模型:DNN学习查询,文本的语义表示, cosine相似度作为匹配评分
MatchPyramid:
考虑各种层次的匹配信号,包括单词层次、短语层次以及句子层次等等;
在图像领域,基于 CNN 特征提取的图像金字塔被证明是有效的
DRMM:相比普通的文本匹配任务,检索任务更需要关注相关性匹配
通过显式地对精确匹配信号,查询词重要度以及多样匹配要求进行建模,得到的模型更加适合于检索任务。
DRMM是第一个在 TREC 数据集能够取得比传统检索模型更好效果的基于 DNN 模型
DRMM的设计思路在一定程度上借鉴了传统的 TF-IDF
K-NRM:使用kernel pooling 技术提取多层次的软匹配 (soft match)特征
PACRR:通过将具有不同大小(k= lg 卷积核的卷积层作用于查询与文档间的单词-单词相似度矩阵,来对 k gram 匹配信息进行建模。
DUET:Representation与Matching function 的方法是互补的
SNRM:监督学习得到文本稀疏表示,解决效率问题
NPRF:将反馈文档视为原始查询的扩充表示,通过增强与查询相关的信息匹配信号获得更好的交互矩阵
总结与展望
- 基于DNN 的检索模型的研究虽然目前取得了一定的成果,但还有许多问题没有解决
- 尚未得到明显优于传统模型(如BM25+QE )的结果
- 很多论文回避了与传统PRF 模型的比较
- CNN、统计直方图:有用; RNN :没有效果
- 长文本IR 应用中往往 DNN 方法效果有限
- 但是在商品推荐、基于title 的检索、 microblog retrieval 等短文本应用中效果不错
- 通过CNN 等方法提取的特征 Vs 基于信息理论进行概率估计得到的特征
- 很多在NLP 领域证明非常有效的方法,在 IR 领域尚未发挥威力
BERT
基于BERT的检索模型
稠密向量检索模型
直接改变了原有第一阶段的检索模式,通过BERT等预训练语言模型,将查询和文档都映射到语义空间中,编码成单个稠密向量表示,用ANN 算法来进行检索。在一定程度上缓解了词汇不匹配问题,并将检索阶段的匹配效果推到了一个新的台阶
模型框架:一般采用双塔结构对查询和文档单独地编码得到二者独立的表达,从而使文档可以进行离线索引。
RepBERT:平均词项表示作为文档的单个向量
ANCE:利用k-1的模型来检索得到top-n文档并随机采样负样本,每隔一段时间都需要对训练数据中的负样本进行更新,因此该方法的训练代价较大。
RocketQA:与ANCE相比,做了额外的denoised操作;
TCT-ColBERT:通过蒸馏技术,将ColBERT的强建模能力蒸馏到类似于RepBERT这样的双塔架构上去
Condenser:为了将更完整的序列信息压缩到CLS 位置上
DAR:通过插值、扰动的方式在文档表示层面进行数据增强
JPQ:除了直接采用乘积量化(Product Quantization, PQ )方法来压缩向量外,将乘积量化后的文档d†表示用于模型训练,通过排序排序训练目标来优化 PQ 的聚类中心表示