研究生课程:现代信息检索-第15讲 基于深度神经网络的IR模型

《现代信息检索》课程笔记:第15讲 基于深度神经网络的IR模型

第15讲 基于深度神经网络的IR模型

深度神经网络基础

最简单的神经网络-神经元

激活函数:主要作用是引入非线性,增强网络的表示能力。

最简单的多层神经网络-多层感知机

Softmax归一化是在使用神经网络进行分类时常用的方法,对于分类问题,通常需要给出可能属于每一个类别的概率,即需要输出介于 0 和 1 之间,且加和为 1

参数的学习

正则化

卷积神经网络

循环神经网络

Neural IR Model

Neural IR 模型分类

Representation based:学习文本的分布式表示 在高维空间匹配

  • 词表示:one hot → distributed
  • 句子表示:bag of words → distributed
  • 匹配能力取决于学习文本表示的算法能力
  • 代表模型:DSSM, CDSSM

Matching function:文本之间先进行交互匹配,再对匹配信号进行融合

  • 输入:比较底层的输入
  • 匹配函数:cosine, dot product → NN
  • 优点:可以考虑更加丰富的匹配信号, 如软匹配 (soft matching)
  • 代表模型:MatchPyramid , DRMM, K NRM, PACRR, NPRF

Combination of both: 既考虑 Representation 又考虑 Matching function

  • 代表模型:Duet

DSSM:Deep Structured Semantic Models

word hashing: Bag of letter trigrams representation

模型:DNN学习查询,文本的语义表示, cosine相似度作为匹配评分

MatchPyramid:

考虑各种层次的匹配信号,包括单词层次、短语层次以及句子层次等等;

在图像领域,基于 CNN 特征提取的图像金字塔被证明是有效的

DRMM:相比普通的文本匹配任务,检索任务更需要关注相关性匹配

通过显式地对精确匹配信号,查询词重要度以及多样匹配要求进行建模,得到的模型更加适合于检索任务。

DRMM是第一个在 TREC 数据集能够取得比传统检索模型更好效果的基于 DNN 模型

DRMM的设计思路在一定程度上借鉴了传统的 TF-IDF

K-NRM:使用kernel pooling 技术提取多层次的软匹配 (soft match)特征

PACRR:通过将具有不同大小(k= lg 卷积核的卷积层作用于查询与文档间的单词-单词相似度矩阵,来对 k gram 匹配信息进行建模。

DUET:Representation与Matching function 的方法是互补的

SNRM:监督学习得到文本稀疏表示,解决效率问题

NPRF:将反馈文档视为原始查询的扩充表示,通过增强与查询相关的信息匹配信号获得更好的交互矩阵

总结与展望

  • 基于DNN 的检索模型的研究虽然目前取得了一定的成果,但还有许多问题没有解决
    • 尚未得到明显优于传统模型(如BM25+QE )的结果
    • 很多论文回避了与传统PRF 模型的比较
  • CNN、统计直方图:有用; RNN :没有效果
  • 长文本IR 应用中往往 DNN 方法效果有限
  • 但是在商品推荐、基于title 的检索、 microblog retrieval 等短文本应用中效果不错
  • 通过CNN 等方法提取的特征 Vs 基于信息理论进行概率估计得到的特征
  • 很多在NLP 领域证明非常有效的方法,在 IR 领域尚未发挥威力

BERT

基于BERT的检索模型

稠密向量检索模型

直接改变了原有第一阶段的检索模式,通过BERT等预训练语言模型,将查询和文档都映射到语义空间中,编码成单个稠密向量表示,用ANN 算法来进行检索。在一定程度上缓解了词汇不匹配问题,并将检索阶段的匹配效果推到了一个新的台阶

模型框架:一般采用双塔结构对查询和文档单独地编码得到二者独立的表达,从而使文档可以进行离线索引。

RepBERT:平均词项表示作为文档的单个向量

ANCE:利用k-1的模型来检索得到top-n文档并随机采样负样本,每隔一段时间都需要对训练数据中的负样本进行更新,因此该方法的训练代价较大。

RocketQA:与ANCE相比,做了额外的denoised操作;

TCT-ColBERT:通过蒸馏技术,将ColBERT的强建模能力蒸馏到类似于RepBERT这样的双塔架构上去

Condenser:为了将更完整的序列信息压缩到CLS 位置上

DAR:通过插值、扰动的方式在文档表示层面进行数据增强

JPQ:除了直接采用乘积量化(Product Quantization, PQ )方法来压缩向量外,将乘积量化后的文档d†表示用于模型训练,通过排序排序训练目标来优化 PQ 的聚类中心表示


研究生课程:现代信息检索-第15讲 基于深度神经网络的IR模型
https://zhangzhao219.github.io/2022/10/17/UCAS/information-retrieval/information-retrieval-15/
作者
Zhang Zhao
发布于
2022年10月17日
许可协议