Deep learning for information retrieval : studying relevant signals for ad hoc search based on transformer models - Gestion des Données Accéder directement au contenu
Thèse Année : 2022

Deep learning for information retrieval : studying relevant signals for ad hoc search based on transformer models

Deep Learning pour la recherche d'information : étudier les signaux pertinents pour la recherche ad hoc basée sur les modèles de transformers

Résumé

In the past decade, supervised deep learning models have yielded substantial improvements to many Natural Language Processing (NLP) tasks. Deep neural networks have been used to learn continuous vector representations of text capable of modeling semantics. Several deep learning models were proposed to take advantage of semantic matching, often adapted from those designed for NLP tasks, to meet different Information Retrieval (IR) tasks such as ad~hoc search. However, improvements in IR tasks lagged behind those in similar NLP tasks, despite considerable efforts from the community. Although there are various contributing factors, a critical reason for this ``failure'' comes from the unique characteristics of the ranking task in IR, particularly when compared to the tasks of text matching in NLP. Indeed, in IR, through query-document matching, we try to model the relevance of the document w.r.t the query, i.e., the adequacy of the document's content with respect to the information need formulated in the query. We do not try to calculate the semantic similarity between a few words of the query and a document that may contain tens or even thousands of words. However, this is precisely what most neural models achieve in NLP tasks, learning representations to match two texts. Recently, Pre-trained Language Models (PLMs), of which BERT is the most known instance, are capable of learning representations of words in context and have achieved state-of-the-art results in ad~hoc search with substantial performance leaps. Although PLM-based ranking models are also adapted from similar sentence-matching tasks in NLP, they have proven to be highly effective as opposed to previous attempts. This success can be owed to the heavy pre-training on language modeling objectives and the flexibility of the contextualization process in transformers. Additionally, the availability of large amounts of labeled data for the ranking task enables effective fine-tuning of PLMs. In this thesis, we focus on adapting PLMs to the specific task of ad~hoc ranking. We explore different research directions for building better ranking models: (1) exploring the impact of integrating the traditional exact matching intuition on the ranking effectiveness of PLMs; (2) investigating the role of the contextualization process for ranking to gain insights into what is important for ranking which could motivate more efficient ranking-specific redesigns of PLMs. Regarding the first direction, we propose considering a traditional intuition important for ranking: exact matching, which has been used in IR for decades until very recently in the design of pre-BERT neural models. Instead of building larger neural models or improving their supervision, we take a different path forward by integrating knowledge in the field of IR. We propose a simple yet effective marking strategy that emphasizes exact term matches between the query and the document at the input level by strategically introducing special marker tokens. This approach takes advantage of the flexibility of the transformer architecture in PLMs to integrate additional task-specific intuitions to improve their effectiveness. For the second direction, we explore the contextualization process in PLMs for soft matching in the context of ranking. Because this same contextualization process performed by transformers in PLMs can perform different downstream tasks effectively, we investigate if it can be constrained to a simpler process for the ranking task. We propose distillation from a PLM into simpler carefully-designed modules based on static embeddings and information bottlenecks to analyze the role of the contextualization process for ranking. While the previous research direction integrates more signals into the contextualization process of PLMs (increase effectiveness), the later direction constrains the signals in this process to only what is necessary for ranking (better efficiency/effectiveness trade-offs).
Au cours de la dernière décennie, les modèles neuronaux profonds ont amélioré substantiellement plusieurs tâches de Traitement Automatique des Langues (TAL). Ces réseaux ont été utilisés pour apprendre des représentations vectorielles continues du texte, capables de modéliser leur sémantique. Plusieurs modèles neuronaux ont ainsi été adaptés de ceux conçus pour les tâches de TAL afin de répondre à différentes tâches de Recherche d'Informations (RI) telles que la recherche ad~hoc. Cependant, les améliorations en RI sont restées à la traîne par rapport à des tâches similaires en TAL malgré les efforts de la communauté. Une des raisons de cet "échec" provient des caractéristiques uniques de la tâche de recherche en RI, en particulier, lorsqu'on la compare aux tâches d'appariement de textes en TAL. En effet, en RI, à travers l'appariement document-requête on cherche à modéliser la pertinence du document vis-à-vis d'une requête. On ne cherche pas à calculer la proximité sémantique entre les mots de la requête et du document. Or, c'est précisément, ce que réalise la majorité des modèles neuronaux dans les tâches de TAL. Récemment, les Modèles de Langue Pré-entraînés (MLPs), dont BERT est l'exemple le plus célèbre, qui sont capables d'apprendre des représentations de mots dans leurs contextes, ont obtenu des résultats de pointe dans la recherche ad~hoc avec de larges marges de performance. Bien que les modèles de recherche basés sur les MLPs soient également adaptés de tâches similaires d'appariement de phrases en TAL, ils se sont avérés efficaces contrairement aux tentatives précédentes. Ce succès sans précédent peut être attribué à la grande quantité de pré-entrainement sur des objectifs de modélisation du langage, et à la flexibilité du processus de contextualisation dans les transformers. Mais aussi au fine-tuning sur de larges quantités de données labellisées disponibles publiquement pour la tâche de recherche. Dans cette thèse, nous nous intéressons à l'adaptation des éminents MLPs à la tâche spécifique de la recherche ad~hoc. Nous explorons différentes pistes de recherche pour construire de meilleurs modèles de RI basés : (1) explorer l'impact de l'intégration de l'intuition traditionnelle d'appariement exact sur l'efficacité des MLPs pour la recherche ad~hoc ; (2) étudier le rôle du processus de contextualisation pour la recherche ad~hoc afin de mieux comprendre ce qui est important pour cette tâche, ce qui pourrait motiver des reconceptions plus efficaces des MLPs spécifiques à la RI. En premier, nous proposons de considérer l'appariement exact qui est une intuition traditionnelle importante pour la recherche ad~hoc et qui a été utilisée en RI pendant des décennies jusqu'à très récemment dans les modèles neuronaux pré-BERT. Au lieu de construire des modèles neuronaux plus grands ou d'améliorer leur supervision, nous prenons une voie différente en intégrant des connaissances du domaine de la RI. Nous proposons une stratégie de marquage simple mais efficace qui met l'accent sur les term qui sont en commun entre la requête et le document, au niveau de l'entrée en introduisant stratégiquement des marqueurs spéciaux. Ensuite, nous explorons le processus de contextualisation dans les MLPs pour l'appariement semantic dans le contexte de la recherche ad~hoc. Puisque ce même processus de contextualisation est capable d'effectuer efficacement différentes tâches en aval, nous étudions s'il peut être contraint à un processus plus simple pour la tâche de recherche. Pour ce faire, nous proposons la distillation de MLPs dans des modules plus simples et soigneusement conçus, basés sur des embeddings statiques et des goulots d'étranglement d'information, afin d'analyser le rôle du processus de contextualisation pour la tâche de recherche.
Fichier principal
Vignette du fichier
2022TOU30188a.pdf (4.12 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03969050 , version 1 (02-02-2023)

Identifiants

  • HAL Id : tel-03969050 , version 1

Citer

Lila Boualili. Deep learning for information retrieval : studying relevant signals for ad hoc search based on transformer models. Library and information sciences. Université Paul Sabatier - Toulouse III, 2022. English. ⟨NNT : 2022TOU30188⟩. ⟨tel-03969050⟩
201 Consultations
194 Téléchargements

Partager

Gmail Facebook X LinkedIn More