Thèse Année : 2023

Towards efficient, general and robust entity disambiguation systems

Vers des systèmes de désambiguïsation d'entités efficaces, généraux et robustes

Résumé

Entity disambiguation aims to map mentions in documents to standard entities in a given knowledge base, which is important for various applications such as information extraction, Web search and question answering.Although the field is very vibrant with many novel works popping up, there are three questions that are underexplored by prior work.1) Can we use a small model to approach the performance of a big model?2) How to develop a single disambiguation system adapted to multiple domains?3) Are existing systems robust to out-of-vocabulary words and different word orderings?Based on the three questions, we explore how to construct an efficient, general and robust entity disambiguation system. We also successfully apply entity disambiguation to the knowledge base completion task, especially for the long-tail entities.
La désambiguïsation des entités vise à faire correspondre les mentions dans les documents à des entités standard dans une base de connaissances donnée, ce qui est important pour diverses applications telles que l'extraction d'informations, la recherche sur le web et la réponse aux questions.Bien que le domaine soit très dynamique et que de nombreux travaux nouveaux apparaissent, trois questions sont sous-explorées par les travaux antérieurs.1) Peut-on utiliser un petit modèle pour approcher les performances d'un grand modèle ?2) Comment développer un système de désambiguïsation unique adapté à plusieurs domaines ?3) Les systèmes existants sont-ils robustes aux mots hors-vocabulaire et aux différents ordres de mots ?Sur la base de ces trois questions, nous étudions comment construire un système de désambiguïsation d'entités efficace, général et robuste. Nous appliquons également avec succès la désambiguïsation d'entités à la tâche d'achèvement de la base de connaissances, en particulier pour les entités à longue traîne.
Fichier principal
Vignette du fichier
120417_CHEN_2023_archivage.pdf (3.62 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04190587 , version 1 (29-08-2023)

Identifiants

  • HAL Id : tel-04190587 , version 1

Citer

Lihu Chen. Towards efficient, general and robust entity disambiguation systems. Computation and Language [cs.CL]. Institut Polytechnique de Paris, 2023. English. ⟨NNT : 2023IPPAT017⟩. ⟨tel-04190587⟩
313 Consultations
159 Téléchargements

Partager

More