Contribution to natural language generation : systems and evaluation - École polytechnique Accéder directement au contenu
Thèse Année : 2022

Contribution to natural language generation : systems and evaluation

Contribution à la génération de langage naturel : systèmes et évaluation

Résumé

In recent years, the Natural Language Generation (NLG) field has changed drastically. This shift, which can be partially attributed to the notable advance in hardware, led to recent efforts in NLG to be focused on data-driven methods leveraging large pretrained Neural Networks (NNs). However, this progress gave rise to new challenges related to computational requirements, accessibility, and evaluation strategies, to name a few. In this dissertation, we are primarily concerned with contributing to the efforts to mitigate these challenges.To address the lack of monolingual generative models for some languages, we start by introducing BARThez and AraBART, the first large-scale pretrained seq2seq models for French and Arabic, respectively. Being based on BART, these models are particularly well-suited for generative tasks. We evaluate BARThez on five discriminative tasks from the FLUE benchmark and two generative tasks from a novel summarization dataset, OrangeSum, that we created for this research. We show BARThez to be very competitive with state-of-the-art BERT-based French language models such as CamemBERT and FlauBERT. We also continue the pretraining of a multilingual BART on BARThez' corpus, and show our resulting model, mBARThez, to significantly boost BARThez' generative performance. On the other hand, We show that AraBART achieves the best performance on multiple abstractive summarization datasets, outperforming strong baselines.Finally, we focus on the NLG system evaluation by proposing DATScore and FrugalScore. DATScore uses data augmentation techniques to improve the evaluation of machine translation and other NLG tasks. Our main finding is that introducing data augmented translations of the source and reference texts is greatly helpful in evaluating the quality of the generated translation. We also propose two novel score averaging and term weighting strategies to improve the original score computing process of BARTScore. Experimental results on WMT show that DATScore correlates better with human meta-evaluations than the other recent state-of-the-art metrics, especially for low-resource languages. On the other hand, FrugalScore is an approach to learn a fixed, low-cost version of any expensive NLG metric while retaining most of its original performance. Experiments with BERTScore and MoverScore on summarization and translation show that FrugalScore is on par with the original metrics (and sometimes better), while having several orders of magnitude fewer parameters and running several times faster. On average overall learned metrics, tasks, and variants, FrugalScore retains 96.8% of the performance, runs 24 times faster, and has 35 times fewer parameters than the original metrics.
Ces dernières années, le domaine de la génération du langage naturel (GLN) a radicalement changé. Ce changement, qui peut être en partie attribué à l'avancée notable du matériel, a conduit les récents efforts du GLN à se concentrer sur des méthodes basées sur les données tirant parti de grands réseaux de neurones pré-entraînés. Cependant, ces progrès ont donné lieu à de nouveaux défis liés aux exigences de calcul, à l'accessibilité et aux stratégies d'évaluation, pour n'en nommer que quelques-uns. Dans cette thèse, nous nous intéressons principalement à contribuer aux efforts visant à atténuer ces défis.Pour remédier au manque de modèles génératifs monolingues pour certaines langues, nous commençons par présenter BARThez et AraBART, les premiers modèles seq2seq pré-entraînés à grande échelle pour le Français et l'Arabe, respectivement. Basés sur BART, ces modèles sont particulièrement bien adaptés aux tâches génératives. Nous évaluons BARThez sur cinq tâches discriminantes du benchmark FLUE et deux tâches génératives d'un nouvel ensemble de données de résumé, OrangeSum, que nous avons créé pour cette recherche. Nous montrons que BARThez est très compétitif avec les modèles de langue française basés sur BERT tels que CamemBERT et FlauBERT. Nous poursuivons également le pré-entraînement d'un BART multilingue sur le corpus de BARThez, et montrons que notre modèle résultant, mBARThez, améliore considérablement les performances génératives de BARThez. D'autre part, nous montrons qu'AraBART obtient les meilleures performances sur plusieurs ensembles de données de résumé abstractif, surpassant des bases de référence solides.Enfin, nous nous concentrons sur l'évaluation des systèmes GLN en proposant DATScore et FrugalScore. DATScore utilise des techniques d'augmentation des données pour améliorer l'évaluation de la traduction automatique et d'autres tâches GLN. Notre principale conclusion est que l'introduction de traductions enrichies de données des textes source et de référence est très utile pour évaluer la qualité de la traduction générée. Nous proposons également deux nouvelles stratégies de calcul de la moyenne des scores et de pondération des termes pour améliorer le processus original de calcul des scores de BARTScore. Les résultats expérimentaux sur WMT montrent que DATScore est mieux corrélé avec les méta-évaluations humaines que les autres métriques récentes de l'état de l'art, en particulier pour les langues à faibles ressources. D'autre part, FrugalScore est une approche pour apprendre une version fixe et peu coûteuse de toute métrique GLN coûteuse tout en conservant la plupart de ses performances d'origine. Des expériences avec BERTScore et MoverScore sur sur le résumé et la traduction montrent que FrugalScore est comparable avec les métriques d'origine (et parfois mieux), tout en ayant plusieurs ordres de grandeur de moins de paramètres et en s'exécutant plusieurs fois plus rapidement. En moyenne, sur l'ensemble des métriques, tâches et variantes apprises, FrugalScore conserve 96,8% des performances, s'exécute 24 fois plus rapidement et comporte 35 fois moins deparamètres que les métriques d'origine.
Fichier principal
Vignette du fichier
122682_KAMAL_EDDINE_2022_archivage.pdf (839.66 Ko) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04106773 , version 1 (25-05-2023)

Identifiants

  • HAL Id : tel-04106773 , version 1

Citer

Moussa Kamal Eddine. Contribution to natural language generation : systems and evaluation. Computer science. Institut Polytechnique de Paris, 2022. English. ⟨NNT : 2022IPPAX143⟩. ⟨tel-04106773⟩
82 Consultations
209 Téléchargements

Partager

Gmail Facebook X LinkedIn More