Revue TAL : (64-2)
Robustesse et limites des modèles de traitement automatique des langues

Revue TAL

La revue TAL (Traitement Automatique des Langues) est une revue internationale éditée depuis 1960 par l’ATALA (Association pour le Traitement Automatique des Langues) avec le concours du CNRS. Elle est maintenant publiée en format électronique, avec accès gratuit immédiat aux articles publiés, et impression annuelle à la demande. Cela ne change aucunement son processus de relecture et de sélection.

La revue a une politique open-access : la soumission, la publication et l'accès aux articles publiés sont gratuits. Les articles publiées seront disponibles sur le site de l'ATALA et sur l'ACL Anthology.

Les articles sont écrits en français ou en anglais.

Appel à contribution : numéro thématique

Les méthodes d'apprentissage automatique ont permis d'atteindre des résultats spectaculaires sur de nombreux jeux de données (*benchmarks*), donnant l'impression que de nombreux problèmes liés au traitement automatique des langues sont "résolus" ou en passe de l'être. Pourtant, la question de la capacité de ces méthodes à être efficaces, voire simplement utilisables, sur différents types de données reste ouverte.

Ce numéro thématique de la revue TAL vise à questionner la robustesse et les limites de ces modèles, en particulier en ce qui concerne les trois points suivants :

  1. Données « non standards » : utilisation des modèles sur des données non standards, c'est-à-dire des données présentant des variations vis-à-vis d’un certain attendu en termes d’état de langue (variation de la langue en diachronie, variations régionales, variation dans l’ordre des mots, code-switching, user-generated content, orthographe irrégulière, données accidentellement bruitées suite à un pré-traitement, données incomplètes, présence d’un vocabulaire de domaine spécialisé...) ;
  2. Données hors domaine : utilisation de modèles sur des données d'un domaine différent par rapport aux données d'entraînement ;
  3. Généralisation à des structures linguistiques non observées à l'entraînement : généralisation compositionelle [1], généralisation structurelle [2] ou encore généralisation du genre [3], entres autres.


Les articles sollicités concernent les thématiques suivantes, sans y être limités pour autant :

  • identification et évaluation des phénomènes linguistiques problématiques pour les modèles neuronaux et autres systèmes de TAL ;
  • analyse et correction de la propagation des erreurs dans les systèmes fondés sur une analyse en cascade ;
  • retours d’expérience sur l’utilisation de systèmes de TAL qui se sont révélés non fonctionnels sur des types de données particuliers ;
  • critique de jeux de données utilisés pour l'apprentissage ou l'évaluation ;
  • construction de jeux de données permettant d’évaluer la robustesse aux variations linguistiques ;
  • augmentation artificielle de données pour améliorer la robustesse des modèles ;
  • adaptation hors domaine ou apprentissage avec des domaines peu représentés dans les données ;
  • architectures neuronales et méthodes d'entraînement améliorant la robustesse des modèles.


Toutes les tâches standards du traitement automatique des langues peuvent être considérées. Les travaux portant sur d’autres langues que le français sont les bienvenus.

Ce numéro thématique fait suite à la journée d'étude Robustal dont les actes sont disponibles ici : https://hal.archives-ouvertes.fr/hal-03853541/

Rédacteurs en chef invités

  • Caio Corro (Université Paris-Saclay, CNRS, LISN)
  • Gaël Lejeune (Sorbonne Université, STIH)
  • Vlad Niculae (Language Technology Lab, University of Amsterdam)

Dates importantes

Soumission des articles : 15 mars 2024

Notification aux auteurs après première relecture : mai 2024

Notification aux auteurs après seconde relecture : mi juillet 2024

Soumission des versions finales : fin septembre 2024

Publication : décembre 2024

Références

[1] COGS: A Compositional Generalization Challenge Based on Semantic Interpretation (Najoung Kim, Tal Linzen), EMNLP 2020 https://aclanthology.org/2020.emnlp-main.731/
[2] Structural generalization is hard for sequence-to-sequence models (Yuekun Yao, Alexander Koller), EMNLP 2022 https://arxiv.org/abs/2210.13050
[3] Evaluating Gender Bias in Machine Translation (Gabriel Stanovsky, Noah A. Smith, Luke Zettlemoyer), ACL 2019 https://aclanthology.org/P19-1164/

   

Dates importantes

  • Soumission des articles : 15 mars 2024
  • Notification aux auteurs après première relecture : mai 2024
  • Notification aux auteurs après seconde relecture : mi juillet 2024
  • Soumission des versions finales : fin septembre 2024
  • Publication : décembre 2024
Personnes connectées : 2 Vie privée
Chargement...