Apprentissage d'un modèle BERT en Français pour l'extraction d'entités nommées H/F (Mathématiques, information scientifique, logiciel) - CEA - Palaiseau

Description de l'offre

Domaine : Mathématiques, information scientifique, logiciel

Contrat : Stage

Description du poste :

Contexte du stage:
Comme dans de nombreuses branches de l’intelligence artificielle, le domaine du traitement automatique des langues (TAL) a récemment bénéficié des avancées en apprentissage automatique, en particulier avec les modèles fondés sur des approches neuronales (apprentissage profond). Dans ce domaine, les modèles neuronaux sont en particulier utilisés pour apprendre des représentations de mots (word embeddings) destinées à capter des informations syntaxiques et sémantiques sur les mots et qui peuvent être exploitées pour de nombreuses tâches de compréhension de textes.
La diffusion récente de modèles neuronaux fondés sur le modèle transformer [1,2,3] au sein de la communauté du TAL a permis une amélioration majeure des performances sur beaucoup de benchmarks reconnus (ex. GLUE et CONLL 2003). Cependant, l’entraînement de ces modèles nécessite un accès à des ressources de calcul importantes, ralentissant leur diffusion à d’autres langues que l’Anglais. Ainsi, il n’existe pas de modèles préentraînés sur des documents écrits en Français qui pourraient être partagés largement au sein de la communauté francophone.

Objectifs:

Produire un modèle BERT [2] pour le Français et à évaluer la ressource ainsi produite sur une tâche de reconnaissance d’entités nommées (extraction à partir des textes des noms de personnes, lieux, organisations...). Le/la candidat.e aura la charge de proposer une méthodologie pour effectuer la tâche. En outre, il/elle étudiera de manière approfondie le fonctionnement du modèle BERT et proposera une méthode de segmentation en mots adaptée au Français.
Vous aurez ensuite la charge de développer les outils nécessaires pour l’entraînement de ce modèle dans un environnement de calcul intensif multi-nœuds et multi-gpus. Enfin, vous proposerez une méthodologie pour l’évaluation du modèle et développera les outils nécessaires pour mener cette évaluation (choix d’un corpus d’évaluation, prétraitement des documents et entraînement d’un modèle de reconnaissance d’entités nommées).
Les travaux pourront se poursuivre par une évaluation de la ressource sur d’autres tâches (extraction de relations, d’événement ou d’expressions temporelles) et/ou par l’évaluation de l’impact du choix du corpus d’entraînement sur la qualité du modèle.

Références:
[1] Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, Ł. & Polosukhin, I. Attention Is All You Need. In: NIPS, 2017.
[2] Devlin, J.; Chang, M.-W.; Lee, K. & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: NAACL 2019.
[3] Radford, A.; Wu, J.; Child, R.; Luan, D.; Amodei, D. & Sutskever, I. Language Models are Unsupervised Multitask Learners. 2019

Nous cherchons un(e) étudiant(e) en école d'ingénieurs/ Master 2.

Ville : Palaiseau

Langue / Niveau :

Anglais : Courant

Les offres de “CEA”

Description de l'offre