New Edf

Alternance - INGÉNIERIE LINGUISTIQUE - Veille outils text mining - H/F

  • Alternance
  • Palaiseau (Essonne)
  • Licence, M1, Bac +3/4
  • Studies / Statistics / Data

Job description

La R&D d’EDF (2000 chercheurs) a pour missions principales de contribuer à l'amélioration de la performance des unités opérationnelles du groupe EDF, d'identifier et de préparer les relais de croissance à moyen et long termes. Dans ce cadre, le département Innovation Commerciale Analyse des Marchés et de leur Environnement (ICAME) est un département pluridisciplinaire (sciences de l’ingénieur, sciences humaines et sociales) qui fournit un appui à l’élaboration et au portage des offres, des services et des outils de relation client aux directions opérationnelles du groupe EDF. Au sein de ce département , le poste sera rattaché au groupe «Statistiques et Outils d'Aide à la Décision » (SOAD) qui compte une vingtaine d'ingénieurs chercheurs spécialisés en data mining, informatique décisionnelle et data science ayant pour mission de construire et mettre en œuvre les méthodes d’analyse, de fouille et d’enrichissement de données volumineuses d’origines multiples, structurées ou complexes.

En effet, le volume des données numériques textuelles, disponibles sur l'Internet (forums, Twitter etc.) ou relatives à des contacts client (enquêtes, centre d'appel etc.), augmente chaque année à un rythme exponentiel et l'analyse de ces informations, structurées ou non, est, aujourd'hui, un impératif stratégique pour une entreprise telle qu'EDF. Dans ce cadre, et dans l'objectif de toujours mieux connaître les besoins de ses clients, l'exploitation de ces documents implique l'utilisation de méthodes et d'outils adaptés. Au coeur de ces problématiques les outils de Text Mining sont de plus en plus nombreux et performants, ainsi nous souhaitons étudier les principaux outils évoluant sur le marché aujourd'hui.

Ideal candidate profile

Depuis 2003, les données textuelles sont essentiellement traitées à la R&D via des solutions Text Mining propriétaires et open-source (XIP de Xerox, ScikitLearn de python etc.). Ce choix fait suite à différentes campagnes de veille sur les outils de Text Mining open source et propriétaires (Gate, NLTK, Proxem etc.). Un protocole de test d'outils de Text Mining avait été défini et appliqué à l'étude approfondie de différents logiciels. Dans le cadre du suivi des évolutions des outils de Text Mining, nous souhaitons élargir ces campagnes ponctuelles à une évaluation continue des outils d'analyse de données contenant du texte.

L'objectif annuel est d'évaluer un ou plusieurs outils/méthodes afin d'identifier le potentiel existant en fonction des besoins métiers actuels. De plus, il s'agira de mener des tests permettant d'estimer la performance de l'outil dans une chaîne de traitement similaire à celle aujourd'hui mise en place. Des briques plus spécifiques pourront également être testées (i.e. Tagger morphosyntaxique etc. ...). Il s'agira enfin de mener un état de l'art régulier. Cette alternance se décomposera en 3 parties :

 État de l'art régulier des outils Text Mining : Il s'agira de mener une étude de marché des outils existants aujourd'hui, à la suite de l'étude menée en 2018-2019.
 Évaluation : A partir des solutions émergentes du marché, il s'agira d'évaluer une sélection d'outils jugés à priori pertinents par rapport aux besoins d'EDF. Cette évaluation inclut des tests à l'échelle de la chaîne de traitement actuelle et portera sur différentes fonctionnalités de l'outil (extraction de connaissances, classification, annotation, etc. ...)
 Comparaison des résultats avec l'outil actuellement en place à EDF.

Profil recherché :

 Étudiant(e) en master 1 ou équivalent école d’ingénieur envisageant une alternance.
 M1 en ingénierie linguistique / informatique & Linguistique.
 Connaissances des problématiques et technologies du text mining.
 Connaissances des méthodes de catégorisation et de clustering.
 Connaissances en développement informatique (JAVA, Python, Perl).
 Connaissances des bases de données (MySQL).
 Notions en ontologie et web sémantique.
 Connaissance des méthodes mathématiques, statistiques et de machine learning.
 Des connaissances en environnements Big Data serait un plus.
 Des connaissances sur le secteur de l’énergie serait un plus.
 Curieux(/se), ingénieux(/se) et motivé(e) pour le domaine de la recherche appliquée.
 Bon niveau rédactionnel.
Informations pratiques

Unité d’accueil : Groupe SOAD (Statistique et Outils d’Aide à la Décision), département ICAME d’EDF Lab Paris-Saclay, 7 boulevard Gaspard Monge, 91120 Palaiseau.

L’alternance sera encadrée par un ingénieur-chercheur du département ICAME.

Début du stage souhaité : septembre 2019.