Les offres de “Orange”

Expire bientôt Orange

Post-Doc : Etude et évaluation d'algorithmes d'apprentissage machine ubiquitaire pour du Big Data massivement distribué F/H

  • Alternance
  • Valbonne (Alpes-Maritimes)
  • Développement informatique

Description de l'offre

about the role

Effectuer un travail de recherche sur l'étude et l'évaluation d'algorithmes d'apprentissage machine ubiquitaire pour du Big Data massivement distribué.

Vous trouverez ci-dessous la description du contexte de ce travail de recherche.

La mission et les principaux objectifs scientifiques seront précisés sous le titre "Entité".

Ces dernières années ont été marquées par une forte monté en puissance du « Big Data » : nous produisons des masses grandissantes de données que nous sommes capables à présent de stocker afin d'en extraire de nouvelles connaissances en utilisant des méthodes performantes telles que le "machine learning".

Les avancées scientifiques et technologiques concernant le stockage et l'analyse de ces grandes masses de données continuent à progresser de manière significative et régulière.

En même temps, ces données sont aujourd'hui générées de façon de plus en plus éparse, à l'instar de ce que l'on observe dans le domaine de l'Internet des Objets : des grandes quantités de petits équipements communicants produisent des données qui fournissent des informations sur leur environnement proche (capteurs environnementaux, systèmes de domotiques, vêtements intelligents, …).

Il nous apparaît que cette évolution inéluctable, qui conduit à une très large dispersion des données, va s'accompagner de nouveaux challenges : il sera de plus en plus difficile d'extraire de la connaissance de ces données, car les algorithmes couramment utilisés considèrent que la donnée à analyser reste « facilement accessible », les évolutions actuelles sur le respect de la vie privée vont imposer un traitement local des données.

De façon concrète, cette notion de « facilement accessible » se matérialise souvent par une « co-localisation » des données au sein d'un même espace de stockage de type « cloud ». En conséquence, les architectures permettant l'analyse de données largement distribuées exigent un rapatriement préalable de l'ensemble des données potentiellement utiles à l'analyse. Et il devient de plus en plus illusoire de considérer qu'il sera toujours possible de concentrer l'ensemble des données à analyser dans un seul et unique « cloud ».

Pour tenter d'adresser cette évolution d'architecture, Orange mène une réflexion consistant à « distribuer très largement » les algorithmes d'analyse de données, tels que le « machine learning ». La difficulté de cette démarche réside principalement dans le fait qu'il est connu qu'un algorithme, quel qu'il soit, ne peut pas être distribué sans conséquences fortes :

·  A la conception, un modèle de synchronisation doit être introduit dans l'algorithme afin de faire coopérer les différents flots d'exécution parallèles. L'introduction de ce composant « non fonctionnel » modifie très profondément la structure de l'algorithme.
·  A l'exécution, de nouveaux événements perturbateurs peuvent altérer le bon fonctionnement de l'algorithme, comme par exemple l'impossibilité d'accéder à une donnée ou encore la fin prématurée d'un flot d'exécution. De plus, des problèmes durs de « non convergence » ou « d'inter-blocage » apparaissent.

Ce point a été synthétisé dans l'article "Strategies and Principles of Distributed Machine Learning on Big Data" [1]. Après avoir souligné l'évolution d'architecture du Big Data que nous avons mentionnée, l'auteur donne une formalisation générale d'un algorithme de « machine learning » afin de proposer un modèle distribué générique permettant la répartition des algorithmes. [2]

D'autres approches existent et l'objet de travail attendu est d'identifier les acteurs académiques et industriels qui adressent ce problème et d'évaluer les solutions qu'ils proposent. [3] [4]

about you

Vous avez une double compétence Informatique Distribuée et Machine Learning, et êtes titulaire d'un doctorat dans un de ces 2 domaines.

Vous maîtrisez la programmation dans différents langages vous permettant de lire, rectifier ou interfacer des programmes existant (Java, C++, python, …).

Vous avez déjà réalisé des travaux sur des environnements de type multi-cloud, fog computing, mise en oeuvre de l'informatique distribuée au-delà des limites d'un data center.

Vos connaissances dans plusieurs techniques d'analyse de donnés Machine Learning, Deep Learning vous permettent d'expliquer à un large public leur fonctionnement général et surtout leur contexte d'utilisation .

Vos précédents travaux vous ont permis de développer une méthodologie scientifique solide d'étude ou analyse théorique, de test d'algorithmes et d'architectures.

Vous avez déjà réalisé des démonstrateurs et vous souhaitez encore plus mettre la théorie en pratique et implémenter les résultats de vos travaux dans de vrais prototypes.

Vous maitrisez l'anglais à l'écrit comme à l'oral.

additional information

Votre travail s'inscrira dans la cadre des activités de recherche conduites au sein de la direction BIZZ, sur un axe visant à améliorer les infrastructures dédiées au « Big Data », comme par exemple l'utilisation des GPU, l'identification de techniques d'analyses de données, la traçabilité de la donnée, …

Vous serez en contact avec d'autres équipes de recherche d'Orange en France et à l'étranger, vous pourrez aussi contribuer à des projets de recherche européens.

Cette équipe étant en prise avec les besoins des clients entreprise d'Orange, elle est particulièrement attentive au potentiel de transfert des résultats de recherches. Vous serez en contact avec de futurs utilisateurs de vos travaux.

Références

[1]https://arxiv.org/abs/1512.09295

[2]https://github.com/sailing-pmls/bosen

[3]https://research.googleblog.com/2017/04/federated-learning-collaborative.html

[4]https://spark.apache.org/docs/latest/programming-guide.html#resilient-distributed-datasets-rdds

department

Vous travaillerez dans la direction BIZZ d'Orange Labs localisée à Sophia Antipolis. Cette équipe développe et anticipe des produits destinés au marché « entreprises » d'Orange dans des domaines tels que la virtualisation des réseaux (SDN/NFV) et le « Big Data ».

Le travail sera structuré autour de 3 éléments principaux :

·  Analyse théorique d'algorithmes et d'architectures d'apprentissage massivement distribué ubiquitaire

Il s'agit d'apporter une bonne compréhension des impacts liés à une large distribution des données quant à la nature des algorithmes, leur contraintes d'exécution (temps d'exécution, …), leur fiabilité (tolérance aux erreurs d'exécution, …), la qualité des résultats produits.

·  Etude et test de solutions industrielles et académiques d'apprentissage massivement distribué ubiquitaire

Les solutions proposées n'étant pas uniques, il faudra identifier les principales orientations académiques et technologiques en cours. Il est en particulier nécessaire d'intégrer les différentes dimensions du Machine Learning et du Deep Learning. Les travaux adresseront plus particulièrement les propositions s'accompagnant de réalisations techniques permettant de mener des évaluations.

* Les travaux mettront également en évidence les logiques sous-jacentes des solutions proposées : environnement d'exécution spécifique, librairie de programmation qui abstrait la distribution, langage de programmation qui intègre nativement la description de la distribution des données, …

Il est fortement souhaitable que les solutions les plus prometteuses soient mise en oeuvre dans un contexte d'expérimentation réaliste et pertinent pour Orange. Ces mises en oeuvre devront illustrer l'originalité, la pertinence et les apports des solutions identifiées.

Ce travail donnera lieu à des démonstrations et sera l'élément fédérateur permettant la rédaction d'un article expliquant la démarche suivie au cours de ces travaux.

contract

Post Doc

Faire de chaque avenir une réussite.
  • Annuaire emplois
  • Annuaire entreprises
  • Événements