Les offres de “CEA”

Expire bientôt CEA

Prédiction du taux de dé-duplication pour du stockage massif de données

  • Stage
  • Paris (Paris)
  • Développement informatique

Description de l'offre

Détail de l'offre

Informations générales

Entité de rattachement

Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche.

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions :
. la défense et la sécurité
. l'énergie nucléaire (fission et fusion)
. la recherche technologique pour l'industrie
. la recherche fondamentale (sciences de la matière et sciences de la vie).

Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration aux côtés de ses partenaires académiques et industriels.

Référence

2018-7721-1177

Description du poste

Domaine

Mathématiques, information scientifique, logiciel

Contrat

Stage

Intitulé de l'offre

Prédiction du taux de dé-duplication pour du stockage massif de données

Sujet de stage

Prédiction du taux de dé-duplication pour du stockage massif de données

Durée du contrat (en mois)

6 mois

Description de l'offre

R&D du laboratoire en matière de stockage massif de données en environ-nement HPC. Les supercalculateurs du CEA produisent d'immenses quantités de données (dizaines de pétaoctets) à des débits extrêmes (centaines de gigaoctets par seconde). Pour stocker ces données de manière robuste et performante, le CEA développe un logiciel de stockage de données parallèle et distribué. Face à l'explosion de la quantité de données à stocker, la dé-duplication peut s'avérer une stratégie efficace pour gagner en capacité mais également en performance. Les objectifs du stage sont de : - développer un outil permettant de prédire le taux de dé-duplication d'un très large ensemble de données pouvant excéder plus de 10 millions de fichiers pour plusieurs pétaoctets, Cet outil devra être optimisé en temps d'exécution et en ressources néces-saires. Pour cela, on pourra s'inspirer d'une part des dernières avancées et algorithmes statistiques récemment proposés dans ce domaine [1][2] et d'autre part du parallélisme largement utilisé au sein des environnements HPCs. - tester et valider cet outil sur des jeux de données représentatifs des centres de calculs du CEA un design de mécanisme adapté aux besoins du CEA, - contribuer au développement de mécanismes de dé-duplication au sein des logiciels parallèles et distribués de stockage massif de données déve-loppés au CEA.

Profil recherché

Profil du candidat

MASTER/INGENIEUR
C C++ Pyhton Linux SQL
BAC + 5

Faire de chaque avenir une réussite.
  • Annuaire emplois
  • Annuaire entreprises
  • Événements