Annonce postée sur linuxfr.org :
—
Bonjour,
Nous cherchons actuellement des stagiaires pour de l’administration système au sein de EDF sur les calculateurs hautes performances. Nous proposons des stages de niveaux bac+4/+5 d’une durée de 6 mois environ pour des personnes intéressées par l’administration système et l’environnement GNU/Linux. Les sujets disponibles sont les suivants :
- Étude et conception d’une solution de gestion de configuration pour les clusters de calcul haute performance [1]
Les clusters de calculs haute performance sont composés d’une grande quantité de systèmes possédant chacun des informations de configuration, par nature très réparties. Pour une bonne gestion et un bon suivi de ces configurations et de leurs modifications, il est nécessaire de les centraliser en mettant en place une solution de gestion de configuration afin de garantir un certain niveau de cohérence. Des outils logiciels existent déjà pour traiter ce type de problématique : Puppet, Chef, CFEngine, etc. L’objectif de ce stage est d’évaluer ces solutions afin de déterminer la plus adaptée à l’environnement, de concevoir une architecture d’intégration avec un outil de gestion de version (Subversion, Git, etc) et d’exécution parallèle (MCollective, ClusterShell, Capistrano, etc) et de définir un plan d’actions pour le déploiement sur les clusters de calcul haute performance de EDF.
- Évaluation et intégration d’une solution de surveillance répartie large échelle pour les clusters de calcul haute performance [2]
Les clusters de calculs haute performance sont composés d’une grande quantité de systèmes à surveiller automatiquement (monitoring) afin de détecter les pannes logiciels et matérielles au plus vite et de simplifier leur diagnostic. Aujourd’hui, les clusters de calcul de EDF sont surveillés à l’aide de la solution de monitoring open source Nagios. Afin de faire face aux problèmes de passage à l’échelle(« scalabilité ») avec l’augmentation continue du nombre de systèmes à surveiller sur les clusters de calcul, il est nécessaire d’évaluer de nouvelles solutions plus performantes. L’objectif de ce stage est d’évaluer la solution de surveillance distribuée Shinken(http://www.shinken-monitoring.org/) pour étudier ses possibilités, ses performances et la faisabilité de sa mise en oeuvre sur les clusters de calcul haute performance du groupe EDF.
- Étude de la solution de gestion de ressources SLURM pour les clusters de calcul haute performance [3]
Les clusters de calculs haute performance sont composés d’un très grand nombre de coeurs de calcul à partager entre les utilisateurs. Afin de gérer au mieux cette mutualisation des systèmes de calcul, des gestionnaires de ressources sont utilisés dans le domaine du HPC :Torque, MOAB, Grid Engine, LSF, LoadLever, etc. L’objectif de ce stage est d’étudier la solution de gestion de ressource open source SLURM(https://computing.llnl.gov/linux/slurm/) afin d’évaluer la pertinence de sa mise en oeuvre sur les clusters de calcul de EDF, notamment pour ses fonctionnalités de gestion multi-clusters.
Dans ces stages, vous serez amenés à étudier et à utiliser des logiciels libres. Vous serez encadrés par des ingénieurs ayant un très bon bagage technique dans le domaine du HPC, et plus généralement dans le système GNU/Linux. Ces expériences seront très valorisantes si vous souhaitez travailler dans ce domaine.
Si vous êtes intéressés envoyez un mail + CV à :
(stephan.gorget [at] edf [dot] fr) et (remi.palancher [at] edf [dot] fr)
[1] – Etude et conception d’une solution de gestion de configuration pour
les clusters de calcul haute performance :
[2] – Evaluation et intégration d’une solution de surveillance pour les
clusters de calcul haute performance :
[3] – Etude de la solution de gestion de ressources SLURM pour les clusters
de calcul haute performance :
Edit (04/03/2011) : le sujet 1 a été pourvu.
Edit (08/04/2011) : le sujet 3 n’est plus d’actualité, me suis débrouillé seul avec mes deux mains.
Edit (15/04/2011) : le sujet 2 n’est plus d’actualité, me suis débrouillé seul avec mes deux mains.