2 décembre 2023
-
BANYULS-SUR-MER
-
Emploi LR ADCI
Station marine de la Faculté des Sciences et Ingénierie de Sorbonne Université, également sous tutelle du CNRS, l’Observatoire Océanologique de Banyuls (OOB) est un centre de recherche, de formation et de diffusion des connaissances scientifiques dans les domaines de l'océanographie, l'écologie et la biologie marine. Ses activités se déclinent en six grandes missions : la recherche, l'observation, la formation, l'accueil, la médiation scientifique, le développement économique.
Plus de 200 personnes (chercheurs, enseignants-chercheurs, ingénieurs, techniciens et doctorants) y travaillent quotidiennement.
L'observatoire dispose d'un centre de médiation scientifique, le Biodiversarium, où sont présenté la faune et la flore de la mer Méditerranée ainsi que les travaux de recherche effectués.
Mare nostrum Data
Données massives d'observations environnementales marines
Contexte : L’Observatoire Océanologique de Banyuls-sur-Mer (OOB) est un gros producteur de données, notamment dans le cadre de ses missions d’observation. Ces données environnementales sont :
Hétérogènes (numériques, omiques, images, ...) et issues de sources différentes (capteurs, analyses en laboratoire, services web, …)
Temporelles à différentes échelles de fréquence d’acquisition, de mensuelle, hebdomadaire jusqu’à la seconde, et parfois discontinues
Géographiquement distribuées
https://www.obs-banyuls.fr/fr/observer.html
Des millions d’enregistrement sont générés chaque année. Les bases de données relationnelles les stockant atteignent alors leurs limites pour la gestion, les traitements et l’exploitation.
Quelques questions se posent alors. Comment changer d’échelle pour le stockage de ces données, afin de gagner en efficacité dans la vitesse d’interrogation notamment ? Peut-on intégrer les anciennes données et les nouvelles qui seront générées au sein d’une entrepôt unique qui respectera les exigences d’interopérabilité de type FAIR ? Quelles normes utiliser ? Comment interroger, analyser, valoriser et visualiser ces données de façon pertinente et novatrice, à destination des scientifiques et du grand public ?
Objectifs du stage : Architecturer et mettre en place l’infrastructure dédiée aux données massives et multimodales d’observation de l’établissement. Ce qui se fera dans une approche globale depuis la récupération des données en sortie des capteurs jusqu’à la gestion, l’analyse, la valorisation et la visualisation des données acquises. Le but étant d’obtenir au final une infrastructure cohérente, performante, fiable et scalable. La partie documentation fera aussi l’objet d’une attention particulière.
Échéancier : Le stage se déroulera sur 6 mois, dès que possible à partir de début 2024.
Compétences recherchées : SGBDR et Big Data, Python, gestion d’ajout des données (depuis des fichiers ou en flux), outils de Dataviz, connaissances en Linux