Un dépôt distribué de données pour la recherche biomédicale

Intervenant(s) : Massimiliano Izzo

  • Langue : Anglais
  • Type d'événement : Conférence
  • Date : Jeudi 11 juillet 2013
  • Horaire : 17h00
  • Durée : 20 minutes
  • Lieu : K.4.201
Fils rouges : CloudOpen Data
Public cible : Grand publicProfessionnels

Résumé

La recherche biomédicale évolue vers des collaborations internationales multidisciplinaires reposant sur toujours davantage de partage de données entre les institutions au niveau mondial. Les collaborations atteignant l’échelle mondiale, l’hétérogénéité des données collectées augmente et aucune forme de standardisation n’est simple. Nous avons élaboré et développé un répertoire de données numériques avec un modèle de données flexible et extensible afin de gérer l’hétérogénéité des données et d’encourager l’intégration d’informations lors de l’utilisation de différents formats ou plateformes.

Le dépôt comporte trois composants : une application web JAVA EE, une base de données MySQL afin de conserver les informations sur les patients, des échantillons et la gestion du système, et un système de stockage de données Grid afin de mieux gérer un nombre important de fichiers potentiellement gigantesques (comme cela peut être le cas en imagerie neurologique et en génomique).

Le modèle de données repose sur deux entités : processus (correspondant à des études de recherche) et événement. Un patient peut être impliqué dans un ou plusieurs processus. Un type de données est associé de façon univoque à un type d’événement spécifique. Un ensemble d’événements séquentiels peut être regroupé dans un processus construisant une structure hiérarchique.

Un type de données est décrit par un ensemble de métadonnées définies par l’utilisateur qui sont stockées en tant que schéma JavaScript Object Notation (JSON). Les métadonnées se composent d’un ou plusieurs groupes de métadonnées. Chaque groupe contient des attributs (champs non-récursifs) et/ou des boucles (champs récursifs constitués d’un ou plusieurs attributs). Les attributs sont définis par un ensemble extensible de propriétés. Une interface graphique conviviale a été développée afin de permettre la définition des types de données sans se préoccuper des schémas JSON.

Ces derniers sont convertis en formulaires web utilisant dform, un plugin jQuery. Lors de l’insertion d’une nouvelle donnée, un ou plusieurs fichiers peuvent y être associés et enregistrés dans le système de stockage de données Grid géré par le middleware iRODS. Les métadonnées sont enregistrées à la fois dans la base de données locale et sur le Grid en tant que triplet attribute-value-unit (AVU). Une interface de recherche flexible permet aux utilisateurs de formuler des requêtes basées sur des attributs de métadonnées et de les faire fonctionner à la fois sur la base de données et le Grid. Des opérations additionnelles peuvent être requises en fonction du type d’événement. Un ensemble d’actions personnalisées, modélisées selon le design pattern « commande », associé à un type de données spécifiques, a été mis en place. Chaque action est composée de trois méthodes : "vérification" (pour vérifier qu’on a répondu aux exigences pour enregistrer les données), "exécution" (les opérations à effectuer lorsque les données sont enregistrées) et "récupération" (restaure les conditions précédentes si quelque chose se passe mal lors de l’enregistrement des données).

Biographie

Massimiliano Izzo is a research assistant at the Gianninina Gaslini Children Hospital in Genoa, Italy and a PhD Student at the University of Genoa. He got a bachelor degree in Biomedical Engineering in 2003 and a master’s degree in Bioengineering in 2006. His field of research is development of web-based repositores with distributed storage and data grids for integration in biobanking, genomics and neuroscience. The work is collaboration between the Gaslini Institute (Dr. Luigi Varesio) and the Faculty of Engineering (Prof. Marco M. Fato).

Part of this work has already been presented at the NETTAB2012 conference in Como, Italy. See here for the proccedings : http://journal.embnet.org/index.php...