De la donnée numérique à l’ADN synthétique
Aperçu
Traitement de l’information pour un stockage moléculaire efficace des données numériques
Marc ANTONINI, DR CNRS
Pascal BARBRY, DR CNRS
Dominique LAVENIER, DR CNRS
Le projet « De la donnée numérique à l’ADN synthétique » a pour objectif de rendre le stockage physique et logique efficace avec des codes sur mesure adaptés aux contraintes physico-chimiques de l’écriture et de la lecture de l’ADN (en collaboration avec les partenaires des projets ciblés « synthèse ADN nouvelle génération » et « polymères numériques synthétiques »).
Différentes stratégies de compression sont étudiées : le transcodage pour convertir les données en code quaternaire ou même en code N-aire lors du codage avec des polymères non-ADN, le codage direct pour certains types de données (par exemple : codeur JPEG DNA spécifique pour les images à stocker), la structuration des brins synthétisés permettant l’accès aléatoire aux données stockées, le traitement des données de séquençage de troisième génération, etc.
Mots clés : stockage d’information, données massives, compression d’information, traitement du signal et des images, bio-informatique, séquençage
Les missions
Nos recherches
Quantifier les contraintes et la dégradation du signal apportées par les processus biotechnologiques
Modéliser les différents types d’erreurs de la chaine de stockage (synthèse, conditionnement, dégradation à long terme, sélection des molécules, séquençage). Concevoirdes codes correcteurs d’erreurs adaptés pour obtenir un bon compromis entre la taille et la qualité des oligonucléotides.
Développer de nouvelles solutions pour le codage de données structurées et non-structurées
Introduire de nouvelles stratégies de codage source/canal conjoint et de correction d’erreur. Construire des codes N-aires en collaboration avec le projet « polymères numériques synthétiques ». Explorer différentes architectures de stockage sur ADN (basées sur le transcodage, sur le codage contraint et sur les échantillons).
Récupérer efficacement des données stockées au sein de milliards de molécules d’ADN
Sélectionner spécifiquement les données à récupérer sans avoir à séquencer l’ensemble des molécules d’ADN stockées. Reconstruire un document réparti sur plusieurs millions de molécules grâce à de nouvelles méthodes de consensus de lecture évolutives.
Adapter le séquençage de 3e génération au stockage sur ADN
Apporter de nouvelles solutions grâce au séquençage de 3e génération, en utilisant notamment la plateforme UCA Genomix de Sophia Antipolis. Elaborer des stratégies rentables de séquençage complet d’informations de grande taille (du Gigaoctet, voire du Téraoctet) grâce à l’utilisation de nouvelles technologies séquençage .
Le consortium
CNRS, Université Nice Côte d’Azur, INRIA, IMT Atlantique, EURECOM
Accélérer le développement de nouveaux codes, de nouveaux algorithmes, de nouvelles stratégies
Construire une communauté de recherche française émergente sur le codage de l’ADN
Favoriser la formation d’une nouvelle génération de leaders scientifiques sur la partie numérique du processus de stockage des données ADN
Une communauté de 12 chercheurs et enseignants chercheurs, 2 post-doctorats et 6 doctorats proposés pendant la durée du projet, ainsi que la création de 4 postes d’Ingénieur et de 2 chaires juniors
Laboratoire d’Informatique, Signaux et Systèmes de Sophia Antipolis (I3S – CNRS, Université Côte d’Azur)
Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA – CentraleSupélec, CNRS, ENS Rennes, IMT Atlantique, Inria, INSA Rennes, Inserm, Université Bretagne Sud, Université de Rennes)
Institut de Pharmacologie Moléculaire et Cellulaire (IPMC – CNRS, Université Nice Côte d’Azur)
Laboratoire des Sciences et Techniques de l’information de la Communication et de la Connaissance (Lab-STICC – CNRS, IMT Atlantique, UBO, UBS, ENIB et ENSTA Bretagne)
UCA Genomix, plateforme de séquençage associée à l’infrastructure France Génomique