De la donnée numérique à l’ADN synthétique

Aperçu

Traitement de l’information pour un stockage moléculaire efficace des données numériques 

Marc ANTONINI, DR CNRS

Pascal BARBRY, DR CNRS

Dominique LAVENIER, DR CNRS

Le projet « De la donnée numérique à l’ADN synthétique » a pour objectif de rendre le stockage physique et logique efficace avec des codes sur mesure adaptés aux contraintes physico-chimiques de l’écriture et de la lecture de l’ADN (en collaboration avec les partenaires des projets ciblés « synthèse ADN nouvelle génération » et «  polymères numériques synthétiques  »). 

Différentes stratégies de compression sont étudiées : le transcodage pour convertir les données en code quaternaire ou même en code N-aire lors du codage avec des polymères non-ADN, le codage direct pour certains types de données (par exemple : codeur JPEG DNA spécifique pour les images à stocker), la structuration des brins synthétisés permettant l’accès aléatoire aux données stockées, le traitement des données de séquençage de troisième génération, etc. 

Mots clés : stockage d’information, données massives, compression d’information, traitement du signal et des images, bio-informatique, séquençage

Les missions

Nos recherches


Quantifier les contraintes et la dégradation du signal apportées par les processus biotechnologiques

Modéliser les différents types d’erreurs de la chaine de stockage (synthèse, conditionnement, dégradation à long terme, sélection des molécules, séquençage). Concevoirdes codes correcteurs d’erreurs adaptés pour obtenir un bon compromis entre la taille et la qualité des oligonucléotides.


Développer de nouvelles solutions pour le codage de données structurées et non-structurées

Introduire de nouvelles stratégies de codage source/canal conjoint et de correction d’erreur. Construire des codes N-aires en collaboration avec le projet « polymères numériques synthétiques ». Explorer différentes architectures de stockage sur ADN (basées sur le transcodage, sur le codage contraint et sur les échantillons).


Récupérer efficacement des données stockées au sein de milliards de molécules d’ADN

Sélectionner spécifiquement les données à récupérer sans avoir à séquencer l’ensemble des molécules d’ADN stockées. Reconstruire un document réparti sur plusieurs millions de molécules grâce à de nouvelles méthodes de consensus de lecture évolutives.  


Adapter le séquençage de 3e génération au stockage sur ADN

Apporter de nouvelles solutions grâce au séquençage de 3e génération, en utilisant notamment la plateforme UCA Genomix de Sophia Antipolis. Elaborer des stratégies rentables de séquençage complet d’informations de grande taille (du Gigaoctet, voire du Téraoctet) grâce à l’utilisation de nouvelles technologies séquençage .

Le consortium

CNRS, Université Nice Côte d’Azur, INRIA, IMT Atlantique, EURECOM

Implantation du consortium