Partage des connaissances chimiques entre l'homme et la machine
Une équipe de chercheurs développe un outil d'IA qui traduit les structures chimiques en codes lisibles par la machine
Anne Günther/Uni Jena
Les formules structurelles montrent comment les composés chimiques sont construits, c'est-à-dire de quels atomes ils sont constitués, comment ils sont disposés dans l'espace et comment ils sont connectés. Les chimistes peuvent déduire d'une formule structurelle, entre autres, quelles molécules peuvent réagir entre elles et lesquelles ne le peuvent pas, comment des composés complexes peuvent être synthétisés ou quelles substances naturelles pourraient avoir un effet thérapeutique parce qu'elles s'adaptent à des molécules cibles dans les cellules.
Développée au XIXe siècle, la représentation des molécules sous forme de formules structurelles a résisté à l'épreuve du temps et est encore utilisée dans tous les manuels de chimie. Mais ce qui rend le monde chimique intuitivement compréhensible pour les humains n'est qu'une collection de pixels noirs et blancs pour les logiciels. "Pour que les informations contenues dans les formules structurelles soient utilisables dans des bases de données pouvant faire l'objet de recherches automatiques, elles doivent être traduites en un code lisible par une machine", explique Christoph Steinbeck, professeur de chimie analytique, d'informatique chimique et de chimiométrie à l'université d'Iéna.
Une image devient un code
Et c'est précisément ce que permet de faire l'outil d'intelligence artificielle "DECIMER", développé par l'équipe dirigée par le professeur Steinbeck et son collègue, le professeur Achim Zielesny, de la Haute école spécialisée de Westphalie. DECIMER est l'acronyme de "Deep Learning for Chemical Image Recognition" (apprentissage profond pour la reconnaissance d'images chimiques). Il s'agit d'une plateforme open-source qui est librement accessible à tous sur Internet et qui peut être utilisée dans un navigateur web standard. Les articles scientifiques contenant des formules de structure chimique peuvent y être téléchargés par simple glisser-déposer, et l'outil d'IA se met immédiatement au travail.
"Tout d'abord, le document entier est parcouru à la recherche d'images", explique M. Steinbeck. L'algorithme identifie ensuite les informations contenues dans l'image et les classe selon qu'il s'agit d'une formule de structure chimique ou d'une autre image. Enfin, les formules structurelles reconnues sont traduites en code de structure chimique ou affichées dans un éditeur de structure, afin qu'elles puissent être traitées ultérieurement. "Cette étape constitue le cœur du projet et la véritable réussite", ajoute M. Steinbeck.
Ainsi, la formule structurelle chimique de la molécule de caféine devient le code de structure lisible par la machine CN1C=NC2=C1C(=O)N(C(=O)N2C)C. Ce code peut ensuite être téléchargé directement dans une base de données et relié à d'autres informations sur la molécule.
Pour développer DECIMER, les chercheurs ont utilisé des méthodes d'IA modernes qui ne se sont imposées que récemment et qui sont également utilisées, par exemple, dans les grands modèles de langage (tels que ChatGPT) qui font actuellement l'objet de nombreuses discussions. Pour entraîner son outil d'IA, l'équipe a généré des formules structurelles à partir des bases de données existantes lisibles par machine et les a utilisées comme données d'entraînement - quelque 450 millions de formules structurelles à ce jour. Outre les chercheurs, les entreprises utilisent déjà l'outil d'IA, par exemple pour transférer les formules structurelles des spécifications des brevets dans les bases de données.
Steinbeck et Zielesny ont eu l'idée de développer un outil d'IA pour décoder les images chimiques il y a quelques années. Les deux chimistes se sont intéressés au développement de méthodes d'IA dans le cadre du jeu de société asiatique millénaire Go. En 2016, ils ont assisté, avec des millions de personnes dans le monde, au tournoi spectaculaire entre le meilleur joueur de Go de l'époque, le Sud-Coréen Lee Sedol, et le logiciel "AlphaGo", que la machine a remporté 4 à 1.
"C'était un coup de tonnerre qui nous a montré à quel point l'IA pouvait être puissante", se souvient Steinbeck. Jusqu'alors, il était pratiquement impensable qu'un algorithme puisse rivaliser avec la créativité et l'intuition humaines dans ce jeu. "Lorsque, un peu plus tard, un outil d'IA a développé une force de jeu quasi surhumaine en n'étant pas entraîné laborieusement par d'innombrables sessions de jeux humains - comme c'était encore le cas avec AlphaGo - mais simplement par le processus du système jouant contre lui-même encore et encore, et en optimisant son style de jeu au fur et à mesure, nous avons réalisé que ces nouvelles méthodes pouvaient également résoudre d'autres problèmes très complexes avec suffisamment de données d'entraînement. Nous voulions utiliser cela pour notre domaine de recherche".
Rendre l'information scientifique utilisable de manière durable
Avec DECIMER, Steinbeck et son équipe espèrent un jour pouvoir lire automatiquement toute la littérature chimique qui les intéresse, en remontant jusqu'aux années 1950, et la traduire dans des bases de données ouvertes. En effet, l'une des principales préoccupations de M. Steinbeck, également coordinateur de l'infrastructure nationale de données de recherche pour la chimie en Allemagne, est de sécuriser durablement les connaissances existantes et de les mettre à la disposition de la communauté scientifique mondiale.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.