Partage des connaissances chimiques entre l'homme et la machine

Une équipe de chercheurs développe un outil d'IA qui traduit les structures chimiques en codes lisibles par la machine

23.08.2023 - Allemagne
Computer-generated image

Image symbolique

Des chercheurs de l'université d'Iéna, de l'université des sciences appliquées de Westphalie et de l'université de chimie et de technologie de Prague ont mis au point une plateforme qui utilise des réseaux neuronaux artificiels pour traduire les formules de structure chimique en un format lisible par une machine. Grâce à cette plateforme, ils ont créé un outil permettant d'alimenter automatiquement des bases de données avec ces informations issues de publications scientifiques. Jusqu'à présent, cette opération devait être réalisée littéralement à la main et prenait beaucoup de temps. Dans le numéro actuel de la revue spécialisée "Nature Communications", l'équipe dirigée par les professeurs Christoph Steinbeck et Achim Zielesny présente la dernière version de leur outil, DECIMER.ai, que les chercheurs peuvent utiliser dans le monde entier.

Anne Günther/Uni Jena

L'équipe dirigée par les professeurs Christoph Steinbeck (à droite) et Achim Zielesny a développé l'outil d'IA DECIMER.ai, que les chercheurs peuvent utiliser dans le monde entier.

Les formules structurelles montrent comment les composés chimiques sont construits, c'est-à-dire de quels atomes ils sont constitués, comment ils sont disposés dans l'espace et comment ils sont connectés. Les chimistes peuvent déduire d'une formule structurelle, entre autres, quelles molécules peuvent réagir entre elles et lesquelles ne le peuvent pas, comment des composés complexes peuvent être synthétisés ou quelles substances naturelles pourraient avoir un effet thérapeutique parce qu'elles s'adaptent à des molécules cibles dans les cellules.

Développée au XIXe siècle, la représentation des molécules sous forme de formules structurelles a résisté à l'épreuve du temps et est encore utilisée dans tous les manuels de chimie. Mais ce qui rend le monde chimique intuitivement compréhensible pour les humains n'est qu'une collection de pixels noirs et blancs pour les logiciels. "Pour que les informations contenues dans les formules structurelles soient utilisables dans des bases de données pouvant faire l'objet de recherches automatiques, elles doivent être traduites en un code lisible par une machine", explique Christoph Steinbeck, professeur de chimie analytique, d'informatique chimique et de chimiométrie à l'université d'Iéna.

Une image devient un code

Et c'est précisément ce que permet de faire l'outil d'intelligence artificielle "DECIMER", développé par l'équipe dirigée par le professeur Steinbeck et son collègue, le professeur Achim Zielesny, de la Haute école spécialisée de Westphalie. DECIMER est l'acronyme de "Deep Learning for Chemical Image Recognition" (apprentissage profond pour la reconnaissance d'images chimiques). Il s'agit d'une plateforme open-source qui est librement accessible à tous sur Internet et qui peut être utilisée dans un navigateur web standard. Les articles scientifiques contenant des formules de structure chimique peuvent y être téléchargés par simple glisser-déposer, et l'outil d'IA se met immédiatement au travail.

"Tout d'abord, le document entier est parcouru à la recherche d'images", explique M. Steinbeck. L'algorithme identifie ensuite les informations contenues dans l'image et les classe selon qu'il s'agit d'une formule de structure chimique ou d'une autre image. Enfin, les formules structurelles reconnues sont traduites en code de structure chimique ou affichées dans un éditeur de structure, afin qu'elles puissent être traitées ultérieurement. "Cette étape constitue le cœur du projet et la véritable réussite", ajoute M. Steinbeck.

Ainsi, la formule structurelle chimique de la molécule de caféine devient le code de structure lisible par la machine CN1C=NC2=C1C(=O)N(C(=O)N2C)C. Ce code peut ensuite être téléchargé directement dans une base de données et relié à d'autres informations sur la molécule.

Pour développer DECIMER, les chercheurs ont utilisé des méthodes d'IA modernes qui ne se sont imposées que récemment et qui sont également utilisées, par exemple, dans les grands modèles de langage (tels que ChatGPT) qui font actuellement l'objet de nombreuses discussions. Pour entraîner son outil d'IA, l'équipe a généré des formules structurelles à partir des bases de données existantes lisibles par machine et les a utilisées comme données d'entraînement - quelque 450 millions de formules structurelles à ce jour. Outre les chercheurs, les entreprises utilisent déjà l'outil d'IA, par exemple pour transférer les formules structurelles des spécifications des brevets dans les bases de données.

Steinbeck et Zielesny ont eu l'idée de développer un outil d'IA pour décoder les images chimiques il y a quelques années. Les deux chimistes se sont intéressés au développement de méthodes d'IA dans le cadre du jeu de société asiatique millénaire Go. En 2016, ils ont assisté, avec des millions de personnes dans le monde, au tournoi spectaculaire entre le meilleur joueur de Go de l'époque, le Sud-Coréen Lee Sedol, et le logiciel "AlphaGo", que la machine a remporté 4 à 1.

"C'était un coup de tonnerre qui nous a montré à quel point l'IA pouvait être puissante", se souvient Steinbeck. Jusqu'alors, il était pratiquement impensable qu'un algorithme puisse rivaliser avec la créativité et l'intuition humaines dans ce jeu. "Lorsque, un peu plus tard, un outil d'IA a développé une force de jeu quasi surhumaine en n'étant pas entraîné laborieusement par d'innombrables sessions de jeux humains - comme c'était encore le cas avec AlphaGo - mais simplement par le processus du système jouant contre lui-même encore et encore, et en optimisant son style de jeu au fur et à mesure, nous avons réalisé que ces nouvelles méthodes pouvaient également résoudre d'autres problèmes très complexes avec suffisamment de données d'entraînement. Nous voulions utiliser cela pour notre domaine de recherche".

Rendre l'information scientifique utilisable de manière durable

Avec DECIMER, Steinbeck et son équipe espèrent un jour pouvoir lire automatiquement toute la littérature chimique qui les intéresse, en remontant jusqu'aux années 1950, et la traduire dans des bases de données ouvertes. En effet, l'une des principales préoccupations de M. Steinbeck, également coordinateur de l'infrastructure nationale de données de recherche pour la chimie en Allemagne, est de sécuriser durablement les connaissances existantes et de les mettre à la disposition de la communauté scientifique mondiale.

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Publication originale

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails

Tous les fabricants de spectromètres FT-IR en un coup d'œil