Un chimiste de LIKAT reçoit un prix pour la gestion des données numériques et l'IA dans le domaine de la catalyse
Depuis quatre ans, une équipe dirigée par David Linke développe, dans le cadre du consortium NFDI4Cat, des programmes qui permettent à pratiquement tous les laboratoires de mettre à disposition leurs données de recherche sur la catalyse sous forme numérique. Ces données, qui sont accessibles à tous les membres de la communauté scientifique, sont ensuite également utilisées pour entraîner des modèles d'intelligence artificielle.
Les données sont la documentation complète de la procédure pour toutes les expériences, qui peuvent atteindre des centaines pour une seule publication. Les chercheurs en catalyse ne publient généralement qu'une fraction des données dans leurs articles, comme l'explique David Linke. "Mais il y a dix à cinquante fois plus de données derrière. Par exemple, sur les expériences qui n'ont pas abouti bien qu'elles aient été menées correctement." Et cela est également important pour alimenter et former l'IA.
Les outils que David Linke développe dans le cadre de l'infrastructure nationale des données de recherche (NFDI) permettent aux chimistes de préparer et de documenter plus facilement ces données de manière à ce que les machines puissent les lire sans ambiguïté et les échanger entre elles. "Ce critère est pour ainsi dire caché derrière le 'I' de la formule FAIR, l'interopérabilité, et il représente également le plus grand défi de notre mission", explique David Linke. L'élaboration d'un vocabulaire précis pour ce critère a été sa principale réalisation, car même les représentants des sciences dites exactes utilisent souvent les termes techniques différemment.
À l'avenir, les applications de l'intelligence artificielle dans le domaine scientifique pourraient bénéficier considérablement de l'utilisation de ces modèles en tant qu'"experts scientifiques", parallèlement aux solutions d'intelligence artificielle langagière actuellement en vogue et construites de manière totalement différente, les "grands modèles de langage". Ce rôle peut être assumé par ce que l'on appelle les graphes de connaissances, qui peuvent représenter les relations avec précision et intégrer le vocabulaire précis développé par David Linke et ses collègues, entre autres choses.
Quels sont les avantages d'un pool de données de recherche compatible avec l'IA ? Selon le Dr Linke, il rend la recherche beaucoup plus efficace. "Je peux créer des liens transversaux complets avec mon sujet et voir, par exemple, où d'autres laboratoires ont laissé des lacunes expérimentales qui pourraient devenir intéressantes avec mon niveau de connaissance." Le réservoir de connaissances qui peut être utilisé dans le monde entier ne cesse de s'agrandir.
La NFDI e.V. a été fondée en octobre 2020 par le gouvernement fédéral et les gouvernements des États fédérés dans le but précis de numériser le secteur des données de recherche. Les travaux sont prévus pour une durée totale de dix ans, c'est-à-dire jusqu'en 2030. Le consortium NFDI4Cat a été l'un des premiers consortiums de l'association à être fondé dans le domaine de la catalyse chimique et a initié, avec Chemistry Europe, le Digital Chemist Award doté de 1 000 euros.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.