Les chercheurs du Berkeley Lab (dans le sens horaire à partir du haut à gauche) Kristin Persson, John Dagdelen, Gerbrand Ceder et Amalie Trewartha ont dirigé le développement de COVIDScholar, un outil d

L’outil d’apprentissage automatique COVID-19 assimile les documents de recherche

Le volume de littérature produit sur le sujet de COVID-19 est intimidant. À tel point que les scientifiques ne peuvent pas suivre et ont besoin d’aide pour trouver des articles pertinents et établir des corrélations.

Entrer COVIDScholar.com. Le moteur de recherche utilise des techniques de traitement du langage naturel pour numériser, rechercher, synthétiser, tirer des idées et établir des connexions.

Un groupe de scientifiques des matériaux à Laboratoire national Lawrence Berkeley (Berkeley Lab), qui passent généralement leur temps à rechercher des matériaux haute performance pour les thermoélectriques ou les cathodes de batterie, a construit l’outil d’exploration de texte. Leur quête pour développer des techniques d’exploration de texte et de données qui peuvent aider à répondre aux questions hautement prioritaires liées à COVID-19 découle de la Maison Blanche Appel à l’action du 16 mars.

À l’époque, le COVID-19 Open Research Dataset (CORD-19) de la littérature savante sur COVID-19, SARS-CoV-2 et le groupe Coronavirus possédait la plus vaste collection de littérature sur les coronavirus lisible par machine disponible pour l’exploration de données et de textes, avec plus de 29 000 articles.

Une fois que l’équipe de Berkeley Lab s’est mise au travail, son prototype était opérationnel en une semaine; après un mois, l’outil avait collecté plus de 61 000 articles de recherche. Environ 8 000 concernaient spécifiquement COVID-19 et le reste concernait des sujets connexes, tels que d’autres virus et pandémies en général. Ils estiment que 200 nouveaux articles sont publiés chaque jour sur le coronavirus. «Dans les 15 minutes suivant la publication du document en ligne, il sera sur notre site Web», a déclaré Amalie Trewartha, une boursière postdoctorale qui est l’une des développeurs principaux.

Prêt pour une utilisation publique

L’outil a été mis en ligne cette semaine lorsque l’équipe de Berkeley Lab a publié une version améliorée qui permet à l’utilisateur de rechercher des «articles connexes» et de trier les articles à l’aide d’un réglage de pertinence basé sur l’apprentissage automatique. COVIDScholar recommandera également des résumés similaires et triera automatiquement les articles dans des sous-catégories, telles que les tests ou la dynamique de transmission, permettant aux utilisateurs de faire des recherches spécialisées.

Les développeurs ont créé des scripts automatisés pour récupérer de nouveaux papiers (y compris les papiers préimprimés), les nettoyer et les rendre consultables. Au niveau le plus élémentaire, COVIDScholar agit comme un moteur de recherche simple – quoique hautement spécialisé présenté comme la plus grande collection de littérature sur COVID-19 – selon les développeurs.

Les chercheurs du Berkeley Lab (dans le sens horaire à partir du haut à gauche) Kristin Persson, John Dagdelen, Gerbrand Ceder et Amalie Trewartha ont dirigé le développement de COVIDScholar, un outil d’exploration de texte pour la littérature scientifique liée au COVID-19.Berkeley Lab

Prochaines étapes

L’équipe de experts en intelligence artificielle va maintenant former ses algorithmes pour rechercher des connexions inaperçues entre les concepts. « Vous pouvez utiliser les représentations générées pour les concepts des modèles d’apprentissage automatique pour trouver des similitudes entre des choses qui ne se produisent pas réellement ensemble dans la littérature, afin que vous puissiez trouver des choses qui devraient être connectées mais qui ne l’ont pas encore été », a déclaré John Dagdelen, un étudiant diplômé de l’UC Berkeley et chercheur du Berkeley Lab qui est l’un des développeurs principaux.

Plus loin, l’équipe prévoit de travailler avec des chercheurs du Berkeley Lab Division de la génomique environnementale et de la biologie des systèmes et UC Berkeley Institut de génomique innovant pour améliorer les algorithmes de COVIDScholar. L’idée est de synthétiser les systèmes d’une manière qui permettra aux chercheurs de découvrir de nouvelles connexions au sein de leurs données, a déclaré Dagdelen.

Pas du champ gauche

L’outil complet fonctionne sur les superordinateurs du Centre national de calcul scientifique pour la recherche énergétique (NERSC), une installation utilisateur du DOE Office of Science située au Berkeley Lab. Le moteur de recherche en ligne et le portail sont alimentés par le Plateforme Cloud Spin à NERSC.

Accélérez la vitesse à laquelle l’équipe a pu répéter les idées à expérimenter. Le groupe a passé trois ans à faire du traitement du langage naturel pour la science des matériaux et a construit un outil similaire, appelé MatScholar, un projet soutenu par le Toyota Research Institute et Shell.

L’année dernière, l’équipe a publié un article dans La nature qui a montré comment un algorithme sans formation en science des matériaux pourrait recommander des matériaux pour des applications fonctionnelles plusieurs années avant leur découverte.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut