Catégories
Actualité pharmacieutique

Quels sont les ingrédients d'un logiciel de cheminformatique Open Source réussi?

Publié le 30 novembre 2020 par Elena Herzog dans Chimie

(Écrit par Elena Herzog dans
collaboration avec Markus Fischer, Gerd Blanke, Jarek Tomczac et Gabrielle
Whittick)

RDKit, une collection de logiciels de cheminformatique et d'apprentissage automatique, aide à résoudre les problèmes d'information chimique. Le fondateur et créateur de RDKit, Greg Landrum, a été interviewé par l'équipe UDM (Unified Data Model), animée par Elsevier, pour partager son expérience sur ce à quoi ressemble la route du succès et quels ingrédients un projet open source doit avoir. avoir du succès. Les leçons tirées de l'entretien contribueraient à façonner l'avenir du projet UDM, qui est en train de passer de son modèle Pistoia Alliance dirigé par un consortium à un modèle mené par la communauté.

Comment tout a commencé?

Greg est un chimiste. Après son PostDoc en Allemagne,
il a déménagé en Californie et rejoint quelques start-ups. Finalement, il a commencé un
petite start-up de chimie computationnelle fournissant conseil et machine
services d'apprentissage. L'Open Source en chimie était limité en 2000 et l'absence
de bonnes alternatives ont déclenché la création du RDKit. L'Oelib open source
(qui est finalement devenu OpenBabel) n'avait pas de licence à utiliser et
les tentatives de licence pour la boîte à outils commerciale Daylight ont échoué. Afin qu'ils
ont commencé à écrire du code eux-mêmes et à ajouter, petit à petit, de nouvelles pièces. le
l'entreprise a finalement été fermée en 2006 et, plutôt que de chercher
acheteur de la technologie, ils ont décidé d'ouvrir le code source. Greg a rejoint
le groupe CADD chez Novartis à Bâle et a pu mettre en place un processus permettant
lui de continuer à travailler sur le RDKit open-source dans une grande entreprise pharmaceutique. Dans
2011, le développement s'accélère encore plus lorsqu'il rejoint la Recherche. Exigences
pour les extensions ont été financées en interne ou Novartis a financé des
programmeurs pour travailler sur RDKit. «Travailler avec les autres scientifiques de Novartis vraiment
a contribué à informer la direction que nous avons prise avec le RDKit », a déclaré Greg. En 2016, Greg
a quitté Novartis pour KNIME, la société à l'origine de la plate-forme d'analyse de données OS – et,
dans le même temps, a lancé une petite société de conseil, T5 Informatics, qui
prend en charge les services de développement personnalisés autour de RDKit. C'est une combinaison de RDKit
comme logiciel OS et T5 Informatics qui ont permis à Greg de faire ce qu'il aimait le plus et
pour passer son temps à développer et étendre les fonctionnalités avec un
groupe de personnes ayant des intérêts similaires.

À quoi ressemble la communauté RDKit?

«Le cœur de tout open source réussi
projet est sa communauté », déclare Greg. Les informations ne sont cependant pas faciles à obtenir,
c'est juste la façon dont le projet OS est exécuté. Personne ne demande à qui que ce soit
et d'où ils viennent. Certaines idées de la communauté proviennent des UGM RDKit
(User Group Meetings) et le dernier UGM virtuel (dû à Covid-19), en octobre
2020, a enregistré plus de 500 participants, le plus haut jamais enregistré pendant
la durée de vie du RDKit UGM de 9 ans. Inscrits qui ont répondu à une enquête Google
provenaient de l'industrie (52%), du milieu universitaire (40%), du gouvernement, des laboratoires et
organismes de recherche à but non lucratif (8%). Les gens de l'industrie étaient 70% pharma et
biotechnologie et 20% de logiciels. Pas vraiment surprenant compte tenu des fonctionnalités fournies par
RDKit. Les UGM sont fortement orientés vers l'Europe, mais il existe un grand nombre de
utilisateurs aux États-Unis, au Japon et en Chine. Il allait y avoir un UGM japonais cette année,
mais il a été annulé à cause de la situation Covid-19.

Comment les gens contribuent-ils à RDKit et pourquoi
Ils contribuent?

Greg définit la contribution au sens large,
par exemple:

  • Code, bien sûr
  • Le rapport de bogue de haute qualité est
    considéré comme très précieux
  • Une bonne documentation est très précieuse et
    incroyablement utile
  • Participation aux réponses aux questions,
    commenter et discuter des problèmes

La liste de diffusion rdkit-discuss est la principale
méthode de communication pour la communauté RDKit; les gens l'utilisent également comme questions-réponses
Plate-forme. Il est difficile de déterminer pourquoi les gens décident de répondre aux e-mails.
à propos d'une fonctionnalité spécifique, les développeurs répondent souvent aux e-mails, mais encore une fois, il y a
pas de véritable mécanisme pour faire contribuer les gens à moins qu'ils ne veuillent contribuer. De
de temps en temps, des réponses «fausses» apparaissent, mais la compétence et le confort viennent
avec l'expérience. La majorité des utilisateurs ont un problème à résoudre et souhaitent
comprendre et rechercher des personnes susceptibles de travailler sur un problème similaire. Certaines personnes peuvent
ressentent une obligation: «Je l’utilise, pourquoi ne pas contribuer?» Pour certains,
c'est une reconnaissance; les personnes actives sont reconnues dans la communauté. Ça aussi
semble que s'il y a un code attaché à une publication, les chercheurs sont plus
enclin à l'utiliser. Cela augmente la citation, et c'est ce qui est important pour
la publication et l'auteur. Greg pense que des données soutiennent
ceci, mais il n'était pas sûr à 100%. Un autre motif «égoïste» expliquant pourquoi les gens veulent
contribuer aux projets OS, c'est pouvoir continuer à y travailler dans le futur,
même si les gens quittent ou changent d'employeur. Quelles qu'en soient les raisons, le
l'important est que la communauté RDKit soit amicale et ouverte; les gens ressentent
bien sur le projet et tout cela, sûrement, aide à l'adoption.

Comment les entreprises contribuent-elles à RDKit?

De nombreuses entreprises ont contribué au
développement et extensions de RDKit en finançant des développeurs en interne ou en embauchant
développeurs externes. Les entreprises qui participent ont un moyen facile d'attirer
des personnes ayant une expertise RDKit. Par exemple, de nombreux étudiants travaillent sur des logiciels OS,
et les employeurs comprennent ce que font exactement les développeurs et comment le font-ils. Exemples
des entreprises utilisant le RDKit en interne et y contribuant comprennent
Schroedinger, Cresset, Novartis, Roche, Medchemica, Relay Therapeutics et NextMove
Logiciel. De nombreuses autres entreprises utilisent RDKit. Par exemple, Elsevier fournit
et en le soutenant sur Reaction Workbench d'Entellect, PerkinElmer l'utilise dans
Spotfire, et on peut utiliser des extensions de chimie basées sur le RDKit dans Mathematica.
Google exécute "Summer of code", où les projets s'améliorent et contribuent à
Les outils RDKit sont inclus. Ces cas d'utilisation importants augmentent l'adoption et
acceptation de RDKit.

Quels sont les avantages pour les entreprises de déposer
le code pour RDKit?

Il y a un point très important et, en fait,
il existe de nombreuses bonnes raisons pour lesquelles les entreprises choisissent de déposer le code sur RDKit.

  • Test et validation du code
    devenir plus facile car le pool de testeurs est théoriquement illimité
  • Si une entreprise décide qu'un morceau de
    le code n'est pas critique IP, le code peut être pris en charge par la communauté et quelqu'un de
    la communauté pourrait corriger des bugs
  • Développeurs et cheminformaticiens avec
    L'expertise RDKit est connue des entreprises qui suivent et contribuent à
    développement. Les développeurs peuvent être rapidement mobilisés pour travailler sur des fonctionnalités que les entreprises
    sont intéressés par
  • Les UGM diffusent des listes de
    postes annoncés par les entreprises, et cette année, il y avait une chaîne dans Discord
    pour annoncer les positions ouvertes. Les entreprises peuvent publier des offres sur la liste de diffusion ou
    Groupe LinkedIn. De plus, une conversation a commencé sur la façon de financer les développeurs
    sur une base contractuelle et, comme mentionné précédemment, il n'y a pas d'organisation pour
    accepter un financement pour RDKit

Quelle est la structure de gouvernance de RDKit et qui
décide de quoi?

La communauté Python fait référence à Guido van Rossum,
le créateur de la langue, comme «dictateur bienveillant pour la vie» (ou BDFL). le
RDKit suit actuellement plus ou moins ce modèle. Il n'y a pas beaucoup de
structure de gouvernance, cependant il y a quatre responsables principaux et
les contributions sont examinées par au moins deux d'entre eux. Théoriquement, deux
les développeurs doivent signer et l'un d'eux doit être Greg. Il mentionne que ce
ce n’est peut-être pas la meilleure solution à long terme, mais c’est ainsi. Il n'y en a pas beaucoup
décisions qu'ils doivent prendre, la plupart des décisions sont tactiques et chaque
décide sur quoi ils veulent travailler. Il y a une large liste d'intérêts qu'ils souhaitent
travailler sur – certains sont motivés par le long terme et d’autres par les demandes des entreprises. Trois
des autres développeurs sont de Schrodinger, Novartis et Relay.

Sous quelle licence RDKit fonctionne-t-il?

«Les licences OS sont extrêmement importantes et
controversé », fait remarquer Greg. RDKit utilise la licence BSD. La licence BSD est très
permissif et permet une utilisation commerciale; c'est fait par intention. Le code est
couvert par le droit d'auteur. Par défaut, le matériel protégé par le droit d'auteur ne peut pas être réutilisé,
cependant, la licence permet l'utilisation et la redistribution du code. En plus de chacun
Le code RDKit, il y a une déclaration de copyright et les auteurs qui ont
contribué le code sont affichés. Au bas de chaque fichier, il indique: tout
droits réservés et couverts par la licence
. On peut suivre la licence pour
Vérifiez ce qui est autorisé et ce qui ne l'est pas. Par exemple, vous ne pouvez pas retirer le
code complètement, supprimez les droits d'auteur et republiez. La licence aussi
comprend une clause de non-responsabilité. Greg recommande d'utiliser des licences standard
pour OSS, car de nombreuses grandes entreprises les connaissent et, par conséquent, plus disposées
pour utiliser le logiciel OS. Pour être clair, les entreprises peuvent s'appuyer sur le code RDKit et
commercialisez-le. Schrodinger et Cresset utilisent RDKit en chimie computationnelle
code. RDKit est destiné à être utilisé dans des logiciels de calcul; les entreprises font
pas besoin de communiquer quoi que ce soit à Greg ou à la communauté RDKit. En outre,
il existe des brevets déposés qui utilisent RDKit. Par exemple, il y a 168 résultats dans Google
recherche de brevets où RDKit est utilisé à partir d'octobre 2020.

Existe-t-il des droits de propriété intellectuelle ou des droits d'auteur lorsque
les gens contribuent à RDKit?

Apparemment, cela peut être délicat dans certains cas.
Certains projets OSS veulent tout couvrir sous un seul copyright. Accepter le
code, le droit d'auteur doit être attribué. Le RDKit ne fait pas cela. Comme RDKit n'est pas
une organisation, il ne peut pas demander aux gens de lui céder les droits d'auteur. Contributeurs
(et leurs employeurs) déterminent le droit d'auteur sur les morceaux de code contribués. cependant,
toutes les contributions doivent être couvertes par la même licence BSD que le reste du
RDKit.

RDKit accepte-t-il des financements pour des projets spécifiques?

Parce que RDKit n'a aucun
organisation, il ne peut accepter de financement. Il y a des consultants que vous pouvez payer, mais
il n'y a pas d'endroit central où payer pour faire le travail de développement. Entreprises contributrices
fournir un financement à leurs programmeurs ou aux programmeurs externes pour travailler sur le
Développement et extensions RDKit. Par exemple, Novartis a fait les deux, payé T5
Informatique et avait des développeurs internes pour contribuer à RDKit. Informatique T5,
à son tour, en tant que société de conseil, pourrait traiter le financement de RDKit si nécessaire.
Dans la mesure où Greg pouvait se concentrer sur le développement de RDKit, le RDKit a
en a bénéficié. Interrogé sur le crowdsourcing, Greg a mentionné un succès
histoire quand Andrew Dalke a réussi à lever des fonds pour le développement de MMPDB.
Cependant, on peut se demander dans quelle mesure les projets futurs peuvent réussir en ce qui concerne
à collecter des fonds auprès des personnes intéressées. L'espace cheminformatique est confiné,
comme le nombre d'entreprises qui seraient intéressées à parrainer le RDKit
le développement en dehors des intérêts commerciaux est limité. Comment financer un tas de
des projets intéressants qui ne sont pas assez urgents ou assez exposés occupent encore
l’esprit du créateur.

Comment Greg voit-il l'avenir de RDKit?

Greg pense que c'est un long match et l'espoir est
que la boîte à outils continue d'évoluer. Adoption et expansion de l'utilisation dans la recherche
Les organisations informatiques telles qu'Elsevier et pharma sont extrêmement importantes et apporteraient
les effets positifs. De plus, plus d'intégration du logiciel dans le
les flux de travail dans les entreprises commerciales d'une manière plus systématique augmenteraient l'adoption
et élargir la communauté.

Y a-t-il une valeur pour RDKit pour travailler en étroite collaboration
avec UDM?

L'UDM est principalement la norme d'échange, et
pas un logiciel; il s’agit plus d’un projet de documentation ouvert et moins d’OSS,
à moins qu'il n'y ait une idée de créer un logiciel qui fait quelque chose autour de l'UDM.
Les projets de documentation ouverte peuvent utiliser différentes licences (par exemple,
licences communes). Il est difficile de dire quoi
le bon modèle pour l'UDM peut être, mais l'avoir en tant que projet OSS sous l'égide
d'une organisation de normalisation telle que l'IUPAC est une bonne idée. Si l'UDM réussit, le lecteur et
l'écrivain pourrait être utile; avoir le code et être capable de faire quelque chose avec UDM
Les fichiers sont précieux et utiles et peuvent accélérer l'adoption.

Considérations finales

Le RDKit est utilisé pour traiter, harmoniser, améliorer
et analyser les données chimiques. La demande d'un logiciel qui peut aider à faire
vos données, par exemple, AI / ML ready ainsi que les chimistes qui ont des compétences et
les connaissances nécessaires pour exécuter ces tâches se sont accrues. Elsevier, avec sa haute qualité
données chimiques et biologiques, traite souvent ces données pour divers projets de modélisation,
tels que la synthèse basée sur AL / ML et les prédictions de modélisation pharmacologique. Comme
tel, il est bien placé pour soutenir les projets OS et les normes chimiques également
car ses clients utilisent et intègrent de plus en plus ces outils et
normes dans leurs écosystèmes. L'interview de Greg Landrum est un
confirmation de l'intérêt d'Elsevier à travailler ensemble et à aider
les chercheurs et les professionnels de la santé font progresser la science et améliorent la santé
résultats au profit de la société. Nous remercions Greg Landrum pour le partage
des informations avec l'équipe UDM de Pistoia et Elsevier sur le fonctionnement du RDKit et
contribué à son succès. Les informations partagées informent déjà le
prochaines étapes de la transition du projet UDM. Enfin, les connaissances recueillies auprès
cet entretien pourrait aider les entreprises commerciales et les organismes de recherche à
et de maintenir des relations futures avec divers types d'Open Source et Open
Projets de documentation.

Solutions R&D pour Pharma et Sciences de la Vie

Nous sommes heureux de discuter de vos besoins et de vous montrer comment la solution d'Elsevier peut vous aider.

Contacter le service commercial

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *