Le cancer est un fléau. Il constitue la deuxième cause de décès dans le monde avec 8,8 millions de morts en 2015. Aujourd’hui, grâce aux investissements et aux efforts de la Recherche, de nouvelles avancées voient le jour, mais de nombreux besoins restent insatisfaits.
L’Open Science, qui vise à ouvrir la recherche scientifique, les données et leur diffusion afin de les rendre accessibles à tous, peut-elle contribuer significativement à la recherche contre le cancer ? Des premiers résultats liés au développement de l’Open Science reflètent l’important potentiel de ce nouveau mode de travail collaboratif et ouvert.
De belles initiatives récentes en Open Science
De nombreuses initiatives ont vu le jour, notamment aux Etats-Unis.
- DNA Sequencing Challenge : comment centupler la puissance d’un algorithme de séquençage d’ADN ?
Karim R. Lakhani (professeur à la Harvard Medical School) était confronté aux limites des ressources et des outils existants en matière de séquençage d’ADN. En effet, l’algorithme MegaBLAST permettait de traiter avec un niveau de fiabilité élevé 100 000 séquences mais en 2 000 secondes. Pour améliorer les capacités de ce dernier, une personne de la HMS a travaillé un an à temps plein sur cet unique sujet, et ses efforts ont permis de réduire le temps de calcul de l’algorithme d’un facteur 5, à 400 secondes.
Pour aller plus loin, la HMS a décidé de lancer autour de cette problématique un challenge ouvert sur 2 semaines qui a réuni 733 personnes dont 122 participants actifs, parmi lesquels plusieurs astrophysiciens du CERN. Les efforts de la communauté créée pendant le challenge ont permis d’améliorer, cette fois-ci, l’algorithme d’un facteur 100, avec un plus haut degré de fiabilité, réduisant le temps de calcul à 16 secondes.
- Le Data Science Bowl 2017 : est-il possible de développer un algorithme capable de prédire un cancer du poumon à partir d’une base d’images ?
En janvier 2017, près de 10 000 participants s’apprêtent à participer à un challenge inédit sur la plateforme Kaggle : le Data Science Bowl. En jeu, un prix de 1 000 000 $ accordé par la Fondation Arnold Palmer. Leur but : développer un algorithme qui puisse prédire à un an la survenue d’un cancer uniquement à partir de scintigraphies pulmonaires. Un travail d’autant plus complexe que ces images ne présentent, pour la plupart, aucune lésion visible à l’œil nu. À la fin du challenge, deux startups françaises, Therapixel et Owkin, figurent parmi les 10 premiers, respectivement à la 6ème et à la 10ème place.
Néanmoins, quels ont été les résultats ? Est-il possible de déduire que la machine est capable de prédire un cancer à partir d’une image ? Pas vraiment. La meilleure équipe n’a réussi à obtenir que 70% de bonnes réponses, ce qui correspond à un « log-loss » de 0.4.
La France présente aussi de beaux exemples de réussite
En France, toutes les conditions sont réunies pour que l’Open Science se développe et favorise l’émergence de différentes initiatives. Epidemium en est un exemple : projet d’Open Science lancé en 2015 qui vise à mettre l’intelligence collective au service de la recherche contre le cancer en se fondant sur l’exploration de bases de données ouvertes.
Depuis 2015, Epidemium a organisé sept challenges, quatre dans le cadre du Challenge4Cancer (2015-2016), puis trois dans le cadre d’Epidemium² (2017-2018), auxquels a participé une communauté de plus de 1 000 personnes constituée de chercheurs, étudiants, médecins, data scientists, entrepreneurs, académiques, etc.
Ainsi, à partir de données ouvertes de l’OMS, la Banque Mondiale, ILO, et FAO, 30 équipes dont 18 finalistes, ont travaillé sur un sujet scientifique à la croisée de la data science et de l’épidémiologie du cancer, en plaçant tous leurs résultats (algorithmes, bases de données, documentation) sous licences ouvertes afin qu’ils soient accessibles à tous. De plus, afin de contribuer pleinement à la connaissance scientifique, les projets qui le souhaitaient bénéficiaient d’un accompagnement pour tenter d’obtenir une publication scientifique.
Après trois ans d’existence, les premiers résultats sont encourageants avec notamment la publication d’un livre blanc, une première publication à l’ASCO, la participation des lauréats Epidemium à la conférence RECOMB et une publication à l’European Conference on Machine Learning.
La démarche innovante et ouverte d’Epidemium, et plus généralement de l’Open Science, apparaît comme complémentaire à la recherche traditionnelle. En explorant de nouvelles approches, elle permet de faire émerger de nouveaux résultats et de générer de nouvelles hypothèses de recherche. Des fondamentaux pour faire avancer la recherche.
Jean-Frédéric Petit-Nivard, Responsable Innovation chez Roche France et Mehdi Benchoufi, Chef de clinique à l’Hôpital Hôtel Dieu à l’occasion du TOTEM #HealthTech
Open Science, des limites à dépasser mais des perspectives encourageantes
Ces exemples dessinent les multiples possibilités offertes par l’Open Science, notamment dans les domaines de la santé et de la recherche médicale. Néanmoins, même si nous avançons dans la bonne direction, l’accès et l’exploitation des données reste encore un sujet complexe pour lequel il y a peu de modalités concrètes parfaitement éprouvées.
Par exemple, les modalités actuelles d’anonymisation des données ne permettent pas une anonymisation parfaite telle que réclamée par de nombreux acteurs, notamment juridiques, sauf à écraser les données en les agrégeant et en les amputant de leur force de signification. La data est alors beaucoup moins pertinente et intéressante à utiliser pour les chercheurs car elle ne permet pas d’être couplée à d’autres données, et ne permet aucune autre ré-exploitation.
Le 29 mars dernier, lors du sommet #AlforHumanity, Cédric Villani a présenté les conclusions de son rapport « Donner un sens à l’intelligence artificielle » au sein duquel les données occupent une place de choix et la santé est présentée comme l’un des secteurs prioritaires.
Parmi les recommandations proposées, Cédric Villani relève le besoin d’organiser davantage d’échanges entre les disciplines, de mettre en place des espaces d’expérimentation afin de tester des solutions en situation réelle ainsi que la nécessité de créer des plateformes de données. La santé étant un des axes majeurs, la mission a d’ailleurs annoncé la mise en place d’un Health Data Hub. Il s’agit de créer une plateforme de données de santé visant à rendre plus efficace leur exploitation. Cette initiative présente des perspectives scientifiques et de recherche prometteuses. En effet, une des clés de réussite pour permettre aux données de santé d’exprimer leur plein potentiel au service de la recherche et de la santé publique, sera de définir leurs modalités d’anonymisation, d’accès et d’exploitation.
Responsable Innovation chez Roche France, Jean-Frederic Petit-Nivard est en charge du développement des partenariats pour co-créer des solutions innovantes multi-technologiques au service des patients et des professionnels de santé.
2 Responses