Responsable : 
Dolz, Jose

Établissement : 
École de technologie supérieure (ÉTS)

Année de concours : 
2021-2022

La segmentation sémantique est d’une importance capitale en imagerie médicale, car elle sert au diagnostic, traitement et suivi de nombreuses maladies, ayant un énorme potentiel pour la médecine personnalisée. Les méthodes actuelles de segmentation de pointe sont basées sur des réseaux de neurones convolutifs (CNN), qui ont réalisé des performances étonnantes, dépassant souvent les capacités humaines. Néanmoins, un inconvénient majeur de ces modèles est qu’ils nécessitent de grandes quantités de données étiquetées. Dans la tâche de segmentation, cela implique d’annoter manuellement chaque pixel d’une image, ce qui est un processus très chronophage et sujet à la variabilité de l’observateur. Alors que de nombreuses études ont proposé des différentes stratégies pour apprendre sous le paradigme de la supervision réduite, c’est-à-dire semi ou faiblement supervisé, elles se concentrent généralement sur des scénarios à modalité unique, ignorant la riche information présente dans les images multimodales. Ainsi, dans ce projet, nous avons l’intention d’exploiter des données multimodales dans la segmentation d’images médicales, ce qui a été négligé dans la littérature.

Ce projet contribuera à concevoir de nouvelles et originales stratégies d’apprentissage dans deux scénarios courants en imagerie médicale. Tout d’abord, nous aborderons le problème de l’apprentissage sur des données étiquetées limitées à partir d’images multimodales non alignées. À cette fin, nous exploiterons le fait que les mêmes structures anatomiques sont généralement visibles au travers de différentes modalités, par exemple, le c?ur dans le scanner et dans l’imagerie par résonance magnétique. Des découvertes récentes sur l’apprentissage machine ont montré que l’apprentissage contrastif améliore considérablement le pouvoir de représentation des modèles CNN. Dans cette stratégie d’apprentissage sous contraintes, on fait l’hypothèse que différentes transformations d’une image donnée doivent avoir des représentations latentes similaires, tandis que les représentations d’images différentes doivent être différentes. Cela peut être adopté dans notre scénario, dans le but d’avoir des représentations similaires pour chaque classe, indépendamment de la modalité d’image, améliorant les performances des CNN à modalité unique. Le deuxième scénario implique de grands ensembles de données faiblement étiquetés d’images multimodales alignées, c’est-à-dire des étiquettes d’image. Pour résoudre ce problème, la plupart des travaux de la littérature génèrent des cartes d’activation de classification par pixel (CAM) dérivées d’étiquettes d’image pour une modalité, qui sont ensuite utilisées comme pseudo-masques, imitant l’entraînement supervisé complet. Cependant, ceux-ci sont hautement discriminants et ne parviennent pas à saisir toute l’étendue de l’objet d’intérêt, ce qui entraîne des segmentations sous-optimales. Ainsi, nous avons l’intention de tirer parti des propriétés invariantes et équivariantes des CNN à travers des images multimodales pour améliorer les CAM initiales, conduisant à des résultats de segmentation plus cohérents.

En raison de leur impact économique et social, le domaine d’application de ce projet concerne les images médicales. Néanmoins, les stratégies d’apprentissage qui en découlent ouvriront la porte à de nouvelles avancées dans d’autres applications stratégiques, par exemple, l’imagerie aérienne ou la conduite autonome, ce qui démontre le large impact de ce projet.