Interview du Dr Houzé de l’Aulnoit et Boudet sur le Projet AIM-CTG

Samuel Boudet (PhD) & Dr Agathe Houzé de l’Aulnoit (MD, PhD)

Équipe Data Cœur — Laboratoire ETHICS

Dr Agathe Houzé de l’Aulnoit (MD, PhD) — Gynécologue-obstétricienne et chercheuse en analyse du rythme cardiaque fœtal (RCF), elle est autrice de plusieurs publications de référence dans le domaine. Elle assure la qualité des données cliniques d’une base française regroupant des données cliniques, biologiques et de RCF de plus de 20 000 patientes. Elle a également participé à l’élaboration du site d’e-learning sur le RCF (https://ercf.univ-catholille.fr). Forte de cette expertise, elle s’engage dans le data challenge international AIM-CTG, dont l’objectif est d’apprendre à des intelligences artificielles à reconnaître automatiquement les motifs caractéristiques du RCF.

Dr Samuel Boudet (PhD) — Enseignant-chercheur en traitement du signal et intelligence artificielle à la Faculté de Médecine, Maïeutique et Sciences de la Santé (FMMS) de l’Institut Catholique de Lille, il consacre depuis plus de 15 ans ses travaux à l’analyse automatisée du RCF, avec plusieurs publications de référence sur la détection automatique des motifs présents sur les tracés. Il est l’auteur de la toolbox FHRMA (seul logiciel libre dédié à l’analyse du RCF) et coconcepteur du site d’e-learning sur le RCF. Il pilote la coordination scientifique IA d’AIM-CTG.

Tous deux sont membres de l’équipe Data Cœur du laboratoire ETHICS.

🎯 Pouvez-vous nous présenter le projet AIM-CTG?

Pendant la grossesse et l’accouchement, le rythme cardiaque du fœtus (RCF) est enregistré pour s’assurer de son bien-être : c’est le cardiotocogramme (CTG). Aujourd’hui, ce sont les sages-femmes et les obstétriciens qui interprètent ces tracés à l’œil. Cette lecture peut varier d’un soignant à l’autre — avec pour conséquence, parfois, des césariennes inutiles ou, à l’inverse, des prises en charge tardives.

AIM-CTG (Artificial Intelligence for Monitoring Cardiotocogram) est une compétition internationale de recherche en intelligence artificielle, hébergée sur Kaggle — la plus prestigieuse plateforme de data science au monde, sur laquelle plusieurs milliers d’équipes se challengeront (autour de 2 500 attendues sur ce type de projet), avec à la clé, une récompense de 100 000 $. Concrètement, nous mettons à disposition de la communauté IA une base de tracés annotés par nos experts médicaux, et nous demandons aux équipes de produire les meilleurs algorithmes capables de reconnaître automatiquement les éléments importants : contractions, accélérations, ralentissements, périodes de variabilité anormale, perturbations dues au cœur de la mère, etc. La finalité est de fournir des alertes automatiques fiables qui aideront les décisions des soignants.

La communauté de recherche sur le RCF est relativement petite et historiquement peu portée sur l’open source. Quand nous avons développé des modèles efficaces pour reconnaître certains motifs (ligne de base, accélérations, ralentissements), nous nous sommes heurtés à la difficulté de comparer nos résultats à l’état de l’art : chaque équipe gardait ses données et ses codes. Nous avons donc choisi de mettre nos méthodes et nos jeux de données en accès libre et de les ouvrir à la compétition.

Avec le temps, il nous est apparu que d’autres motifs, en apparence simple, étaient négligés par la littérature (interférences avec le pouls maternel, contractions, périodes de faible variabilité, rythmes sinusoïdaux…). En réalité, atteindre le niveau d’un expert humain est rarement aussi simple : il existe toujours des cas atypiques qui demandent de prendre en compte de nombreux paramètres très difficiles à formaliser. Certains motifs sont par ailleurs si rares qu’il est compliqué, même pour un expert, d’en voir suffisamment au cours de sa carrière pour les identifier parfaitement.

Le deep learning — une famille de techniques d’IA qui apprend par elle-même à partir d’exemples — permet d’apprendre l’ensemble de ces motifs simultanément. Mais cela suppose deux conditions : disposer d’une très grande base de données annotées par des experts, et formaliser le problème avec précision. C’est un travail considérable, et il nous a semblé que le moyen le plus efficace de le mener à bien était d’organiser un data challenge où des milliers de méthodes seront testées en parallèle. Les lauréats devront publier leur méthode en open source, ce qui permettra une intégration facile dans les centrales de monitoring des maternités, et donc d’améliorer concrètement les systèmes d’alerte au lit des patientes.

Sur le plan scientifique, AIM-CTG répond à plusieurs besoins simultanés : disposer d’une référence partagée (jeu de données, métrique d’évaluation, modèle de base) pour toute la communauté ; faire émerger des modèles explicables et utiles en clinique ; et préparer le terrain à des outils prédictifs de l’état du nouveau-né fondés sur des motifs interprétables, plutôt que sur des « boîtes noires ».

🧑‍🏫 Quel est votre rôle dans ce projet?

Le volet médical est coordonné par le Dr Agathe Houzé de l’Aulnoit, obstétricienne au GHICL, spécialiste reconnue de l’analyse du RCF. Elle veille à la qualité clinique des données et coordonne le comité international d’experts qui annote les tracés.

Le Dr Samuel Boudet est responsable scientifique du volet IA et traitement du signal. Concrètement, il prend en charge la définition précise de la tâche IA (que doit prédire l’algorithme, à partir de quelles données, avec quelles catégories de motifs), le développement de la plateforme web d’annotation , la préparation des données (anonymisation vérification de l’absence de fuite d’information) et la coordination entre Kaggle et les partenaires fournisseurs de données.

Le soutien réglementaire et administratif est assuré par la DRCI (Direction de la Recherche Clinique et de l’Innovation) du GHICL, en lien étroit avec le DPO. Son rôle est primordial : c’est elle qui rend possible l’échange de données entre les centres partenaires (conventions inter établissements, cadre CNIL, autorisations du Health Data Hub) et qui garantit la qualité de l’anonymisation des tracés et des informations cliniques associées. Sans cet accompagnement, un projet multicentrique de cette nature serait tout simplement infaisable. La coordination opérationnelle est assurée par Domitille Tristram, chargée des études sur données secondaires.

🚀 Que représente pour vous l’obtention du Data Challenge?

L’obtention du financement BPI France — AAP « Data Challenge en Santé » (295 400 €) est, pour nous, une étape déterminante. Nous avions déjà tenté à deux reprises de financer nos travaux sur l’analyse du RCF — mais sur des projets différents, pas spécifiquement sur AIM-CTG. Cet aboutissement valide à la fois la pertinence scientifique de notre démarche et la solidité du consortium clinique-IA que nous avons construit. C’est aussi le premier projet de ce type porté par le GHICL et la FMMS, à l’échelle internationale.

Notre approche répond à un véritable enjeu de santé publique. Au-delà de l’intérêt clinique immédiat (détection d’anomalies, alertes ciblées, aide à la décision), apprendre à une IA à reconnaître les motifs du RCF est un socle indispensable pour pouvoir ensuite construire des outils de prédiction de l’état du nouveau-né. Cette approche permet :

une explicabilité physiopathologique (on comprend pourquoi l’algorithme alerte), indispensable à l’acceptation clinique ;
une meilleure sensibilité aux motifs rares mais critiques ;
un apprentissage efficace sur des bases de taille réaliste, en s’appuyant sur les connaissances médicales existantes plutôt que de les réapprendre depuis zéro.

Concrètement, le financement nous permet :

de constituer la base annotée de référence (~2 000 enregistrements d’une heure, ~1 500 patientes), en mobilisant un comité international d’experts annotateurs ;
de doter le challenge d’un cash prize attractif (100 000 $). Cette dotation a permis d’obtenir l’accord de Kaggle pour héberger gratuitement la compétition (les frais de plateforme habituels, de l’ordre de 100 000 $, nous sont offerts). À notre connaissance, parmi tous les lauréats de cette édition de l’AAP, aucun autre projet n’est pour l’instant parvenu à obtenir Kaggle ;
de rémunérer les partenaires fournisseurs de données (AP-HP Beaujon, FIBHCSC en Espagne) pour la mise à disposition de tracés rares et leur participation à l’annotation ;
de financer le temps ingénieur et développement (plateforme d’annotation, anonymisation, modèle de référence).

Le financement BPI ayant été confirmé en avril 2026, les prochaines étapes immédiates sont :

recueillir les données auprès des centres partenaires (GHICL, AP-HP Beaujon, FIBHCSC Madrid);
lancer la phase d’annotation par notre comité international, à l’aide de l’interface web que nous avons développée ;
préparer la documentation publique du challenge et le modèle de référence qui sera fourni aux participants ;
en parallèle, finaliser la convention avec le Health Data Hub et obtenir le devis officiel de Kaggle (préalables au versement des aides BPI).

Objectif : base de données prête fin 2026, lancement officiel du challenge début 2027, fin de la compétition avant septembre 2027 conformément à la contrainte AAP.

🔍 En quoi ce projet est-il innovant?

Un constat préalable, peu connu hors de notre communauté : la recherche sur l’analyse du RCF est portée par deux profils de chercheurs très différents. D’un côté, ceux qui partent d’un problème médical concret et cherchent à le résoudre. De l’autre, ceux qui cherchent un terrain d’application à des travaux théoriques (nouvelles architectures de réseaux de neurones, méthodes de traitement du signal, etc.). Or il n’existe à ce jour qu’une seule base publique de tracés CTG réellement utilisée (CTU-UHB), aux objectifs souvent mal cadrés et difficilement accessibles à des non experts. Conséquence : les publications scientifiques sont nombreuses, mais peu d’entre elles produisent des modèles cliniquement transférables. AIM-CTG vise précisément à fournir aux chercheurs en IA un cadre solide — données, métrique, modèle de référence, définitions cliniques précises — pour que leurs travaux gardent un lien explicite avec les usages médicaux réels, et que les méthodes lauréates puissent être directement intégrées dans les outils utilisés en maternité.

Notre projet construit une base de données de référence conçue pour dépasser les limites identifiées dans nos travaux antérieurs et dans la littérature. Plus précisément, il s’agira :

d’augmenter significativement la quantité de tracés annotés, avec une diversité accrue : grossesse, travail, expulsion — toutes ces périodes étaient absentes ou sous-représentées des bases existantes ;
d’ajouter une annotation fine du type de ralentissement et d’accélération. seule une annotation experte permet de capturer les subtilités des tracés bruités ou atypiques ;
d’intégrer l’analyse de la variabilité du RCF, paramètre central en clinique mais mal évalué dans la littérature. Une approche naïve donne même parfois des résultats inverses à ceux attendus ; nos méthodes devront être :
- cohérentes avec ce que ferait un expert formé aux recommandations internationales,
- robustes aux pertes de signal et aux ralentissements,
- capables de distinguer une variabilité faible d’origine physiologique (prématurité, particularités ethniques, variabilité cyclique du sommeil fœtal) des formes pathologiques ;
d’ajouter la détection des rythmes sinusoïdaux, rares mais à très forte valeur clinique péjorative ;
d’évaluer les modèles à la fois en analyse complète et en conditions « temps réel » : l’évaluation complète mesure la précision maximale possible (si l’algorithme dispose de tout le tracé) ; l’évaluation « temps réel » impose à l’algorithme de ne se baser que sur ce qu’il aurait vu sur le moment, comme un système d’alerte au lit de la patiente. Ce double regard, encore rarement employé, est essentiel pour évaluer à la fois la qualité diagnostique et la réactivité opérationnelle ;
de constituer une communauté internationale d’annotateurs, pour mieux représenter la variabilité réelle des interprétations médicales ;
de favoriser la création de modèles open source, essentiels pour faciliter l’accès à des méthodes efficaces, garantir la reproductibilité des résultats et favoriser leur intégration dans les outils existants.

🤝 Avec quels partenaires collaborez vous sur ce projet?

CTG est par nature un projet collaboratif. Outre le binôme GHICL / FMMS-ICL (équipe Data Cœur — laboratoire ETHICS), nous travaillons avec :

AP-HP — Hôpital Beaujon, Clichy (Dre Imane Ben M’Barek) : fourniture de tracés rares (rythmes sinusoïdaux, variabilité absente, bradycardies sévères) et participation au comité d’annotation et au comité scientifique ;
FIBHCSC — Hôpital Clínico San Carlos, Madrid : expertise clinique européenne et fourniture de tracés complémentaires ;
Kaggle (Google) : hébergement gratuit du challenge sur la plateforme de référence en data science, mise à disposition de leur outillage technique, accompagnement par leurs équipes ;
Health Data Hub : environnement sécurisé et accompagnement réglementaire ;

Cette diversité enrichit le projet à plusieurs niveaux : robustesse (variabilité des pratiques, des appareils et des populations), représentativité (européenne, multiethnique), crédibilité scientifique (consortium reconnu) et visibilité internationale (Kaggle).

Le financement BPI est ce qui rend ces collaborations contractuellement viables : il finance les prestations d’annotation des partenaires hospitaliers (par exemple 20 000 € pour Beaujon), couvre la récompense financière Kaggle (sans lequel la plateforme ne nous accueillerait pas gratuitement), et rémunère les ressources humaines et techniques nécessaires à la coordination.

⚠️ Quels ont été les défis autour de ce projet?

Les principaux défis :

Le retard de financement : nous prévoyions de postuler à l’AAP BPI France depuis mai 2024, mais l’instabilité politique et les délais très longs de traitement ont finalement reporté le début du projet à avril 2026, ce qui a décalé l’ensemble du calendrier opérationnel ;
Le cadre réglementaire : pour un projet multicentrique avec des données de patientes, il faut articuler comité d’éthique, CNIL, conventions inter établissements, Health Data Hub et procédures d’anonymisation. C’est un travail long et exigeant, et le rôle de la DRCI est ici primordial : c’est elle qui sécurise l’ensemble du circuit de données entre les partenaires et qui rend l’opération possible ;
La qualité des annotations : c’est le point le plus critique en IA santé. Construire un référentiel partagé entre experts internationaux, gérer la double relecture, harmoniser les conventions de typage représente un effort important — c’est le déterminant n°1 de la qualité finale du dataset ;
L’interface IA / médecine : faire dialoguer cliniciens et chercheurs en IA suppose de construire un langage commun et de formaliser la tâche mathématiquement.

Ce que nous avons appris :

un projet de cette ampleur tient autant à la rigueur scientifique qu’à la patience, à la diplomatie et à la qualité d’écriture des appels à projets.
la persévérance paie : ce qui paraissait inaccessible (un challenge international sur Kaggle, avec 100 000 $ de cash prize) est devenu concret. Grâce à notre persévérance et nos ambitions partagées du GHICL et de la FMMS, le projet renforce notre légitimité dans un domaine en évolution rapide qu’est la recherche en IA appliquée à la santé.

Conseils à d’autres collègues qui voudraient se lancer :

en IA, la qualité des données prime: un jeu de données propre et bien annoté vaut mieux que dix algorithmes sophistiqués entraînés sur des données médiocres ;
vient ensuite la formalisation du problème : définir précisément la tâche, avec les données entrantes et les résultats sortants. Les problèmes sont souvent trop simplifiés et ne prennent pas en compte tout ce qu’un cerveau humain est capable d’intégrer ;
le choix des modèles n’arrive qu’en dernier — et c’est précisément là qu’un data challenge prend tout son sens, en mobilisant une très large communauté qui testera en parallèle des centaines d’approches différentes.

Un autre conseil, plus personnel. Par le passé, nous avons développé plusieurs méthodes parmi les plus performantes du domaine et tenté la valorisation industrielle classique. Notre expérience est qu’à moins, peut-être, de créer sa propre société, ce chemin est très difficile et on peut y perdre beaucoup d’énergie. Il nous semble plus utile — pour les patientes, pour la satisfaction de servir, et pour la reconnaissance scientifique de l’équipe — de privilégier l’open source et de bâtir sa notoriété autour de cette démarche. À l’heure où l’IA progresse extrêmement vite, ce qui restera durablement utile à la science, ce sont la démarche et les données, beaucoup plus que la méthode finale, qui sera de toute façon dépassée dans trois ans.

🔮 Comment va évoluer le projet dans les mois à venir?

Court terme (mai — septembre 2026) : finalisation de la convention Health DataHub, information des patientes, lancement de l’annotation des experts, premières versions du modèle de référence et de la métrique.

Moyen terme (octobre 2026 — septembre 2027) : clôture du jeu de données (~2 000 enregistrements annotés), lancement officiel du challenge sur Kaggle (T1 2027), phase de compétition de quatre mois, remise des prix et publication des résultats avant la contrainte BPI de septembre 2027.

Long terme :

à la fin du challenge, le jeu de données sera mis en open data, permettant à toute la communauté de poursuivre les travaux ;
si les résultats de cette première édition le justifient, une deuxième édition pourra être organisée pour corriger les limites identifiées ;
intégrer les méthodes des lauréats au sein d’une plateforme open source de centrale de monitoring qui pourra à terme servir de base facilement intégrable par les fournisseurs d’équipement médical ;
développer la prédiction de l’état du nouveau-né à partir des motifs reconnus, avec une approche explicable — indispensable à l’acceptation clinique et réglementaire.

✨ Enfin, qu’est-ce qui vous motive le plus ?

Même si ce n’est pas l’aspect le plus mis en avant, nous savons d’expérience que la formalisation du problème et la création du jeu de données représentent environ 80 % de la résolution du problème. Autrement dit, même si la méthode gagnante n’est pas la nôtre, elle viendra de notre travail. C’est ce qui nous motive le plus : l’idée de développer notre recherche aujourd’hui pour demain, contribuer concrètement à améliorer la prise en charge des patientes pendant l’accouchement, par la mise en place de systèmes d’alarme adaptés et d’outils d’aide au diagnostic.

En une phrase : « AIM-CTG, c’est mettre une expertise clinique difficile à transmettre, à la portée de toute la communauté IA, pour qu’elle nous aide à mieux veiller, ensemble, sur les bébés à naître. »