

Guillaume Macherey
Co-fondateur d'ALLOHOUSTON
Tout part d'un échange simple autour d'un café, début 2025. Alexia est orthophoniste. Elle fait face à une réalité difficile : des enfants de 5 à 10 ans qui sont sur liste d'attente depuis plus de deux ans. Des enfants qui peinent à apprendre à lire, à un âge pourtant décisif pour leur développement.
Le problème, elle le connaît par cœur : pas assez de séances, des exercices à faire à la maison que personne ne fait, et des progrès qui n'avancent pas. La liste s'allonge, les patients stagnent.
De fil en aiguille, une idée simple émerge dans la conversation : et si on créait l'envie de lire ? L'envie décuple les capacités d'adaptation. L'envie crée la récurrence. L'envie débloque l'autonomie. Avec l'envie, un enfant peut avancer seul, aidé de ses parents et de ses enseignants, là où les séances ne suffisent pas.
C'est ce pari-là que nous avons décidé de tester.
Dans cet article, nous vous livrons les détails de ce projet et les conclusions que nous en tirons sur la manière de conduire un projet basé sur des agents IA au service d'un cas d'usage métier. Nous proposons aussi, en fin d'article, une démarche structurée que vous pouvez adapter à vos propres contextes.
Notre première étape n'a pas été de concevoir une architecture. Elle a été de vérifier, le plus vite possible, que l'idée tenait la route.
Nous avons lancé une application web en quelques heures à peine, en nous appuyant sur notre framework et nos outils open source. Le cœur du système : un workflow basique piloté par un seul gros prompt, confié à un modèle avancé avec du raisonnement. L'objectif était de générer des histoires personnalisées dont l'enfant est le héros, construites autour de ses centres d'intérêt, et intégrant les outils propres au travail des orthophonistes : phonèmes ciblés, logatomes, structures de phrases adaptées.
Le résultat nous a surpris. Un seul prompt, un seul modèle puissant, et nous obtenions 80% du travail de façon satisfaisante. Avec un peu de vérification manuelle des sorties, l'outil était déjà utilisable pour tester l'usage.
Nous avons rapidement mis des patients en conditions réelles. Alexia validait le contenu. Aucun temps n'avait été perdu à construire quelque chose d'inutile.
L'IA générative, utilisée de cette façon, est l'outil de validation le plus puissant que nous ayons jamais eu entre les mains. En quelques heures, on peut simuler un usage, itérer sur le contenu, et obtenir un signal clair sur ce qui fonctionne ou non.
Il y a cependant un piège fréquent à ce stade : vouloir optimiser les coûts trop tôt. Utiliser des modèles moins puissants pour "économiser", c'est prendre le risque de valider un usage qui ne fonctionne pas réellement, ou d'invalider une idée qui aurait pu marcher avec les bons outils. À cette phase, l'investissement le moins cher possible est de se donner les moyens de tester vite et bien.
Les premiers retours terrain ont été très encourageants. L'envie de lire était bien au rendez-vous, les enfants accrochaient, les orthophonistes étaient convaincues. Le concept fonctionnait.
Mais un problème est apparu rapidement, celui que nous appelons le mur de la variabilité.
Un LLM n'a pas, à ce jour, la capacité de reproduire de manière systématique et certaine des tâches précises. Tout peut se passer merveilleusement bien dans la grande majorité des cas, puis soudain ça ne fonctionne plus. Une histoire générée sans les bons phonèmes. Une structure narrative qui déraille. Un niveau de langage inadapté. Ces erreurs sont rares, mais dans un service médical destiné à des enfants, elles ne sont pas acceptables.
Un workflow IA seul n'est pas un produit viable. La reproductibilité n'est pas optionnelle.
C'est le passage obligé de tout projet agent IA sérieux : passer du POC qui impressionne à un système qu'on peut réellement mettre entre les mains d'utilisateurs.
On nous pose souvent la question : en partie seulement.
Certaines étapes du workflow sont bien pilotées par des agents qui prennent des décisions, utilisent des outils, s'adaptent au contexte. Mais le flux global, lui, est orchestré de façon déterministe : les étapes se succèdent dans un ordre défini, sans place à l'improvisation.
Un système entièrement agentique, où chaque décision est laissée au modèle, n’est pas adapté à tous les cas d’usage. Ce qu'on a construit ici, c'est un système hybride. Et c'est précisément ce qui le rend utilisable.
L'un des grands avantages des frameworks de workflow IA est la capacité à combiner deux types d'étapes : des étapes dites déterministes, c'est-à-dire des fonctions classiques dans un langage de programmation, et des étapes basées sur des modèles de langage. Cette combinaison est la clef pour construire des systèmes robustes.
Nous sommes passés d'un seul prompt monolithique à une architecture composée d'une dizaine d'agents augmentés de "tools" et d'une dizaine de fonctions Python. Trois moteurs principaux ont émergé :
Les tâches déléguées à l'IA sont celles où elle excelle : la créativité, la narration, l'adaptation du registre. Les tâches déléguées au code classique sont celles qui exigent de la précision et de la répétabilité : la manipulation des données linguistiques, les vérifications structurelles, le formatage des sorties.
Ce découpage a aussi eu un effet direct sur les coûts : moins de tokens traités par les LLMs, moins de charge sur les modèles les plus puissants, une facture sensiblement réduite.
Il faut être créatif, ne pas se reposer systématiquement sur l'IA, et sortir un maximum de tâches de son périmètre.
Plusieurs outils permettent aujourd'hui de construire ce type d'architecture. Parmi ceux que nous connaissons et que nous avons explorés :
Le choix dépend du contexte, de l'équipe et du niveau de complexité du workflow. Il n'y a pas de réponse universelle.
Une idée reçue tenace dans les projets IA : un chat suffit comme interface. Dans notre cas, c'était clairement insuffisant. Les orthophonistes ont besoin de suivre leurs patients, de personnaliser les paramètres de génération, de relire et valider les histoires avant qu'elles ne soient envoyées aux familles. Un simple chat ne permet pas ça.
Nous avons construit une application à part entière, "augmentée par IA" : elle permet de tout faire manuellement, de suivre les patients, et fait appel au workflow de génération quand c'est nécessaire. L'IA est au service de l'application, pas l'inverse.
C'est sans doute le point le plus sous-estimé dans les projets agents. Que se passe-t-il quand un agent ne renvoie pas le format attendu ? Quand un appel API échoue ? Quand la sortie ne passe pas la validation ?
Mettre en place une gestion des erreurs robuste, avec des stratégies de retry, des fallbacks, des alertes, et des mécanismes de reprise, prend du temps. Beaucoup de temps. C'est pourtant ce qui sépare un outil qui fonctionne "en démo" d'un outil qu'on peut utiliser tous les jours en conditions réelles.
Ce chiffre résume bien la réalité de ce type de projet : quelques heures pour valider le concept, plusieurs semaines pour arriver à quelque chose de stable. Il serait dommage de ne pas l'anticiper.
Nous aurions pu construire techniquement un système similaire sans Alexia et ses collègues. Il aurait peut-être généré des histoires plaisantes. Mais il n'aurait pas été utile.
Ce qui fait la valeur réelle de cet outil, c'est la base de données de phonèmes et de logatomes construite avec des orthophonistes. C'est la validation médicale de chaque histoire générée. C'est le retour terrain avec de vrais patients, sur de vraies séances. C'est la compréhension fine des niveaux de lecture, des typologies de troubles, des besoins spécifiques de chaque enfant.
Sans cette expertise, l’IA génère du bruit.
Il y a quelque chose d'assez nouveau avec l'IA générative : l'itération est tellement rapide et accessible qu'il n'y a plus vraiment d'excuse pour ne pas travailler en permanence avec les experts métier. Les aller-retours qui prenaient autrefois plusieurs semaines se font aujourd'hui en quelques heures. C'est une opportunité immense, à condition de ne pas la gâcher en travaillant en silo.
Ce projet nous a confirmé quelque chose que nous pressentions : l'IA générative est un outil extraordinaire pour tester, itérer et valider des usages, mais elle ne remplace pas le travail d'ingénierie qui suit.
Pour résumer notre expérience en quelques principes :
L'IA d'abord pour valider. Les meilleurs modèles, les meilleurs prompts, le moins de technique possible. L'objectif est de savoir vite si l'idée tient la route.
L'IA ensuite pour les tâches créatives et adaptatives. C'est là où elle apporte le plus de valeur dans un workflow de production.
Du code classique pour tout le reste. Plus fiable, plus prévisible, moins coûteux.
Ne pas sous-estimer le temps qu'il faut pour arriver à un système robuste. La partie visible du projet, c'est souvent le POC. La partie immergée, c'est l'industrialisation.
Sur la base de cette expérience, voici la démarche que nous recommandons pour tout projet basé sur des agents IA au service d'un cas d'usage métier.
1. Cadrer les besoins métiers
Avant toute ligne de code, comprendre le problème réel. Pas le problème tel qu'on l'imagine, mais tel qu'il est vécu par ceux qui le subissent au quotidien. C'est souvent là que se trouvent les vraies contraintes et les vraies opportunités.
2. Valider vite avec les meilleurs modèles
Construire un POC ou un MVP minimal avec les modèles les plus puissants du moment, en mode raisonnement avancé, avec des prompts travaillés. Ne pas chercher à optimiser les coûts à ce stade. L'objectif est de tester l'usage avec les utilisateurs finaux, d'itérer sur le contenu et sur le flux, et de valider que l'idée vaut la peine d'être industrialisée.
3. Itérer avec les utilisateurs
Mettre l'outil entre les mains des vrais utilisateurs le plus tôt possible. Recueillir les retours, ajuster, recommencer. C'est à cette étape que la valeur métier se précise et que les cas limites apparaissent.
4. Industrialiser
Réduire la variabilité en découpant le workflow en tâches distinctes. Remplacer par du code classique ce qui peut l'être. Mettre en place une gestion des erreurs sérieuse. Optimiser les coûts. Construire une interface adaptée aux utilisateurs. Et continuer à travailler main dans la main avec les experts métier.
Ce projet avec Alexia et ses collègues orthophonistes reste l'une des expériences les plus marquantes que nous ayons vécues. Pas seulement parce que la technologie a fonctionné, mais parce qu'elle a servi quelque chose de concret : des enfants qui lisent, avec plaisir, là où ils stagnaient depuis des mois.
C'est finalement ça, le bon repère pour évaluer un projet IA : est-ce que ça change quelque chose dans la réalité du quotidien de ceux pour qui c'est fait ?
Vous aussi vous réalisez des projets similaires ? Partageons nos expériences !
Vous avez en tête des projets avec des agents IA? Parlons-en !