L’orchestration : quand l’IA nous libère vraiment du temps
Les agents IA de navigation promettent de nous décharger des tâches numériques fastidieuses. Si la promesse est alléchante, notre expérience montre que la valeur n’est pas dans la vitesse brute d’exécution, mais dans l’orchestration des actions. Déléguer une tâche, se concentrer sur autre chose, puis reprendre la main au moment opportun : c’est là que réside le véritable gain de productivité.
Comment l’orchestration me fait gagner du temps (cas réel)
L’orchestration, c’est l’utilisation des différents outils à notre disposition à un instant T pour optimiser notre capacité de travail.
Je vais vous parler d’un cas d’utilisation : en installant le navigateur Comet, celui-ci peut utiliser un assistant vocal. Je l’ouvre à droite de l’onglet. Je regrette qu’il ne puisse garder la mémoire du fil de discussion quand on change d’onglet. Mais dans ce même onglet, j’ouvre par exemple Gemini, et je demande à l’assistant Comet de me générer un prompt pour Gemini. Grâce à lui, il me fait un prompt bien rédigé, sans faute, qui me permet de générer ou modifier des images avec de bonnes bases. Ça fonctionne également avec ConfigUI, ChatGPT, Jules, mes mails, Google Drive. Par exemple, je peux ouvrir Google Drive et lui demander d’utiliser le Gemini de mon abonnement Gemini. Comet questionne Gemini pour retrouver des réponses dans mon Google Drive ou ma boîte Gmail.
C’est cette capacité agentique du navigateur Comet que je trouve formidable, et je ne comprends pas qu’on ne développe pas celle-ci davantage. Commander son ordinateur par la voix est un réel plaisir, et on sent qu’il est actuellement limité par des choses que je n’arrive pas à m’expliquer. Mais plus celui-ci sera libre, et mieux ce sera pour moi. Bien entendu, il faut laisser à l’homme et à l’usager la capacité de valider les actions importantes. J’ai pu le tester notamment lors d’envois de messages WhatsApp : on croit que l’IA a compris ce qu’on voulait dire, elle met le message dans WhatsApp pour nous et l’envoie. Et en fait, ça ne correspond pas à ce qu’on veut. Alors maintenant, je prends bien la précaution de lire le message dans la boîte de dialogue et de me laisser le soin de le valider à chaque fois.
Je suis réellement impatient que ces capacités agentiques se développent, en espérant qu’il soit toujours possible de faire ce que je fais actuellement, et même que ce soit de mieux en mieux : c’est-à-dire utiliser une IA pour en commander une autre et répondre à tous nos besoins.

Le taux de réussite actuel est d’environ deux tiers, ce qui peut être agaçant, mais il ne fait aucun doute que ces capacités vont s’améliorer peu à peu, et qu’un jour, elles se rapprocheront de la perfection. Dans le tiers des cas restants, l’échec est souvent le résultat d’une perte de contexte ou d’une interruption. Cette réalité révèle le point de friction majeur des agents actuels : le manque de fiabilité et de continuité.
Ce qui fonctionne déjà

Malgré leurs limites, les agents IA ont déjà prouvé leur valeur pour des usages précis.
- Délégation simple de tâches web : Pour des actions linéaires et isolées (remplir un formulaire simple, extraire une information sur une page), l’agent excelle. Il exécute des clics et des saisies bien plus vite que l’humain.
- Libération d’attention et multitâche réel : En déléguant une tâche passive, l’utilisateur passe d’un multitâche « séquentiel » (je fais A, puis je fais B) à un multitâche « parallèle » (l’agent fait A pendant que je fais B). C’est un changement profond dans notre rapport à la productivité.
- Validation humaine en fin de chaîne : Le modèle d’interaction le plus efficace reste l’agent comme copilote. Il exécute une ébauche, et l’utilisateur valide ou corrige. Ce n’est pas une autonomie totale, mais une collaboration qui tire le meilleur parti des deux entités : la rapidité de l’IA et le jugement de l’humain.
Ce qui manque cruellement

Le principal frein à l’adoption massive des agents IA est leur fiabilité. Les échecs ne sont pas marginaux et ils sont systématiques quand la tâche sort des sentiers battus.
- Mémoire et contexte multi-onglets : C’est la limite prioritaire que j’ai identifiée. Les agents perdent le fil quand ils naviguent entre plusieurs onglets. Une recherche sur un site, un retour à la page de résultats pour cliquer sur un autre lien, une ouverture de document dans un nouvel onglet : le contexte se perd, l’agent se retrouve « désorienté » et la tâche échoue. L’impact est majeur : l’utilisateur doit tout reprendre à zéro, annulant le temps initialement gagné.
- Fiabilité des actions (sélecteurs/DOM, timeouts, reprises) : Les agents se basent sur les sélecteurs CSS (Cascading Style Sheets) et la structure du DOM (Document Object Model) pour interagir avec les pages web. Or, le DOM (Document Object Model) est volatile. Un simple changement sur le site, un pop-up inattendu, un temps de chargement trop long, et l’agent « perd ses repères ». Les agents actuels gèrent mal ces imprévus et plantent au lieu de s’adapter ou de réessayer.
- Observabilité & contrôle (logs lisibles, étapes, annulation/retry) : Quand une tâche échoue, il est presque impossible de comprendre pourquoi. L’utilisateur a besoin d’un journal d’activité clair et lisible, étape par étape. Par exemple, au lieu de “Échec de la tâche”, il faudrait “Échec à l’étape 3 : clic sur le bouton ‘Valider’ impossible”. Les agents devraient aussi permettre à l’utilisateur de corriger une erreur et de relancer la tâche à l’étape précise de l’échec, sans tout recommencer.
- Gouvernance & sécurité (permissions granulaires, sandbox, RGPD) : Confier à un agent le contrôle de son navigateur pose des questions de sécurité évidentes. Les utilisateurs avancés ont besoin de contrôler précisément les permissions : quels sites l’agent peut-il visiter ? Quelles données peut-il manipuler ? Une exécution dans un environnement « sandbox » isolé est essentielle pour éviter qu’une action malveillante ou erronée ait un impact sur l’ensemble du système.
Feuille de route souhaitée (Gemini/OpenAI & co.)

Pour résoudre ces problèmes, l’industrie doit se concentrer sur une feuille de route produit axée sur la robustesse et la transparence, plutôt que sur la simple vitesse d’exécution. Les agents natifs de navigateurs, comme ceux que l’on attend de Gemini et OpenAI, seraient une étape décisive.
- Agent browser natif multi-onglets : C’est la pierre angulaire. Un navigateur conçu pour l’IA aurait une mémoire transverse et un contexte persistant entre les onglets. L’agent saurait toujours d’où il vient et où il doit aller, même en naviguant sur des dizaines de pages.
- Planification par étapes + vérification intégrée : Un agent ne devrait pas se contenter d’exécuter une tâche globale. Il doit la décomposer en micro-étapes et valider chacune d’elles. On pourrait imaginer des “verrous” ou des « checklists » pour confirmer chaque action clé avant de passer à la suivante.
- Contrats d’action (pré/post-conditions) : Chaque action (clic, saisie, etc.) devrait être définie par un “contrat” de type pré-condition/post-condition. L’agent ne passe à l’étape suivante que si la page se trouve dans l’état attendu (ex. : la page de confirmation de paiement est visible). Cela rendrait le système auto-vérifiant.
- Tableaux de bord utilisateurs : Une interface dédiée doit permettre à l’utilisateur de visualiser la progression de la tâche en temps réel, de voir les erreurs, et d’intervenir à tout moment. Un simple « play/pause » ou « annuler » ne suffit pas. L’utilisateur doit être co-pilote et avoir une vision claire du tableau de bord.
- API d’orchestration cross-IA : Les agents doivent pouvoir s’articuler entre eux. Par exemple, un agent d’analyse de données pourrait transmettre les résultats à un agent de rédaction pour un rapport. Une API permettrait de composer des tâches complexes avec des dépendances.
Encadré : Légalité, TOS, bonnes pratiques
L’utilisation d’agents IA pour automatiser des actions peut poser des questions juridiques, notamment en ce qui concerne le respect des conditions d’utilisation (TOS) des services en ligne. Il est impératif de se renseigner sur les TOS de chaque service que vous automatisez. La plupart interdisent l’automatisation à des fins de scraping ou de contournement d’abonnements. L’utilisation de VPN pour contourner des restrictions géographiques liées à des abonnements est une pratique courante, mais elle est très souvent contraire aux TOS des plateformes et peut entraîner la suspension ou la fermeture du compte. Les utilisateurs doivent être conscients des risques de suspension de compte en cas de violation des TOS [à vérifier]. Par ailleurs, l’utilisation de ces agents doit se faire dans le respect strict de la vie privée et de la protection des données (RGPD). Ne pas encourager les contournements est une règle de base pour une utilisation responsable.
Conclusion : l’orchestration > la vitesse brute
L’avenir des agents IA n’est pas une course à la vitesse d’exécution, mais une quête d’intelligence d’orchestration. Le gain décisif pour l’utilisateur avancé vient de la capacité à se décharger en toute confiance de tâches complexes et à n’intervenir qu’en cas de besoin. Les agents du futur seront ceux qui sauront non seulement exécuter, mais aussi planifier, s’adapter, communiquer leurs erreurs de manière transparente, et proposer un point de reprise fiable. C’est en faisant de l’IA un véritable co-pilote, et non un simple « bot » autonome, que nous libérerons son potentiel le plus précieux.