Publié :
Les 5 niveaux différents d'agents d'IA

Les agents d'IA sont définis comme des entités artificielles qui peuvent percevoir leur environnement, prendre des décisions et entreprendre des actions en fonction des outils disponibles.

Considérations sur le domaine
Il y a eu beaucoup de turbulences, d'alarmisme et de spéculations sur l'AGI ou l'Intelligence Artificielle Superintelligente (ASI) et ce que les organisations préparent. Mais ce qui est le plus intéressant, c'est comment tirer parti du pouvoir des LLM et des Agents Autonomes d'IA pour des mises en œuvre spécifiques aux domaines dans les organisations.
Le grand moteur commercial des interfaces utilisateur conversationnelles provient des entreprises de banque, de commerce de détail, de services financiers, etc., qui créent des interfaces utilisateur basées sur l'IA pour que les utilisateurs interagissent avec des produits et des services.
Tout agent capable de percevoir son environnement et d'exécuter des actions peut être considéré comme un agent.
Où en sommes-nous actuellement ?
Considérant les implémentations de domaine limité, nous sommes actuellement aux niveaux deux et trois ; très probablement au niveau 2,5.
LangChain a dirigé la création de cadres pour le développement d'agents. DSPy dans la programmation de LLM et LLamaIndex avec son approche RAG agentique.
Ces agents se situent entre 50 % et 90 % des adultes qualifiés, avec des capacités d'automatisation de tâches stratégiques. En se basant sur l'entrée de l'utilisateur, les agents peuvent décomposer la description de l'utilisateur, planifier des sous-tâches et exécuter ces tâches de manière ordonnée pour arriver à une conclusion.
Ces agents sont capables d'itérer sur des sous-tâches intermédiaires jusqu'à obtenir une réponse concluante.

Exemple pratique
Considérons la question suivante : Qui se considère comme le père de l'iPhone et quelle est la racine carrée de son année de naissance ?
C'est une question assez ambiguë et complexe à répondre, qui nécessite de suivre une série d'étapes pour arriver à une réponse. Il y a une tâche mathématique et un but, mais il faut aussi récupérer des connaissances pour répondre à la question.
Pour cet exemple pratique, l'agent dispose de quelques actions :
LLM Math,
SerpApi, ci-dessous se trouve une capture d'écran du site web de SerpApi. SerpApi permet d'extraire des données des résultats des moteurs de recherche.
GPT-4 (gpt-4-0314).
Ensuite, considérez la sortie de cet agent basé sur LangChain et observez comment l'agent passe de la pensée à l'action, puis à l'observation de manière séquentielle jusqu'à ce qu'il arrive à une réponse finale et que la chaîne se termine.
Dans le tableau qui montre les cinq niveaux d'agents, vous vous rendrez compte que les agents de niveau un sont basés sur des règles… Les agents basés sur des règles peuvent avoir une certaine autonomie, mais en pratique, ils consistent en des étapes prédéfinies qui sont exécutées en se basant sur des étapes prédéfinies.

Structure de base des Agents de Domaine Étroit
Les Agents ont comme colonne vertébrale un Modèle de Langage Large (MLL). Les agents ont également accès à une série d'outils. Les outils peuvent avoir des capacités spécifiques, comme la recherche web, des APIs spécifiques, RAG, mathématiques et plus encore.
Les outils sont décrits en langage naturel pour que l'agent sache quel outil utiliser à une phase concrète du processus. Le nombre d'outils et les capacités des outils déterminent la puissance de l'agent.
Considérations pratiques
Si nous reconsidérons les mises en œuvre des agents dans des domaines limités, il faut prendre en compte certaines considérations pratiques.
Sensoriel
La plupart des agents actuels sont virtuels et y accède par la voix ou le texte. Ces agents peuvent raisonner et arriver à des conclusions et, à leur tour, répondre par la voix ou le texte. Des éléments multimodaux peuvent être ajoutés, permettant aux agents de recevoir des images ou des vidéos comme entrée, ou de générer des images ou des vidéos en sortie.
Cependant, en général, les agents n'ont pas d'autres capacités sensorielles comme la vision, le toucher, le mouvement, etc. Avec tout le développement en termes de robotique, la combinaison d'agents avec des capacités sensorielles / physiques marquera le début d'une nouvelle ère.
Colonne vertébrale LLM
Comme je l'ai mentionné précédemment, l'agent a pour colonne vertébrale un LLM, ou plus précisément une API LLM à laquelle il fait appel. Les agents passent par de multiples itérations et appels à l'API. Il y a une seule dépendance qui doit être traitée, donc je dirais que pour toute mise en œuvre d'agent en production, la redondance devra être intégrée dans la colonne vertébrale de l'agent.
Les LLM auto-hébergés ou les serveurs d'inférence locaux sont le meilleur moyen de garantir le temps de disponibilité.
Coût
Utiliser les API commerciales de LLM sera très coûteux, sachant que pour chaque question posée à l'agent, le LLM est consulté plusieurs fois.
Imaginer des milliers d'utilisateurs n'aggravera que le problème des coûts.
Latence
Les systèmes conversationnels exigent des réponses de sous-secondes, tout système complexe, comme les agents qui doivent effectuer plusieurs étapes en interne pour chaque tour de dialogue, s'ajoute à la latence totale ressentie par l'utilisateur.
Cela peut devenir un défi à surmonter.
Ne pas arriver à une conclusion
Il est important de noter qu'il existe actuellement des cas dans lesquels l'agent n'arrive pas à une conclusion, ou arrive à une conclusion prématurément. Si l'utilisateur peut accéder et voir les étapes de raisonnement de l'agent, la question de l'utilisateur pourrait être satisfaite par des étapes intermédiaires dans le raisonnement de l'agent. Dans ce cas, l'utilisateur peut arrêter l'agent et lui faire savoir qu'il a fourni suffisamment d'informations.
Outils et coûts
Les agents doivent avoir accès à des outils pour accomplir leurs tâches. Il peut exister tout un marché où les outils sont créés de manière collaborative. Où les créateurs n'ont pas besoin de créer des outils à partir de zéro, mais de choisir un outil existant.
Ces outils peuvent être gratuits ou payants ; les outils peuvent accéder à des API qui sont payantes.
Le terme agents
Au fur et à mesure que l'IA a progressé, le terme agent est utilisé pour décrire des entités qui démontrent un comportement intelligent et possèdent des capacités telles que :
l'autonomie,
la réactivité,
la proactivité et
les interactions sociales.
Dans les années 1950, Alan Turing a introduit le célèbre Test de Turing, un concept fondamental en IA conçu pour enquêter si les machines peuvent montrer un comportement intelligent similaire à celui des humains. Ces entités d'IA sont souvent appelées agents et constituent les composants fondamentaux des ressources.
Apprentissage par transfert
L'apprentissage par transfert consiste à tirer parti des connaissances acquises dans une tâche et à les appliquer à une autre.
Les modèles de fondation adhèrent souvent à cette approche, où un modèle est d'abord entraîné sur une tâche connexe et ensuite affiné pour la tâche descendante spécifique d'intérêt.
L'apprentissage par transfert est un concept puissant et augmente la polyvalence des modèles, qui peuvent réaliser des tâches inédites basées sur l'apprentissage antérieur.
Conclusion
D'une certaine manière, on passe sous silence que les Agents Autonomes d'IA représentent une avancée fondamentale dans la technologie.
Les agents, dotés d'intelligence artificielle, ont la capacité de :
Opérer de manière indépendante,
Prendre des décisions et
Agir sans intervention humaine constante.
À l'avenir, les agents autonomes d'IA sont appelés à révolutionner des secteurs allant de la santé et des finances à la fabrication et au transport.
Cependant, il existe des considérations relatives à la responsabilité, la transparence, l'éthique, la responsabilité et le biais dans la prise de décisions.
Malgré ces défis, l'avenir des agents autonomes d'IA est très prometteur. À mesure que la technologie continue d'évoluer, ces agents s'intégreront de plus en plus dans notre vie quotidienne.