Publicat:

Els 5 nivells diferents d'agents d'IA

Els agents d'IA es defineixen com entitats artificials que poden percebre el seu entorn, prendre decisions i emprendre accions basant-se en les eines disponibles.

Consideracions sobre el domini

Hi ha hagut molt rebombori, alarmisme i especulació sobre la AGI o la Superintel·ligència Artificial (ASI) i el que les organitzacions estan preparant. Però el més interessant és com aprofitar el poder dels LLM i els Agents Autònoms d'IA per a implementacions de dominis específics a les organitzacions.

El gran motor comercial de les interfícies d'usuari conversacionals són les empreses de banca, comerç al detall, serveis financers, etc., que creen interfícies d'usuari basades en IA perquè els usuaris interactuïn amb productes i serveis. 

Qualsevol entitat capaç de percebre el seu entorn i executar accions pot considerar-se un agent.

On ens trobem actualment?

Considerant les implementacions de domini limitat, actualment ens trobem als nivells dos i tres; molt probablement al nivell 2.5.

LangChain ha liderat la creació de marcs per al desenvolupament d'Agents. DSPy en la programació de LLM i LLamaIndex amb el seu enfocament RAG agentí.

Aquests agents es situen entre el 50% i el 90% dels adults qualificats, amb capacitats d'automatització de tasques estratègiques. Basant-se en l'entrada de l'usuari, els agents poden descompondre la descripció de l'usuari, planificar subtasques i executar aquestes tasques de manera ordenada per arribar a una conclusió.

Aquests agents són capaços d'iterar sobre subtasques intermèdies fins a arribar a una resposta concloent.

Exemple pràctic

Considerem la següent pregunta: Qui es considera el pare de l'iPhone i quina és l'arrel quadrada de l'any de naixement?

Es tracta d'una pregunta força ambigua i complexa de respondre, que exigeix seguir una sèrie de passos per arribar a una resposta. Hi ha una tasca matemàtica i el fi, però també cal recuperar coneixements per respondre a la pregunta.

Per a aquest exemple pràctic, l'agent disposa d'unes quantes accions:

  1. LLM Math,

  2. SerpApi, a continuació hi ha una captura de pantalla del lloc web de SerpApi. SerpApi permet extreure dades dels resultats dels motors de cerca.

  3. GPT-4 (gpt-4-0314).

A continuació, considereu la sortida d'aquest agent basat en LangChain i observeu com l'agent va del pensament, a l'acció, a l'observació de forma seqüencial fins que arriba a una resposta final i la cadena es tanca.

A la taula que mostra els cinc nivells d'agents, us adonareu que els agents del nivell u estan basats en regles… Els agents basats en regles poden tenir certa autonomia, però en la pràctica, consisteixen en passos predefinits que s'executen basant-se en passos predefinits.

Estructura bàsica dels Agents de Domini Estret

Els Agents tenen com a columna vertebral un Model de Llenguatge Ampli (LLM). Els agents també tenen accés a una sèrie d'eines. Les eines poden tenir capacitats específiques, com ara cerca web, APIs específiques, RAG, matemàtiques i més.

Les eines es descriuen en llenguatge natural perquè l'agent sàpiga quina eina fer servir en una fase concreta del procés. El nombre d'eines i les capacitats de les eines determinen quina potència té l'agent.

Consideracions pràctiques

Si tornem a considerar les implementacions d'Agents en dominis limitats, cal tenir en compte algunes consideracions pràctiques.

Sensorial

La majoria dels agents actuals són virtuals i s'accedeix a ells mitjançant veu o text. Aquests agents poden raonar i arribar a conclusions i, al seu torn, respondre amb veu o text. Es poden afegir elements multimodals en els quals els agents poden rebre imatges o vídeo com a entrada, o generar imatges o vídeo com a sortida.

Tanmateix, en general els agents no tenen altres capacitats sensorials com la visió, el tacte, el moviment, etc. Amb tot el desenvolupament en termes de robòtica, la combinació d'agents amb capacitat sensorial / física marcarà l'inici d'una nova era.

LLM Backbone

Com he mencionat abans, l'agent té com a columna vertebral un LLM, o més concretament una API LLM a la qual se la crida. Els agents passen per múltiples iteracions i trucades a l'API. Hi ha una única dependència que necessita ser atesa, així que diria que per a qualsevol implementació d'agent de producció, la redundància haurà d'incorporar-se a la columna vertebral de l'agent.

Els LLM autoallotjats o els servidors d'inferència locals són la millor manera de garantir el temps d'activitat.

Cost

Fer ús de les APIs comercials de LLM serà molt costós, considerant que per a cada pregunta plantejada a l'agent el LLM es consulta múltiples vegades.

Imaginar milers d'usuaris només agreujarà el problema dels costos.

Latència

Els sistemes conversacionals exigeixen respostes de sub-segons, qualsevol sistema complex, com els agents que necessiten realitzar múltiples passos internament per a cada torn de diàleg, s'afegeix a la latència total experimentada per l'usuari.

Això pot convertir-se en un repte a superar.

No arribar a la conclusió

És important assenyalar que actualment hi ha casos en què l'agent no arriba a una conclusió, o arriba a una conclusió prematurament. Si l'usuari pot accedir i veure els passos de raonament de l'agent, la consulta de l'usuari podria satisfer-se mitjançant passos intermedis en el raonament de l'agent. En aquest cas, l'usuari pot aturar l'agent i informar-li que s'ha proporcionat suficient informació.

Eines i costos

Els agents necessiten tenir accés a eines per realitzar les seves tasques. Pot haver-hi tot un mercat en què les eines es creïn de forma compartida. On els creadors no necessiten crear eines des de zero, sinó seleccionar una eina existent.

Aquestes eines poden ser gratuïtes o de pagament; les eines poden accedir a APIs que són de pagament.

El terme agents

A mesura que la IA ha anat progressant, el terme agent s'utilitza per descriure entitats que demostren un comportament intel·ligent i posseeixen capacitats com:

  • autonomia,

  • reactivitat,

  • proactivitat i

  • interaccions socials.

A la dècada de 1950, Alan Turing va introduir el simbòlic Test de Turing, un concepte fonamental en la IA dissenyat per investigar si les màquines poden mostrar un comportament intel·ligent similar al dels humans. Aquestes entitats d'IA solen anomenar-se agents i constitueixen els components fonamentals dels recursos.

Aprenentatge per transferència

L'aprenentatge per transferència consisteix a aprofitar els coneixements adquirits en una tasca i aplicar-los a una altra.

Els models de cimentació solen adherir-se a aquest enfocament, en què un model es forma inicialment en una tasca relacionada i posteriorment es perfecciona per a la tasca específica d'interès.

L'aprenentatge per transferència és un concepte poderós i augmenta la versatilitat dels models, que poden realitzar tasques mai vistes basant-se en l'aprenentatge anterior.

Conclusió

D'alguna manera  s'està passant per alt que els Agents Autònoms d'IA representen un avanç fonamental en tecnologia.

Els agents, dotats d'intel·ligència artificial, tenen la capacitat de:

  • Operar de forma independent,

  • Prendre decisions i

  • Actuar sense intervenció humana constant.

En el futur, els agents autònoms d'IA estan cridats a revolucionar sectors que van des de la sanitat i les finances fins a la fabricació i el transport.

Tanmateix, existeixen consideracions relatives a la rendibilitat, la transparència, l'ètica, la responsabilitat i la parcialitat en la presa de decisions.

Malgrat aquests reptes, el futur dels agents autònoms d'IA és molt prometedor. A mesura que la tecnologia continuï evolucionant, aquests agents s'integraran cada cop més en la nostra vida quotidiana.