Pubblicato:
I 5 livelli diversi di agenti di IA

Gli agenti di IA sono definiti come entità artificiali che possono percepire il loro ambiente, prendere decisioni e intraprendere azioni basate sugli strumenti disponibili.

Considerazioni sul dominio
C'è stata molta agitazione, allarmismo e speculazione sulla AGI o sulla Superintelligenza Artificiale (ASI) e su cosa stanno preparando le organizzazioni. Ma la cosa più interessante è come sfruttare il potere dei LLM e degli Agenti Autonomi di IA per implementazioni di domini specifici nelle organizzazioni.
Il grande motore commerciale delle interfacce utente conversazionali sono le aziende di banca, commercio al dettaglio, servizi finanziari, ecc., che creano interfacce utente basate su IA affinché gli utenti interagiscano con prodotti e servizi.
Qualsiasi entità in grado di percepire il proprio ambiente ed eseguire azioni può essere considerata un agente.
Dove ci troviamo attualmente?
Considerando le implementazioni di dominio limitato, attualmente ci troviamo ai livelli due e tre; molto probabilmente al livello 2.5.
LangChain ha guidato la creazione di framework per lo sviluppo di Agenti. DSPy nella programmazione di LLM e LLamaIndex con il suo approccio RAG agentico.
Questi agenti si collocano tra il 50% e il 90% degli adulti qualificati, con capacità di automazione di compiti strategici. Basandosi sull'input dell'utente, gli agenti possono scomporre la descrizione dell'utente, pianificare sotto-compiti ed eseguire queste attività in modo ordinato per giungere a una conclusione.
Questi agenti sono in grado di iterare su sotto-compiti intermedi fino a giungere a una risposta conclusiva.

Esempio pratico
Consideriamo la seguente domanda: Chi è considerato il padre dell'iPhone e qual è la radice quadrata del suo anno di nascita?
Si tratta di una domanda abbastanza ambigua e complessa da rispondere, che richiede di seguire una serie di passaggi per arrivare a una risposta. C'è un compito matematico e la fine, ma bisogna anche recuperare conoscenze per rispondere alla domanda.
Per questo esempio pratico, l'agente dispone di alcune azioni:
LLM Math,
SerpApi, di seguito c'è uno screenshot del sito web di SerpApi. SerpApi consente di estrarre dati dai risultati dei motori di ricerca.
GPT-4 (gpt-4-0314).
Di seguito, considera l'output di questo agente basato su LangChain e osserva come l'agente passa dal pensiero, all'azione, all'osservazione in modo sequenziale fino a raggiungere una risposta finale e la catena termina.
Nella tabella che mostra i cinque livelli di agenti, noterai che gli agenti di livello uno sono basati su regole… Gli agenti basati su regole possono avere una certa autonomia, ma in pratica consistono in passaggi predefiniti che vengono eseguiti sulla base di passaggi predefiniti.

Struttura di base degli Agenti di Dominio Stretto
Gli Agenti hanno come colonna vertebrale un Modello di Linguaggio Ampio (LLM). Gli agenti hanno anche accesso a una serie di strumenti. Gli strumenti possono avere capacità specifiche, come ricerca web, API specifiche, RAG, matematica e altro ancora.
Gli strumenti sono descritti in linguaggio naturale affinché l'agente sappia quale strumento utilizzare in una fase concreta del processo. Il numero di strumenti e le capacità degli strumenti determinano la potenza dell'agente.
Considerazioni pratiche
Se consideriamo nuovamente le implementazioni di agenti in dominii limitati, è necessario tenere presente alcune considerazioni pratiche.
Sensoriale
La maggior parte degli agenti attuali è virtuale e vi si accede tramite voce o testo. Questi agenti possono ragionare e giungere a conclusioni e, a loro volta, rispondere con voce o testo. Possono essere aggiunti elementi multimodali in cui gli agenti possono ricevere immagini o video come input, o generare immagini o video come output.
Tuttavia, in generale, gli agenti non hanno altre capacità sensoriali come la vista, il tatto, il movimento, ecc. Con tutto lo sviluppo in termini di robotica, la combinazione di agenti con capacità sensoriali/fisiche segnerà l'inizio di una nuova era.
LLM Backbone
Come ho già menzionato, l'agente ha come colonna vertebrale un LLM, o più concretamente una API LLM che viene chiamata. Gli agenti passano attraverso molteplici iterazioni e chiamate all'API. C'è un'unica dipendenza che deve essere considerata, quindi direi che per qualsiasi implementazione di agente in produzione, la ridondanza dovrà essere incorporata nella colonna vertebrale dell'agente.
Gli LLM auto-ospitati o i server di inferenza locali sono il modo migliore per garantire il tempo di attività.
Costo
Utilizzare le API commerciali degli LLM sarà molto costoso, considerando che per ogni domanda posta all'agente l'LLM viene consultato più volte.
Immaginare migliaia di utenti aggraverà solo il problema dei costi.
Latencia
I sistemi conversazionali richiedono risposte in sub-secondi, qualsiasi sistema complesso, come gli agenti che devono eseguire più passaggi internamente per ogni turno di dialogo, si aggiunge alla latenza totale sperimentata dall'utente.
Questo può diventare una sfida da superare.
Non arrivare alla conclusione
È importante notare che attualmente ci sono casi in cui l'agente non arriva a una conclusione, o arriva a una conclusione prematuramente. Se l'utente può accedere e vedere i passaggi di ragionamento dell'agente, la richiesta dell'utente potrebbe essere soddisfatta tramite passaggi intermedi nel ragionamento dell'agente. In questo caso, l'utente può fermare l'agente e informarlo che sono state fornite sufficienti informazioni.
Strumenti e costi
Gli agenti devono avere accesso a strumenti per eseguire i loro compiti. Può esistere un intero mercato in cui gli strumenti vengano creati in modo condiviso. Dove i creatori non devono creare strumenti da zero, ma selezionare uno strumento esistente.
Questi strumenti possono essere gratuiti o a pagamento; gli strumenti possono accedere a API che sono a pagamento.
Il termine agenti
Man mano che l'IA è progredita, il termine agente viene utilizzato per descrivere entità che dimostrano un comportamento intelligente e possiedono capacità come:
autonomia,
reattività,
proattività ed
interazioni sociali.
Negli anni '50, Alan Turing introdusse il celebre Test di Turing, un concetto fondamentale nell'IA progettato per indagare se le macchine possono mostrare un comportamento intelligente simile a quello degli esseri umani. Queste entità di IA sono comunemente denominate agenti e costituiscono i componenti fondamentali delle risorse.
Apprendimento per trasferimento
L'apprendimento per trasferimento consiste nel sfruttare le conoscenze acquisite in un compito e applicarle a un altro.
I modelli di base tendono ad aderire a questo approccio, in cui un modello viene inizialmente addestrato su un compito correlato e successivamente affina per il compito secondario specifico di interesse.
L'apprendimento per trasferimento è un concetto potente e aumenta la versatilità dei modelli, che possono eseguire compiti mai visti basandosi sull'apprendimento pregresso.
Conclusione
In un certo senso si sta trascurando che gli Agenti Autonomi di IA rappresentano un progresso fondamentale nella tecnologia.
Gli agenti, dotati di intelligenza artificiale, hanno la capacità di:
Operare in modo indipendente,
Prendere decisioni e
Agire senza intervento umano costante.
In futuro, gli agenti autonomi di IA sono destinati a rivoluzionare settori che vanno dalla sanità e finanza alla produzione e trasporto.
Tuttavia, ci sono considerazioni relative alla responsabilità, trasparenza, etica, responsabilità e parzialità nelle decisioni.
Nonostante queste sfide, il futuro degli agenti autonomi di IA è molto promettente. Man mano che la tecnologia continua a evolversi, questi agenti si integreranno sempre di più nella nostra vita quotidiana.