I 5 diversi livelli di agenti IA

Quali sono i 5 diversi livelli di agenti IA?

Gli agenti IA sono definiti come entità artificiali in grado di percepire l’ambiente circostante, prendere decisioni e intraprendere azioni sulla base degli strumenti disponibili.

Considerazioni sul dominio

C’è stato molto clamore, allarmismo e speculazione sull’AGI o Superintelligenza Artificiale (ASI) e su ciò che le organizzazioni stanno preparando. Ma la cosa più interessante è come sfruttare la potenza degli LLM e degli Agenti Autonomi di IA per implementazioni in domini specifici nelle organizzazioni.

Il grande motore commerciale delle interfacce utente conversazionali sono le aziende bancarie, commerciali, di servizi finanziari, ecc., che creano interfacce utente basate sull’intelligenza artificiale per consentire agli utenti di interagire con prodotti e servizi. 

Qualsiasi entità in grado di percepire l’ambiente circostante e di compiere azioni può essere considerata un agente.

A che punto siamo attualmente?

Considerando le implementazioni a dominio limitato, attualmente ci troviamo ai livelli due e tre; molto probabilmente al livello 2.5.

LangChain ha guidato la creazione di framework per lo sviluppo di agenti. DSPy nella programmazione di LLM e LLamaIndex con il suo approccio RAG agentico.

Questi agenti rappresentano tra il 50% e il 90% degli adulti qualificati, con capacità di automazione di compiti strategici. Sulla base dell’input dell’utente, gli agenti possono scomporre la descrizione dell’utente, pianificare sottocompiti ed eseguire tali compiti in modo ordinato per giungere a una conclusione.

Questi agenti sono in grado di iterare su sottocompiti intermedi fino a raggiungere una risposta conclusiva.

Esempio pratico

Consideriamo la seguente domanda: Chi è considerato il padre dell’iPhone e qual è la radice quadrata del suo anno di nascita?

Si tratta di una domanda piuttosto ambigua e complessa a cui rispondere, che richiede una serie di passaggi per arrivare a una risposta. C’è un compito matematico e lo scopo, ma è anche necessario recuperare conoscenze per rispondere alla domanda.

Per questo esempio pratico, l’agente dispone di alcune azioni:

  1. Laurea magistrale in Giurisprudenza, Matematica
  2. SerpApi, di seguito è riportato uno screenshot del sito web di SerpApi. SerpApi consente di estrarre dati dai risultati dei motori di ricerca.
  3. GPT-4 (gpt-4-0314).

Consideriamo ora l’output di questo agente basato su LangChain e osserviamo come l’agente passi dal pensiero all’azione all’osservazione in modo sequenziale fino a raggiungere una risposta finale e la catena si concluda.

Nella tabella che mostra i cinque livelli di agenti, noterai che gli agenti di livello uno sono basati su regole… Gli agenti basati su regole possono avere una certa autonomia, ma in pratica consistono in passaggi predefiniti che vengono eseguiti sulla base di passaggi predefiniti.

Struttura di base degli agenti di dominio ristretto

Gli agenti hanno come colonna portante un modello di linguaggio ampio (LLM). Gli agenti hanno anche accesso a una serie di strumenti. Gli strumenti possono avere funzionalità specifiche, come ricerca web, API specifiche, RAG, matematica e altro ancora.

Gli strumenti sono descritti in linguaggio naturale affinché l’agente sappia quale strumento utilizzare in una fase specifica del processo. Il numero e le capacità degli strumenti determinano la potenza dell’agente.

Considerazioni pratiche

Se torniamo a considerare le implementazioni degli agenti in domini limitati, occorre tenere conto di alcune considerazioni pratiche.

Sensoriale

La maggior parte degli agenti attuali sono virtuali e vi si accede tramite voce o testo. Questi agenti sono in grado di ragionare e giungere a conclusioni e, a loro volta, rispondere con voce o testo. È possibile aggiungere elementi multimodali in cui gli agenti possono ricevere immagini o video come input, oppure generare immagini o video come output.

Tuttavia, in generale gli agenti non dispongono di altre capacità sensoriali quali la vista, il tatto, il movimento, ecc. Con tutti i progressi compiuti nel campo della robotica, la combinazione di agenti con capacità sensoriali/fisiche segnerà l’inizio di una nuova era.

LLM Backbone

Come ho già detto, l’agente ha come spina dorsale un LLM, o più precisamente un’API LLM a cui viene fatto riferimento. Gli agenti passano attraverso molteplici iterazioni e chiamate all’API. C’è un’unica dipendenza che deve essere gestita, quindi direi che per qualsiasi implementazione di agente di produzione, la ridondanza dovrà essere incorporata nella spina dorsale dell’agente.

I modelli LLM self-hosted o i server di inferenza locali sono il modo migliore per garantire l’operatività.

Costo

L’utilizzo delle API commerciali LLM sarà molto costoso, considerando che per ogni domanda posta all’agente, l’LLM viene consultato più volte.

Immaginare migliaia di utenti non farà che aggravare il problema dei costi.

Latenza

I sistemi conversazionali richiedono risposte in pochi secondi; qualsiasi sistema complesso, come gli agenti che devono eseguire più passaggi internamente per ogni turno di dialogo, aumenta la latenza totale percepita dall’utente.

Questo può diventare una sfida da superare.

Non giungere a una conclusione

È importante sottolineare che attualmente esistono casi in cui l’agente non giunge a una conclusione o giunge a una conclusione prematura. Se l’utente può accedere e visualizzare i passaggi del ragionamento dell’agente, la richiesta dell’utente potrebbe essere soddisfatta tramite passaggi intermedi nel ragionamento dell’agente. In questo caso, l’utente può interrompere l’agente e informarlo che sono state fornite informazioni sufficienti.

Strumenti e costi

Con il progredire dell’IA, il termine agente viene utilizzato per descrivere entità che dimostrano un comportamento intelligente e possiedono capacità quali:

  • autonomia,
  • reattività,
  • proattività e
  • interazioni sociali.

Negli anni ’50, Alan Turing introdusse l’iconico Test di Turing, un concetto fondamentale nell’IA progettato per indagare se le macchine possano mostrare un comportamento intelligente simile a quello umano. Queste entità di IA sono spesso chiamate agenti e costituiscono i componenti fondamentali delle risorse.

Il termine agenti

Gli agenti devono avere accesso agli strumenti necessari per svolgere i propri compiti. Potrebbe esistere un intero mercato in cui gli strumenti vengono creati in modo condiviso. Dove i creatori non devono creare strumenti da zero, ma selezionare uno strumento esistente.

Questi strumenti possono essere gratuiti o a pagamento; gli strumenti possono accedere ad API a pagamento.

Apprendimento per trasferimento

L’apprendimento per trasferimento consiste nel mettere a frutto le conoscenze acquisite in un compito e applicarle a un altro.

I modelli di fondazione tendono ad aderire a questo approccio, in cui un modello viene inizialmente addestrato su un compito correlato e successivamente perfezionato per il compito specifico di interesse.

L’apprendimento per trasferimento è un concetto potente e aumenta la versatilità dei modelli, che possono svolgere compiti mai visti prima sulla base dell’apprendimento precedente.

Conclusione

Si sta trascurando il fatto che gli agenti autonomi di IA rappresentano un progresso fondamentale nella tecnologia.

Gli agenti, dotati di intelligenza artificiale, hanno la capacità di:

  • Operare in modo indipendente,
  • Prendere decisioni e
  • Agire senza un intervento umano costante.

In futuro, gli agenti autonomi di IA sono destinati a rivoluzionare settori che vanno dalla sanità alla finanza, dalla produzione al trasporto.

Tuttavia, esistono considerazioni relative alla responsabilità, alla trasparenza, all’etica, alla responsabilità e all’imparzialità nel processo decisionale.

Nonostante queste sfide, il futuro degli agenti autonomi di IA è molto promettente. Con l’evolversi della tecnologia, questi agenti saranno sempre più integrati nella nostra vita quotidiana.

Richiedere informazioni