Publicado:

Os 5 níveis diferentes de agentes de IA

Os agentes de IA são definidos como entidades artificiais que podem perceber o seu ambiente, tomar decisões e empreender ações com base nas ferramentas disponíveis.

Considerações sobre o domínio

Tem havido muita agitação, alarmismo e especulação sobre a AGI ou a Superinteligência Artificial (ASI) e o que as organizações estão preparando. Mas o mais interessante é como aproveitar o poder dos LLM e dos Agentes Autônomos de IA para implementações de domínios específicos nas organizações.

O grande motor comercial das interfaces de usuário conversacionais são as empresas de banca, comércio varejista, serviços financeiros, etc., que criam interfaces de usuário baseadas em IA para que os usuários interajam com produtos e serviços. 

Qualquer entidade capaz de perceber seu ambiente e executar ações pode ser considerada um agente.

Onde nos encontramos atualmente?

Considerando as implementações de domínio limitado, atualmente nos encontramos nos níveis dois e três; muito provavelmente no nível 2.5.

LangChain tem liderado a criação de estruturas para o desenvolvimento de Agentes. DSPy na programação de LLM e LLamaIndex com sua abordagem RAG agêntica.

Estes agentes situam-se entre 50% e 90% dos adultos qualificados, com capacidades de automação de tarefas estratégicas. Com base na entrada do usuário, os agentes podem decompor a descrição do usuário, planejar subtarefas e executar essas tarefas de forma ordenada para chegar a uma conclusão.

Estes agentes são capazes de iterar sobre subtarefas intermediárias até chegar a uma resposta conclusiva.

Exemplo prático

Consideramos a seguinte pergunta: Quem se considera o pai do iPhone e qual é a raiz quadrada do seu ano de nascimento?

Trata-se de uma pergunta bastante ambígua e complexa de responder, que exige seguir uma série de passos para chegar a uma resposta. Há uma tarefa matemática e o fim, mas também é necessário recuperar conhecimentos para responder à pergunta.

Para este exemplo prático, o agente dispõe de algumas ações:

  1. LLM Math,

  2. SerpApi, abaixo há uma captura de tela do site da SerpApi. SerpApi permite extrair dados dos resultados dos motores de busca.

  3. GPT-4 (gpt-4-0314).

A seguir, considere a saída deste agente baseado em LangChain e observe como o agente vai do pensamento, à ação, à observação de forma sequencial até chegar a uma resposta final e a cadeia se encerra.

Na tabela que mostra os cinco níveis de agentes, você perceberá que os agentes do nível um são baseados em regras… Os agentes baseados em regras podem ter certa autonomia, mas na prática, consistem em passos predefinidos que são executados com base em passos predefinidos.

Estrutura básica dos Agentes de Domínio Restrito

Os Agentes têm como coluna vertebral um Modelo de Linguagem Ampla (LLM). Os agentes também têm acesso a uma série de ferramentas. As ferramentas podem ter capacidades específicas, como busca na web, APIs específicas, RAG, matemática e mais.

As ferramentas são descritas em linguagem natural para que o agente saiba qual ferramenta usar em uma fase concreta do processo. O número de ferramentas e as capacidades das ferramentas determinam quão potente é o agente.

Considerações práticas

Se voltarmos a considerar as implementações de Agentes em domínios limitados, é preciso levar em conta algumas considerações práticas.

Sensorial

A maioria dos agentes atuais é virtual e pode ser acessada por voz ou texto. Esses agentes podem raciocinar e chegar a conclusões e, por sua vez, responder com voz ou texto. Podem ser adicionados elementos multimodais nos quais os agentes podem receber imagens ou vídeo como entrada, ou gerar imagens ou vídeo como saída.

No entanto, em geral, os agentes não possuem outras capacidades sensoriais como visão, tato, movimento, etc. Com todo o desenvolvimento em termos de robótica, a combinação de agentes com capacidade sensorial / física marcará o início de uma nova era.

LLM Backbone

Como mencionei antes, o agente tem como coluna vertebral um LLM, ou mais concretamente uma API LLM à qual se chama. Os agentes passam por múltiplas iterações e chamadas à API. Há uma única dependência que precisa ser atendida, por isso eu diria que para qualquer implementação de agente de produção, a redundância terá que ser incorporada na coluna vertebral do agente.

Os LLM auto-hospedados ou servidores de inferência locais são a melhor forma de garantir o tempo de atividade.

Custo

Fazer uso das APIs comerciais de LLM será muito dispendioso, considerando que para cada pergunta feita ao agente o LLM é consultado várias vezes.

Imaginar milhares de usuários só agravará o problema dos custos.

Latência

Os sistemas conversacionais exigem respostas em milissegundos; qualquer sistema complexo, como os agentes que precisam realizar múltiplos passos internamente para cada turno de diálogo, aumenta a latência total experimentada pelo usuário.

Isso pode se tornar um desafio a ser superado.

Não chegar à conclusão

É importante notar que atualmente existem casos em que o agente não chega a uma conclusão, ou chega a uma conclusão prematuramente. Se o usuário puder acessar e ver os passos de raciocínio do agente, a consulta do usuário poderia ser atendida por meio de passos intermediários no raciocínio do agente. Nesse caso, o usuário pode interromper o agente e informá-lo de que foi fornecida informação suficiente.

Ferramentas e custos

Os agentes precisam ter acesso a ferramentas para realizar suas tarefas. Pode haver todo um mercado onde as ferramentas são criadas de forma compartilhada. Onde os criadores não precisam criar ferramentas do zero, mas sim selecionar uma ferramenta existente.

Essas ferramentas podem ser gratuitas ou pagas; as ferramentas podem acessar APIs que são pagas.

O termo agentes

À medida que a IA tem avançado, o termo agente é usado para descrever entidades que demonstram um comportamento inteligente e possuem capacidades como:

  • autonomia,

  • reatividade,

  • proatividade e

  • interações sociais.

Na década de 1950, Alan Turing introduziu o emblemático Teste de Turing, um conceito fundamental na IA projetado para investigar se as máquinas podem exibir um comportamento inteligente semelhante ao dos humanos. Essas entidades de IA costumam ser chamadas de agentes e constituem os componentes fundamentais dos recursos.

Aprendizado por transferência

O aprendizado por transferência consiste em aproveitar os conhecimentos adquiridos em uma tarefa e aplicá-los a outra.

Os modelos de base costumam aderir a essa abordagem, na qual um modelo é treinado inicialmente em uma tarefa relacionada e, em seguida, aprimorado para a tarefa específica de interesse.

O aprendizado por transferência é um conceito poderoso e aumenta a versatilidade dos modelos, que podem realizar tarefas nunca vistas com base no aprendizado anterior.

Conclusão

De alguma maneira,  está sendo negligenciado que os Agentes Autônomos de IA representam um avanço fundamental em tecnologia.

Os agentes, dotados de inteligência artificial, têm a capacidade de:

  • Operar de forma independente,

  • Tomar decisões e

  • Agir sem intervenção humana constante.

No futuro, os agentes autônomos de IA estão chamados a revolucionar setores que vão desde a saúde e as finanças até a fabricação e o transporte.

No entanto, existem considerações relativas à responsabilização, transparência, ética, responsabilidade e parcialidade na tomada de decisões.

Apesar desses desafios, o futuro dos agentes autônomos de IA é muito promissor. À medida que a tecnologia continua a evoluir, esses agentes se integrarão cada vez mais em nossa vida cotidiana.