Geração Aumentada de Recuperação (RAG): o que é e como evita erros de IA

A Geração Aumentada de Recuperação (RAG) é uma técnica de IA que melhora os modelos de linguagem de grande dimensão (LLM) combinando o seu conhecimento inerente com a recuperação de informações em tempo real a partir de bases de dados externas.

Esta abordagem permite que os modelos de IA generativa gerem respostas mais exatas, atualizadas e contextualmente relevantes, baseando os seus resultados em dados atuais e verificáveis.

À medida que a IA continua a integrar-se em vários aspectos das nossas vidas, desde a tomada de decisões empresariais até aos assistentes pessoais, a necessidade de informações atualizadas e exatas torna-se cada vez mais crítica. O RAG responde a esta necessidade, fechando a lacuna entre o vasto conhecimento dos modelos linguísticos e a informação factual em tempo real.

Abstract image of binary data emitted from AGI brain.

Principais conclusões

O RAG melhora os modelos de inteligência artificial generativa, combinando a geração de linguagem com a recuperação de informação em tempo real, reduzindo significativamente os erros e as alucinações da IA.
Esta técnica permite que os sistemas de IA forneçam informações atualizadas e verificáveis, cruciais para manter a confiança na tomada de decisões baseada na IA.
A implementação do RAG melhora o desempenho da IA em várias aplicações, desde chatbots e motores de pesquisa a sistemas de resposta a perguntas e resumo de texto.

Compreender o RAG

Ao basear as respostas da IA em fontes de dados externas, o RAG aborda as principais limitações dos modelos linguísticos tradicionais, tais como informações desatualizadas e alucinações. Imagine o RAG como um assistente de investigação altamente eficiente. Quando lhe é feita uma pergunta, não se baseia apenas na sua memória (como os modelos tradicionais de IA), mas procura ativamente numa vasta biblioteca de informações atualizadas para dar a resposta mais precisa e relevante possível. Esta abordagem permite que os sistemas de IA se mantenham atualizados com informações que se atualizam rapidamente e forneçam respostas mais adequadas ao contexto.

Engineer designing AI technology with reflection on eyeglasses

A importância do RAG: um conto de advertência

Imagine um executivo se preparando para uma reunião crucial com um potencial investidor. Pressionado pelo tempo, ele recorre a um assistente de IA para reunir alguns fatos de última hora sobre o seu setor. Pergunta: "Qual foi a taxa de crescimento do setor de energia renovável no ano passado?" A IA responde com confiança: "O setor da energia renovável registou uma taxa de crescimento robusta de 15,7% no ano passado, ultrapassando as fontes de energia tradicionais por uma margem significativa". Impressionado com este número específico, o executivo o inclui na sua apresentação. No entanto, durante a reunião, o potencial investidor questiona o número, afirmando que as suas fontes indicam uma taxa de crescimento de apenas 8,3%.

Este cenário ilustra um problema comum aos LLMs tradicionais: alucinações. Os LLM podem, por vezes, gerar informações plausíveis mas incorretas, especialmente quando se trata de dados específicos, recentes ou em rápida mudança.

É aqui que o RAG se torna crucial. Se o assistente de IA estivesse utilizando o RAG:

Teria pesquisado uma base de dados permanentemente atualizada para obter as informações mais recentes e precisas sobre as taxas de crescimento das energias renováveis.
Se o número exato não estivesse disponível, poderia ter fornecido um intervalo baseado em várias fontes fiáveis ou declarado explicitamente que não dispunha de dados atuais.
A resposta poderia ter incluído a fonte da informação e a data da sua última atualização.

Este exemplo sublinha a razão pela qual o RAG é tão importante:

Evita a desinformação: ao basear as respostas em fatos com fontes, o RAG reduz significativamente o risco de alucinações da IA
Mantém a confiança: os utilizadores podem confiar na IA melhorada pelo RAG para obter informações atualizadas e precisas, cruciais para as decisões empresariais.
Proporciona transparência: o RAG permite que a IA cite as fontes, permitindo que os utilizadores verifiquem as informações de forma independente.

What is RAG? (Retrieval Augmented Generation)

À medida que a IA se integra cada vez mais no nosso trabalho diário e nos processos de tomada de decisões, a capacidade de fornecer informações exatas, atuais e verificáveis torna-se não só útil, mas também essencial. O RAG é uma tecnologia fundamental para atingir este objetivo, fechando a lacuna entre o vasto conhecimento dos LLM e a necessidade de informação confiável e em tempo real.

Female and make programmers training for coding, cyber security or software on computer.

Principais componentes do RAG

Os sistemas RAG são baseados em vários elementos essenciais que trabalham em conjunto para fornecer capacidades de IA melhoradas:

Modelos linguísticos

Os grandes modelos linguísticos, como o GPT-3, o GPT-4 e o BERT, constituem o núcleo dos sistemas RAG. Estes modelos sofisticados de IA são treinados com base em grandes quantidades de texto, o que lhes permite compreender e gerar respostas semelhantes às humanas.

Nos quadros RAG, são responsáveis por:

Compreender as consultas dos usuários
Sintetizar informações a partir dos dados consultados
Gerar respostas coerentes e contextualmente adequadas

Bases de dados e sistemas de recuperação de informação

As bases de conhecimento externas armazenam informações estruturadas e não estruturadas que podem ser rapidamente acessadas e consultadas. Estas bases de dados são cruciais para fornecer informações atualizadas e específicas que podem não estar presentes nos dados de treino do modelo linguístico.

Os principais aspectos incluem:

Armazenamento eficiente de grandes volumes de dados
Sistemas rápidos de processamento e de consultas
Suporte para vários tipos de dados (texto, imagens, metadados)

Os sistemas de consulta de informação desempenham um papel vital na identificação e extração de dados relevantes destas bases de dados. Os métodos de recuperação mais comuns incluem:

Pesquisa por palavra-chave
Pesquisa vetorial
Pesquisa semântica
Algoritmo BM25 para classificar documentos relevantes

Representação e indexação de vetores

a "vetorização" de dados é fundamental para os sistemas RAG modernos. Envolve a conversão de dados de texto em vetores numéricos, permitindo a pesquisa de vetores e comparações de semelhanças. As principais caraterísticas incluem:

Geração de incorporações utilizando modelos pré-treinados
Técnicas de redução da dimensionalidade para uma representação compacta
Medidas de semelhança como a semelhança de cosseno para comparar vetores

Uma base de dados vetorial é um sistema especializado concebido para armazenar e consultar estas representações vetoriais de forma eficiente. Oferecem:

Capacidades de pesquisa rápida do vizinho mais próximo
Escalabilidade para lidar com grandes conjuntos de dados
Suporte para operações de consulta complexas

As técnicas de indexação, como os algoritmos de vizinho mais próximo aproximado (ANN), podem aumentar ainda mais a velocidade e a eficiência da recuperação nos sistemas RAG.

Emerging Digital Structure - Growing Connection Lines Symbolizing Innovative Artificial Intelligence Or Big Data Models - Technology Background

Como funciona o RAG

O processo RAG envolve várias etapas sofisticadas para consultar dados e gerar respostas exatas e contextualmente relevantes:

Passo 1: O processo de consulta

Quando é feita uma consulta ou um pedido, o sistema pesquisa uma base de conhecimentos externa para encontrar informações relevantes. Esta base de conhecimentos pode ser uma coleção de documentos, uma base de dados ou outra fonte de dados estruturada.

O RAG utiliza algoritmos de consulta avançados para identificar a informação mais relevante. Estes algoritmos podem utilizar técnicas como a pesquisa semântica ou a recuperação de vetores densos. O objetivo é encontrar dados contextualmente relevantes que possam melhorar a resposta do modelo linguístico.

Etapa 2: Arquitetura do RAG e formação do modelo

Uma arquitetura RAG funcional combina um componente codificador , um componente recuperador e um componente gerador. Eis como funcionam em conjunto:

Codificador: converte os inputs em representações vetoriais
Retriever: pesquisa a base de conhecimentos utilizando a consulta codificada
Gerador: cria a resposta final utilizando as informações obtidas

Durante o treino, os modelos RAG aprendem a equilibrar as informações do seu conhecimento interno (pré-treino) com os dados externos obtidos. Este processo melhora a capacidade do modelo para gerar respostas exatas e contextualmente relevantes.

Etapa 3: Mecanismos de reclassificação e de atenção

Após a recuperação inicial, os sistemas RAG recorrem frequentemente à reclassificação para aperfeiçoar ainda mais a relevância da informação recuperada. Este passo ajuda a dar prioridade aos dados mais valiosos para o processo de geração final. A reclassificação pode ser utilizada:

Pontuações de relevância
Medidas de semelhança semântica
Heurísticas específicas do contexto

Os mecanismos de atenção desempenham um papel crucial nas RAG, decidindo quais as partes da informação recuperada que são mais importantes para gerar a resposta. Estes sistemas permitem que o modelo se concentre em partes específicas dos dados recuperados ao elaborar o seu resultado.

A atenção no RAG ajuda o modelo:

Ponderar a importância das diferentes passagens recuperadas
Integrar o conhecimento externo com o seu conhecimento interno
Gerar respostas mais coerentes e contextualmente adequadas

Combinando estes passos, os sistemas RAG podem produzir resultados de maior qualidade que são simultaneamente corretos do ponto de vista factual e relevantes do ponto de vista contextual.

Aplicações do RAG

O RAG melhora os sistemas de IA em vários aspectos, melhorando a precisão e a relevância das tarefas de processamento e geração de informação:

Chatbots e IA de conversação

O RAG melhora significativamente os chatbots e a IA de conversação, fornecendo respostas mais exatas e contextualmente relevantes. Estes sistemas podem acessar bases de dados externas para complementar o seu conhecimento treinado, permitindo-lhes tratar eficazmente uma gama mais vasta de consultas dos usuários.

Os chatbots alimentados por RAG podem:

Fornecer informações atualizadas
Oferecer explicações detalhadas
Manter a coerência entre as conversas

Esta tecnologia é particularmente valiosa no serviço de apoio ao cliente, onde os chatbots podem consultar rapidamente detalhes específicos de produtos ou passos de resolução de problemas. Também permite diálogos mais naturais e informativos nos assistentes virtuais, tornando-os mais úteis e envolventes para os usuários.

Os principais fornecedores de IA, como a Anthropic, a Google e a OpenAI, desenvolveram modelos para a criação de chatbots RAG. Estes modelos permitem aos programadores criar chatbots que combinam capacidades avançadas do motor de busca com modelos generativos, facilitando o desenvolvimento de aplicações que podem lidar com consultas complexas e fornecer respostas inteligentes sem necessitar de uma extensa formação de modelos personalizados.

Motores de busca e pesquisa semântica

Ao combinar o poder da IA generativa com a consulta de informação, os motores de busca podem fornecer resultados mais exatos e contextualmente relevantes. As principais vantagens incluem:

Melhor compreensão da intenção do usuário
Melhoria da classificação dos resultados de pesquisa
Geração de resumos concisos para snippets de pesquisa

O RAG permite aos motores de pesquisa ir além da correspondência de palavras-chave, interpretando o significado semântico por trás das buscas. Isto torna a experiência de busca mai intuitiva, de modo que os usuários podem encontrar informações relevantes mesmo quando os seus termos de pesquisa não correspondem exatamente ao conteúdo que procuram.

Sistemas de resposta a perguntas

O RAG pode ser utilizado para criar ferramentas internas que respondam a perguntas, mesmo as mais complexas, normalmente respondidas por um ser humano. As vantagens do RAG na resposta a perguntas incluem

Acesso a informações atualizadas
Capacidade de citar fontes
Tratamento de perguntas complexas e com várias partes

Os sistemas alimentados por RAG respondem às perguntas de forma mais elaborada em áreas como o diagnóstico médico, a investigação jurídica e as plataformas educativas. Ele pode recuperar rapidamente fatos relevantes de vastas bases de dados e gerar respostas coerentes e informativas adaptadas à pergunta específica do usuário.

Explore a forma como a IA generativa na área da saúde está revolucionando os cuidados aos pacientes,

diagnóstico e descoberta de medicamentos. Saiba mais sobre as suas aplicações, benefícios e considerações éticas.

Saiba mais

RAG e Sumarização de Texto: um exemplo do mundo real

As ferramentas de sumarização com RAG são particularmente úteis em áreas como o jornalismo, a investigação acadêmica e a inteligência empresarial.

Embora muitos LLMs como o GPT-4 possam resumir um corpo de texto, as ferramentas sem capacidades RAG têm dificuldade em contextualizar esse texto numa base de conhecimento mais vasta ou em um campo com dados profundos específicos de um setor.

Imagine que um jornalista trabalhando em uma notícia de última hora sobre um novo avanço médico no tratamento do câncer.

PEle precisa resumir rapidamente um artigo de investigação extenso de 50 páginas e contextualizá-lo no campo mais vasto da oncologia. Eis como uma ferramenta de resumo com base em RAG pode ajudar:

O jornalista introduz o artigo de investigação na ferramenta de resumo com RAG.
A ferramenta processa o documento e gera uma consulta ou um conjunto de consultas com base no seu conteúdo.
Utilizando a pesquisa vetorial, o sistema consulta a sua base de dados para encontrar informações relevantes:
- Revistas médicas atualizadas
- Artigos de notícias anteriores
- Opiniões de especialistas sobre tratamentos contra o câncer
- Antecedentes dos marcos da investigação sobre o câncer
- Estatísticas sobre as atuais taxas de eficácia do tratamento do câncer
O sistema RAG consulta e classifica as informações externas mais relevantes.
A ferramenta gera então um resumo, incorporando tanto o documento original como a informação externa consultada:
- Cria um resumo básico dos pontos principais do documento
- Integra informações de base sobre marcos anteriores da investigação sobre o câncer
- Explica a terminologia médica complexa, tornando-a acessível a um público geral
- Inclui comparações com as actuais taxas de eficácia do tratamento do câncer
- Inclui pareceres de peritos sobre o impacto potencial do novo tratamento

O resultado final é um relatório abrangente e contextualizado que:

Explica a descoberta em termos mais simples
Compara-o com os tratamentos existentes
Fornece a opinião de especialistas sobre o seu potencial impacto
Situa a descoberta no panorama mais vasto da investigação sobre o câncer

Este resumo melhorado pelo RAG permite ao jornalista compreender e comunicar rapidamente o significado da investigação, mesmo sem conhecimentos profundos em oncologia. Poupa tempo, melhora a precisão e fornece uma base mais rica e informativa para os seus artigos noticiosos.

Ao tirar partido do conteúdo do documento original e de fontes externas relevantes, a ferramenta RAG produz um resumo que é mais valioso e perspicaz do que o que poderia ser obtido apenas através de técnicas de resumo tradicionais.

Digital transformation concept. System engineering. Binary code. Programming.

Desafios e limitações

A implementação de sistemas RAG pode implicar custos computacionais e financeiros significativos, especialmente quando se trata de recuperação e processamento de dados em grande escala. Eis alguns outros obstáculos potenciais à implementação da tecnologia RAG:

Lidar com a ambiguidade e as alucinações

Mesmo com as salvaguardas RAG implementadas, os sistemas de IA generativa podem ainda ter dificuldades com consultas ambíguas ou informações contraditórias nos dados recuperados. Isto pode levar a alucinações - resultados que parecem plausíveis, mas que são factualmente incorretos ou absurdos.

Para atenuar esta situação, implemente mecanismos robustos de verificação de fatos, utilize várias fontes de dados para verificação cruzada e utilize a pontuação de confiança para o conteúdo gerado.

Manter a confiabilidade e a confiança dos usuários

Criar e manter a confiança dos utilizadores usuários é fundamental para a adoção do RAG. Respostas inconsistentes ou incorretas podem rapidamente minar a confiança no sistema. As principais estratégias incluem informar os usuários sobre os limites do sistema, fornecer citações ou fontes de informação e permitir que os usuários deem feedback sobre as respostas.

Considerações sobre segurança e privacidade de dados

Os sistemas RAG acessam frequentemente grandes bases de dados, o que suscita preocupações quanto à segurança e à privacidade dos dados. Proteger as informações sensíveis e, ao mesmo tempo, manter a funcionalidade do sistema é um equilíbrio delicado.

As ressalvas mais importantes incluem controles de acesso rigorosos e encriptação para armazenamento de dados, anonimato de informações pessoais em dados de formação e auditorias de segurança e testes de penetração regulares.

Global network security technology, business people protect personal information. Encryption with a padlock icon on the virtual interface.

Infraestrutura técnica do RAG

A aplicação das RAG exige bases técnicas sólidas:

Requisitos de hardware e software

Os sistemas RAG exigem recursos computacionais significativos. Os processadores de elevado desempenho e a ampla memória são essenciais para lidar simultaneamente com grandes modelos linguísticos e operações de consulta. A aceleração da GPU revela-se frequentemente crucial para uma inferência eficiente do modelo.

Do lado do software, as estruturas especializadas facilitam a implementação do RAG. As escolhas mais populares incluem Hugging Face Transformers e LangChain.

Dimensionamento com serviços de nuvem e APIs

As API desempenham um papel crucial nos sistemas RAG, permitindo uma integração perfeita de vários componentes. Permitem o acesso a modelos linguísticos pré-treinados de código aberto, armazenamentos de documentos e bases de dados vetoriais.

As ferramentas populares de código aberto, como o Apache Kafka para fluxo de dados, o Elasticsearch para armazenamento e pesquisa de documentos e o FAISS (Facebook AI Similarity Search) para uma pesquisa eficiente de semelhanças em vetores densos, podem ser integradas através de APIs para construir sistemas RAG robustos.

Considerações finais

A Geração Aumentada de Recuperação (RAG) é uma grande melhoria na tecnologia de IA. Ele resolve os principais problemas dos modelos tradicionais de linguagem de grande dimensão utilizando a pesquisa vetorial e a IA generativa.

Esta abordagem permite aplicações de IA mais precisas, contextualmente relevantes e atualizadas em vários setores.

Plataformas como o InterSystems IRIS^® facilitam a implementação do RAG, oferecendo capacidades vetoriais integradas, processamento de elevado desempenho e integração flexível de IA num ambiente seguro e pronto para a empresa.

Com a sua capacidade de lidar com dados estruturados e não estruturados num sistema unificado, o InterSystems IRIS simplifica a arquitetura necessária para o RAG, fornecendo simultaneamente ferramentas robustas para orquestração e auditoria de IA.

À medida que a IA evolui, o RAG continuará a ser uma tecnologia fundamental para a criação de sistemas mais confiáveis, eficientes e inteligentes. Estamos no limiar de uma inovação incrível em áreas que vão desde chatbots avançados e motores de pesquisa semântica a ferramentas de análise de dados complexas.

Ao utilizar o RAG e plataformas como o InterSystems IRIS, as organizações podem criar soluções de IA que não só são mais poderosas e precisas, como também mais confiáveis e adaptáveis às necessidades do mundo real.

Perguntas frequentes sobre o RAG

A geração aumentada por recuperação (RAG) melhora os modelos linguísticos da IA incorporando fontes de conhecimento externas. Esta abordagem inovadora melhora a precisão, reduz as alucinações e expande as capacidades do modelo em várias aplicações.

Como a geração aumentada por recuperação melhora as tarefas de processamento de linguagem natural?

O RAG melhora o desempenho dos modelos linguísticos em tarefas de processamento de linguagem natural. Combina o poder generativo de grandes modelos linguísticos com mecanismos precisos de consulta de dados.

Esta integração permite que os sistemas de IA acessem informações atualizadas e forneçam respostas mais precisas. O RAG melhora tarefas como a resposta a perguntas, o resumo de textos e a geração de conteúdos.

Qual é o processo envolvido na criação de um sistema de geração aumentada por recuperação?

A criação de um sistema RAG envolve várias etapas fundamentais. Em primeiro lugar, é necessário criar incorporações da base de conhecimentos e indexar esta informação para uma consulta mais eficiente.

Em seguida, o sistema deve ser configurado para efetuar uma recuperação de baixa latência durante a inferência. Por fim, a informação consultada é integrada com os resultados do modelo linguístico para gerar respostas exatas e contextualmente relevantes.

De que forma é que a geração aumentada por recuperação difere dos modelos linguísticos tradicionais?

O RAG distingue-se dos modelos linguísticos tradicionais pelo fato de incorporar fontes de dados externas. Enquanto os modelos padrão se baseiam apenas nos seus conhecimentos pré-treinados, o RAG aumenta esses conhecimentos com informações relevantes obtidas a partir de um local separado.

Esta abordagem permite que os sistemas RAG acessem informações mais atuais e específicas, reduzindo o risco de resultados desatualizados ou incorretos. Permite também que o modelo dê respostas mais específicas e contextualmente adequadas.

Quais são algumas das aplicações comuns da geração aumentada por recuperação no machine learning?

O RAG encontra aplicações em várias tarefas de machine learning. É particularmente útil em sistemas de resposta a perguntas, onde pode fornecer informações mais precisas e atualizadas.

O RAG também melhora os chatbots e os assistentes virtuais, melhorando a sua capacidade de participar em conversas contextualmente relevantes. Além disso, é utilizado na geração de conteúdos, na sumarização de documentos e em sistemas de recuperação de informação.

Como a geração aumentada por recuperação funciona em conjunto com técnicas de aprendizagem profunda?

O RAG integra-se perfeitamente nas técnicas de aprendizagem profunda. Aproveita o poder de grandes modelos linguísticos como o GPT-3 ou o GPT-4, que se baseiam em arquiteturas de aprendizagem profunda.

O componente de recuperação do RAG utiliza métodos de aprendizagem profunda para a geração de incrustações e a pesquisa de semelhanças. Esta combinação permite que o RAG beneficie tanto das capacidades generativas dos modelos de deep learning como da precisão dos sistemas de recuperação de informação.