Uma das principais etapas do Processo de Gestão de Riscos envolve estabelecer controles preventivos para evitar a ocorrência dos riscos, e controles reativos para minimizar as consequências dos riscos, caso estes se desenvolvam.
De forma similar, tais controles, bastante utilizados na Análise BowTie (BTA), podem ser comparados a guardrails, ou seja, barreiras colocadas ao longo das rodovias, que protegem os veículos de desviarem seu percurso, evitando acidentes.
Com o advento da IA Generativa, o conceito de guardrails passou a se aplicar a sistemas projetados para garantir que as ferramentas de IA das organizações, incluindo determinados modelos de linguagem (LLMs ou large language models), funcionem em linha com padrões, políticas e valores organizacionais.
Embora a IA Generativa possa melhorar a eficiência, a inovação e gerar vantagens competitivas, ela também pode introduzir desafios e riscos. Assim, à medida que a adoção dessa tecnologia se dissemina, os guardrails passam a ser cruciais para o uso responsável da IA.
Como então utilizar esses guardrails de forma eficaz e confiável para, junto com a Análise BowTie, aprimorar o desempenho dos sistemas de IA?
Principais aplicações e benefícios dos guardrails de IA
Os guardrails de IA podem identificar e remover conteúdo impreciso gerado por LLMs, bem como monitorar e filtrar prompts (comandos fornecidos pelos usuários) arriscados. Esse conteúdo sensível pode incluir vulnerabilidades de segurança, alucinações, conteúdo tóxico ou inapropriado e desinformação.
Porém, assim como os guardrails na rodovia não eliminam o risco de ferimentos ou fatalidades, os guardrails de IA não garantem que os sistemas de IA sejam completamente seguros, justos, compatíveis e éticos.
Para obter melhores resultados, as organizações podem implementar guardrails de IA junto a outros controles processuais (como, por exemplo, softwares de monitoramento e conformidade, rotinas de teste e avaliação), bem como tecnologias de IA mais adequadas para dimensionar a governança de IA nas empresas.
Além disso, para fomentar o ambiente de inovação, é importante que as tecnologias de IA operem com segurança e responsabilidade, com os guardrails de IA desempenhando um papel crítico. Alguns benefícios que eles podem oferecer às organizações incluem:
Privacidade e segurança: os sistemas de IA são suscetíveis a ataques de agentes mal-intencionados que exploram vulnerabilidades para manipular resultados gerados por IA. Os guardrails podem reforçar os sistemas de IA contra esses ataques, ajudando a proteger as organizações e seus clientes.
Conformidade regulatória: com o crescente escrutínio governamental das tecnologias de IA, as organizações devem assegurar que seus sistemas de IA estejam em conformidade com as leis e padrões atuais e emergentes. Ao ajudar as organizações a manter a conformidade dos sistemas de IA, os guardrails podem mitigar o risco de penalidades legais e obrigações decorrentes do uso dessas ferramentas.
Confiabilidade: garantir sistemas de IA seguros e confiáveis é fundamental para clientes e demais partes interessadas. Os guardrails permitem o monitoramento e a análise crítica contínuos de saídas geradas por IA, o que pode reduzir o risco de conteúdo confidencial ser divulgado fora da organização.
De forma prática, as organizações podem dimensionar seus guardrails de IA incorporando-os em plataformas corporativas. Algumas delas fornecem guardrails de IA no ambiente de produção para ajudar a garantir a governança de IA em escala e reduzir os riscos de violações de privacidade de dados, vieses, alucinações e violação de propriedade intelectual.
No setor financeiro, algumas empresas desenvolvem chatbots de IA com guardrails para garantir interações precisas e seguras com os clientes. Os guardrails são aplicados para filtrar informações confidenciais e conselhos potencialmente arriscados aos clientes, bem como garantir a conformidade com requisitos legais.
Por se tratar de uma ferramenta de suporte, é vital desde o início projetar os chatbots de IA com guardrails para garantir que eles forneçam saídas seguras aos clientes, ao mesmo tempo em que cumpram as exigências regulatórias.
Tipos de guardrails de IA e seu funcionamento
Os guardrails de IA são agrupados de acordo com sua finalidade e os tipos de riscos que abordam. Vejamos a seguir alguns exemplos, em função de riscos específicos:
Guardrails de adequação: verificam se o conteúdo gerado pela IA é tóxico, prejudicial, tendencioso ou baseado em estereótipos, e filtram qualquer conteúdo inapropriado antes que ele chegue aos clientes.
Guardrails de alucinação: garantem que o conteúdo gerado pelas ferramentas de IA não contenha informações que sejam factualmente erradas ou enganosas.
Guardrails de conformidade regulatória: validam se o conteúdo gerado atende a requisitos regulatórios, sejam esses requisitos gerais ou específicos para o setor ou caso de uso.
Guardrails de alinhamento: garantem que o conteúdo esteja alinhado com as expectativas do usuário e não se desvie de seu propósito principal. Esses guardrails podem ajudar a manter a consistência da marca, por exemplo.
Guardrails de validação: verificam se o conteúdo atende a critérios específicos, ou seja, se o conteúdo contém ou não certas informações. Se uma parte do conteúdo gerado for sinalizada por um guardrail de validação, o conteúdo pode ser redirecionado para um loop de correção para retificar o erro.
A validação deve ser a última de uma série de tarefas que os guardrails de IA realizam. Após isso, uma pessoa responsável pela validação deve analisar criticamente casos sinalizados ou ambíguos que exigem raciocínio humano.
Guardrails de IA são construídos usando uma variedade de técnicas, desde sistemas baseados em regras a LLMs. No final, porém, a maioria dos guardrails é totalmente determinística, ou seja, os sistemas sempre geram a mesma saída para a mesma entrada, sem aleatoriedade ou variabilidade.
Geralmente, os guardrails monitoram a saída dos sistemas de IA executando uma série de tarefas: por exemplo, classificação, validação semântica, detecção de vazamentos de informações pessoais e identificação de conteúdo prejudicial.
Para executar essas tarefas, os guardrails de IA são compostos por quatro componentes inter-relacionados, cada qual desempenhando um papel crucial:
Verificador: verifica o conteúdo gerado pela IA para detectar erros e sinalizar problemas, como linguagem ofensiva ou respostas tendenciosas. Ele atua como a primeira linha de defesa, identificando problemas potenciais antes que estes possam causar danos ou violar diretrizes éticas.
Corretor: Uma vez que o verificador identifica um problema, o corretor refina, corrige e/ou melhora a saída da IA, conforme necessário. Ele pode corrigir imprecisões, remover conteúdo inapropriado e garantir que a resposta seja precisa e alinhada com a mensagem pretendida. O corretor trabalha iterativamente, refinando o conteúdo até que este atenda aos padrões exigidos.
Trilho (rail): O trilho gerencia a interação entre o verificador e o corretor. Ele executa verificações no conteúdo e, se o conteúdo não atender a nenhum padrão, aciona o corretor para fazer ajustes.
Esse processo é repetido até que o conteúdo passe em todas as verificações ou atinja um limite de correção predefinido. O trilho também registra os processos do verificador e do corretor, fornecendo dados para análise posterior.
Vigia (guard): O vigia interage com todos os outros três componentes, iniciando verificadores e corretores junto com os trilhos, gerenciando e agregando os resultados dos trilhos e entregando mensagens corrigidas.
Guardrails de IA e Análise BowTie
![]() |
Diagrama BowTie* - Divulgação de informações confidenciais dos clientes (clique aqui para abrir a imagem em uma nova guia) |