Há duas posições populares no debate sobre IA em decisões críticas e ambas estão erradas.
A primeira: "LLM resolve tudo, motor de regras é coisa do passado". Quem defende essa posição costuma ter mais experiência em chatbot do que em produção financeira.
A segunda: "LLM é caixa-preta, decisão crítica continua sendo motor de regras". Quem defende essa posição costuma estar tentando vender exatamente um motor de regras (geralmente em torno de Drools ou similar).
A realidade técnica em produção real é mais sutil. Decisões automatizadas que escalam sem explodir compliance e sem perder qualidade são, quase sempre, híbridas.
Onde LLMs ganham, onde regras ganham
LLMs são dominantes onde o input é não-estruturado e o universo de variações é amplo: extrair campos de PDFs com layouts diferentes (problema endereçado por modelos como LayoutLM da Microsoft), normalizar atividades econômicas descritas em texto livre, classificar tom de e-mail. Tarefas onde o problema é "interpretação".
Regras são dominantes onde a decisão precisa ser determinística, auditável linha-a-linha e responder a política versionada: aplicar limites de exposição, validar combinações proibidas, calcular fatores de pricing. Tarefas onde o problema é "enforcement".
Misturar essas responsabilidades produz dois tipos de falha. LLMs aplicando regras quebram em casos que estão fora da distribuição de treino sem aviso. Motores de regras interpretando texto produzem combinações explosivas de regex que falham silenciosamente.
A arquitetura híbrida começa com uma pergunta: para cada decisão atômica no pipeline, isso é interpretação ou enforcement?
Exemplo: submissão de risco P&C industrial
Chega um e-mail de uma corretora corporativa Tier-1, com 9 anexos: questionário, três cotações antigas, layout do parque industrial, fotos do galpão, certificado de inspeção, balanço, proposta.
Etapa 1 — Extração (LLM). O sistema descompacta, identifica cada anexo, extrai campos, normaliza atividade econômica ("fabricação de embalagens metálicas para alimentos" → CNAE 2592-6/01) e estrutura em schema. LLM faz porque cada documento é semi-estruturado.
Etapa 2 — Validação de extração (Regras). Antes de prosseguir, motor de regras valida invariantes: CNPJ tem 14 dígitos válidos? CNAE existe na tabela oficial? Faturamento é compatível com o porte? Divergência é flagada para revisão.
Etapa 3 — Enriquecimento (Híbrido). Cruza CNPJ com bases. Consulta é determinística (regras). Interpretação dos resultados — classificar processos judiciais como "operacional" vs "regulatório" vs "fraude" — usa LLM.
Etapa 4 — Classificação por apetite (Regras + LLM). Regras aplicam critérios duros: CNAE está em exclusão? Região tem suspensão? Faturamento ultrapassa limite? Se qualquer regra hard dispara, decisão é determinística e não passamos pelo LLM. Se o caso é borderline, LLM-as-judge avalia o contexto e produz recomendação textual + score (técnica relacionada ao Constitutional AI da Anthropic, em que o LLM é treinado para seguir critérios explícitos).
Etapa 5 — Pricing (Modelo ML + Regras). Motor de pricing tabular sugere prêmio. Regras aplicam ajustes determinísticos: fatores regulatórios, comissão, IOF, mínimo técnico.
Etapa 6 — Geração de output (LLM). Caso é apresentado ao underwriter com dados estruturados, score, decomposição, alertas, casos similares e justificativa textual coerente — gerada por LLM, mas restrita a inputs verificáveis das etapas anteriores.
A regra de ouro
Em todo o pipeline, há uma regra que não negociamos: o LLM nunca é o decisor final em uma decisão que afeta o livro. Ele extrai, classifica, recomenda, gera explicação. A decisão final, quando automática, é tomada por motor de regras com apoio do score do modelo tabular calibrado. Quando manual, é tomada pelo underwriter com o contexto preparado pelos dois.
LLMs interpretam. Regras enforçam. Modelos tabulares scoream. A decisão crítica é tomada pelo conjunto.
LLMs em produção, mesmo os melhores, têm uma cauda de comportamento inesperado em casos fora da distribuição. Para a maioria das aplicações, gerenciável. Para decisões financeiras com efeito em loss ratio e exposição regulatória, inaceitável como primeira linha.
Isso não diminui o LLM. Pelo contrário — ele faz o trabalho que regras não conseguem (interpretação) e libera regras para fazer o que elas fazem melhor (enforcement).
O erro mais comum
Em conversas com equipes de IA em seguradoras, o padrão de erro mais frequente é: time monta pipeline integralmente baseado em LLM, demonstra POC bonito com 10 casos cuidadosamente escolhidos, sobe para staging, escala para 5.000 casos, descobre que 2% têm comportamento esquisito, tenta corrigir com prompt engineering, vê regression em casos que antes funcionavam, e termina o trimestre com sistema mais frágil que o manual que substituiu.
A correção não é "voltar para regras". É reconhecer onde cada tecnologia tem força e desenhar a divisão de trabalho desde o começo. A auditoria desse pipeline híbrido — qual modelo decidiu, em qual versão, com quais inputs — é o tema de Explicabilidade que vai além do SHAP, e seu monitoramento contínuo está em Observabilidade de agentes.
LLMs interpretam. Regras enforçam. Modelos tabulares scoream. A decisão crítica é tomada pelo conjunto — não pelo componente mais novo.
Referências e leituras
- Xu et al. — LayoutLM (Microsoft Research) · parsing layout-aware de documentos
- Bai et al. — Constitutional AI (Anthropic) · LLM com critérios explícitos
- Drools · motor de regras open-source
- Explicabilidade que vai além do SHAP · auditoria de pipelines híbridos
- Observabilidade de agentes em produção · monitoramento contínuo