O que é uma camada de governança de IA corporativa?

É uma camada de software que fica entre as ferramentas da empresa e os provedores de LLM e aplica as regras da organização em cada requisição: bloqueia ou mascara dado sensível, controla gasto por orçamento, restringe quais modelos podem ser usados, isola o acesso por área e registra tudo em trilha de auditoria. A HorseLabs implementa essa camada em 5 frentes — dados, custo, modelos, acesso e conectividade — atrás de uma única chave, pra qualquer provedor.

Como a HorseLabs impede que dado sensível chegue ao provedor de LLM?

Todo prompt passa pelo gateway antes do modelo. O Escudo DLP inspeciona o conteúdo no pre-call: regras determinísticas detectam dados bancários — cartão de crédito (Luhn) —, CPF, e-mail e credenciais; uma camada de NLP detecta nome de pessoa e PII que regra não alcança. Conforme a política do time, o dado é mascarado ou a requisição é bloqueada antes de sair — e a violação fica registrada na trilha, com o dado já mascarado.

Usar a HorseLabs resolve minha conformidade com a LGPD?

Não sozinha — e desconfie de quem prometer isso. Conformidade envolve processo, base legal, contrato e gente; nenhuma ferramenta a "resolve". O que a HorseLabs entrega são os controles técnicos que sustentam a sua postura: bloqueio e mascaramento de dado pessoal antes do provedor, trilha de auditoria de violações e isolamento de acesso. E vale dizer com clareza: todo provedor relevante de LLM é estrangeiro, então transferência internacional é intrínseca ao uso de IA. Nós damos controle, redução e prova sobre o que sai — não a ilusão de que nada sai.

Preciso trocar as ferramentas que meu time já usa?

Não. A camada fala o padrão OpenAI-compatible: o que já funciona com esse padrão — IDEs, agentes, scripts, ferramentas internas — passa a apontar pro gateway trocando a base_url e usando a chave virtual do time. O colaborador não muda o fluxo; a empresa ganha o controle.

O que acontece se o detector de dados ficar fora do ar?

Fail-closed. Quando a política do time está em bloqueio e o detector fica indisponível, a camada barra a requisição em vez de deixar passar. Proteger o dado é o default de arquitetura — não uma configuração que alguém esquece de ligar.

Como funciona o controle de custo de IA?

Cada time usa uma chave virtual com orçamento próprio. O gasto aparece em tempo real por usuário, chave, time e centro de custo. Quando o consumo cruza o limiar definido, a camada dispara um alerta (webhook pro seu fluxo); quando estoura, corta. E cada requisição fica registrada: quem, qual modelo, quantos tokens, quanto custou.

Quais provedores e modelos são suportados?

Claude (Anthropic), GPT (OpenAI), Gemini (Google) e Grok (xAI), atrás da mesma chave e do mesmo padrão de API. O catálogo é alimentado pelos modelos vivos de cada provedor e governado por allowlist: tudo nasce desligado, e só entra em uso o que um administrador aprovar. Modelo não aprovado recebe 403.

Como o acesso fica isolado entre áreas e empresas?

Cada organização e cada área vive em seu próprio tenant, com papéis de escopo estrito (operador, admin, membro). As credenciais dos provedores ficam num cofre (Vault) e nunca chegam ao usuário final. Ações sensíveis exigem segundo fator, e cada acesso entra na trilha de auditoria.

Depende do escopo — tamanho da operação, número de áreas/tenants e volume de requisições. A estrutura de investimento está em horse-labs.dev/pricing; escopo e métrica são definidos antes de começar, sem surpresa.

Pedindo acesso no formulário desta página — e-mail corporativo e tamanho do time bastam. Estamos em fase de validação com empresas selecionadas: o fundador responde em até 1 dia útil.

Governança de custos de LLM

Governança de custos de LLM é tornar o gasto com modelos previsível e atribuível — com teto de orçamento, alertas em limiar, bloqueio antes do estouro e custo rastreado por cliente, time ou projeto. Este guia detalha os quatro mecanismos e como aplicá-los na camada do gateway.

Teto de orçamento

Teto de orçamento é o limite de gasto que o gateway impõe antes do estouro — não um aviso na fatura depois.

O provedor de modelo cobra por token consumido e não conhece a sua verba: ele atende a próxima chamada não importa quanto você já gastou. Por isso o teto não pode morar no provedor — ele precisa morar na camada que fica entre a sua operação e os modelos. Quando cada chamada passa por um ponto único, esse ponto pode comparar o gasto acumulado contra o orçamento definido e recusar a requisição que atravessaria o limite, antes de o token ser enviado e cobrado. A diferença entre bloquear antes e descobrir depois é a diferença entre um controle e um relatório: o primeiro evita o prejuízo, o segundo apenas o documenta quando já não há o que fazer.

O teto é definido por período e por centro de custo, de modo que cada cliente, time ou projeto carrega o próprio limite sem contaminar os demais. Quando a verba de um centro de custo acaba, só aquele centro é bloqueado — o restante da operação segue. Ao virar o período, o orçamento volta a valer e as chamadas voltam a passar, sem intervenção manual. O resultado é um teto que age como freio automático, não como alarme retroativo: o gasto fica contido dentro do que foi planejado, contrato a contrato.

Na Horse Labs, o gateway aplica orçamento por centro de custo e bloqueia automaticamente quando a verba acaba — antes do estouro, não depois.

Atribuição por cliente

Atribuição é saber quem gastou o quê: cada chamada carrega um centro de custo, então o gasto fica por cliente, time ou projeto.

Numa operação que atende vários clientes com a mesma infraestrutura, a fatura agregada do provedor é inútil para a gestão: ela diz quanto a operação inteira consumiu, mas não responde quem gerou aquele consumo nem sob qual contrato. Sem essa resposta você não consegue cobrar o custo certo de cada cliente, não enxerga qual projeto está caro e não tem base para prever o mês seguinte. A atribuição resolve isso amarrando cada chamada a um centro de custo no momento em que ela passa pelo gateway: o gasto deixa de ser um total opaco e vira uma soma rastreável por cliente, time ou projeto.

Com o gasto atribuído, a conversa muda de "a IA custou X" para "o cliente A custou X, o projeto B custou Y" — e isso vale tanto para o repasse do custo quanto para a decisão de onde otimizar. Acompanhar esses números em tempo real, e não só no fechamento, permite agir enquanto o mês ainda corre: identificar o contrato que disparou, o time que mudou o padrão de uso, o projeto que precisa de um teto mais apertado. A atribuição é o pré-requisito de qualquer cobrança justa e de qualquer otimização que não seja chute.

Na Horse Labs, o gasto por cliente fica visível em tempo real no Console e pode ser entregue por relatório.

Alertas em limiar

Alertas avisam em 50%, 80% e 100% do orçamento, antes do bloqueio — tempo de reagir.

Bloquear no estouro protege o bolso, mas pega a operação de surpresa: a chamada simplesmente para de funcionar. Os alertas existem para que ninguém chegue ao bloqueio às cegas. Conforme o consumo de um centro de custo avança, o gateway dispara avisos em marcos definidos — 50%, 80% e 100% do orçamento — dando à equipe tempo de reagir antes do corte. Aos 50% você sabe que o mês está no ritmo previsto; aos 80%, que convém olhar de perto; aos 100%, que o limite foi alcançado e o bloqueio entrou em ação.

Cada alerta pode disparar um webhook configurável, o que conecta o orçamento ao resto das ferramentas da operação: um aviso no canal do time, um chamado, um gatilho de automação. Assim a reação não depende de alguém estar olhando o painel na hora certa — o sistema avisa onde a equipe já trabalha. E quando um bloqueio precisa ser revertido por uma decisão consciente (uma campanha que justifica o gasto extra, um contrato que será reajustado), existe um fluxo de desbloqueio para liberar aquele centro de custo de forma controlada, em vez de derrubar o teto de todo mundo.

Na Horse Labs, os alertas disparam em 50/80/100% com webhook configurável e fluxo de desbloqueio.

Otimização de custo

Otimização é rotear cada tarefa pro modelo certo — não pagar por um modelo caro onde um leve resolve.

Boa parte do custo de IA que parece inevitável é, na verdade, desperdício de roteamento: tarefas simples — classificar, extrair um campo, reformular uma frase — rodando num modelo topo de linha que cobra caro por token. O modelo mais capaz nem sempre é o necessário, e usá-lo onde um modelo leve entregaria o mesmo resultado é pagar a mais por padrão. A otimização começa por enxergar isso, o que só é possível quando o gasto está atribuído: com o custo por centro de custo à vista, fica claro onde um modelo caro está fazendo um trabalho que não exige.

A escolha de modelo por centro de custo transforma esse diagnóstico em ação: cada centro de custo aponta para o modelo adequado ao seu tipo de tarefa, e a operação direciona o trabalho certo ao modelo certo sem reescrever código a cada ajuste. Tarefas que pedem capacidade vão para o modelo capaz; tarefas de volume e baixa complexidade vão para o modelo econômico. O efeito é cortar o gasto não otimizado mantendo o resultado — o custo cai porque o trabalho passa a rodar onde deveria, não porque a operação abriu mão de qualidade.

Na Horse Labs, a escolha de modelo por cost center deixa cada tarefa no modelo adequado.

FAQ

Como controlar o custo de LLM por cliente?

Atribuindo cada chamada a um centro de custo no gateway, com teto de orçamento e bloqueio automático por cliente, time ou projeto.

Dá pra bloquear o gasto antes do estouro?

Sim — o gateway aplica teto e bloqueia automaticamente quando a verba acaba, com alertas em 50/80/100% antes.

Falar sobre governança de custos