Ollama no ERP Web Posseidom: IA on-premise com GPT-OSS e dados do SQL Server em todas as áreas

A maioria dos ERPs “tradicionais” ainda trabalha num ritmo diferente do mundo real: o dado existe, mas está espalhado; o usuário sabe o que quer, mas não sabe exatamente onde procurar; e o tempo gasto para transformar informação em decisão continua alto. É aqui que entra uma arquitetura que faz sentido para quem já tem processos, dados e regras consolidadas: IA rodando localmente (on-premise), perto do banco, com governança e auditoria.

No Posseidom ERP Web, o papel do Ollama é ser o “motor” de execução dos modelos de linguagem dentro da sua infraestrutura — com baixa latência, controle total e sem expor dados sensíveis para fora. Em vez de “mandar tudo para a nuvem e torcer”, você cria uma camada de inteligência que conversa com o SQL Server de forma segura, respeitando perfil de acesso, regras de negócio e trilha de auditoria.

1) O que o Ollama faz, na prática, dentro do Posseidom

Ollama é, essencialmente, o runtime que permite servir modelos localmente com um fluxo simples de inferência: você envia um prompt, recebe uma resposta — com suporte a streaming, controle de contexto e gerenciamento de modelos. Dentro do ERP, o Ollama vira um serviço interno (no seu datacenter) que o Posseidom chama do mesmo jeito que chamaria uma API interna.

A diferença não é “ter IA”. A diferença é onde ela roda e como ela se conecta ao seu domínio:

  • Roda na sua infraestrutura (servidor, GPU/CPU, regras de rede).
  • É acessada pelo ERP por uma integração controlada (endpoint interno).
  • Pode ser escalada (fila, workers, balanceamento, cache).
  • Pode ser governada (logs, auditoria, limites por usuário/empresa/filial).

Isso tira o ERP do modo “tela e relatório” e coloca no modo “pergunta e ação”.

2) GPT-OSS como cérebro: modelo privado, respostas consistentes

O modelo GPT-OSS (ou qualquer LLM “open/ownable” que você hospede) vira o núcleo cognitivo. Mas um LLM sozinho é apenas linguagem: ele escreve bem, porém não “sabe” seus números, seus clientes, suas notas fiscais, seu estoque, suas regras de preço, seus centros de custo.

Por isso, a arquitetura correta no Posseidom não é “prompt solto”. É modelo + contexto + política de acesso + fontes confiáveis.

O GPT-OSS é chamado para tarefas como:

  • Explicar um resultado (ex.: “por que a margem caiu?”).
  • Produzir um diagnóstico (ex.: “o que está pressionando o caixa?”).
  • Montar um plano (ex.: “o que priorizar no giro de estoque?”).
  • Resumir e comparar (ex.: “fornecedores por prazo e custo nos últimos 6 meses”).
  • Orientar operação (ex.: “checklist de faturamento para um pedido específico”).

A credibilidade da resposta depende de um ponto: o contexto precisa vir do SQL Server de forma controlada.

3) O SQL Server como fonte de verdade: como a IA usa dados de todas as áreas

Aqui está a virada de chave: o Posseidom não “entrega o banco” para a IA. Ele entrega recortes do banco, com regras claras. Isso normalmente é feito com três pilares:

(a) Camada de Dados Curada (Views / Stored Procedures / APIs internas)
Em vez de permitir SQL livre, você define fontes oficiais por área, por exemplo:

  • vw_financeiro_fluxo_caixa, sp_financeiro_resumo_mes
  • vw_vendas_pipeline, sp_vendas_top_clientes
  • vw_estoque_giro, sp_estoque_reposicao
  • vw_fiscal_nf_emitidas, sp_fiscal_inconsistencias
  • vw_compras_prazos, sp_compras_rupturas
  • vw_crm_followups, sp_crm_oportunidades_paradas

Isso é governança. E é isso que impede a IA de “inventar consulta” ou puxar dado sensível além do necessário.

(b) Orquestração do Contexto (RAG/Context Builder)
Quando o usuário pergunta algo, o Posseidom constrói um “pacote de contexto” com:

  • Identidade do usuário (tenant/empresa/filial, papel, permissões).
  • Intenção (financeiro? vendas? estoque? fiscal?).
  • Intervalo de tempo (últimos 7/30/90 dias, YTD, comparativos).
  • Dados agregados (tabelas pequenas e objetivas).
  • Evidências (IDs, datas, totais, exceções).

Esse pacote é o que o modelo recebe antes de responder.

(c) Segurança e Compliance (RBAC, mascaramento, auditoria)
A IA só “enxerga” o que o usuário já poderia ver no ERP. E cada resposta gera log:

  • Quem perguntou.
  • Qual área foi acessada.
  • Quais fontes (views/SPs) foram consultadas.
  • Quais registros/intervalos foram usados.
  • Qual foi a resposta final.

Isso transforma a IA em algo auditável — e não numa “caixa preta”.

4) Como o fluxo funciona do clique ao resultado

Um fluxo típico dentro do Posseidom, com Ollama + GPT-OSS + SQL Server, fica assim:

  1. Usuário pergunta no ERP
    Ex.: “Por que o caixa apertou este mês?”
  2. Classificador de intenção (leve)
    O ERP identifica que a pergunta é financeira e define quais fontes pode consultar.
  3. Coleta de contexto no SQL Server
    O sistema chama stored procedures e views de resumo:
    • entradas/saídas por categoria
    • contas a pagar vencidas vs. a vencer
    • recebíveis em atraso
    • variação de faturamento
    • despesas recorrentes vs. não recorrentes
  4. Montagem do prompt com dados
    O prompt vai com instruções do tipo:
    • “Responda com base nos dados abaixo; não invente números.”
    • “Liste 3 causas prováveis e cite evidências.”
    • “Sugira ações práticas com impacto estimado.”
  5. Chamada ao Ollama
    O Posseidom envia isso para o runtime local do Ollama, que executa o GPT-OSS e devolve a resposta (pode ser streaming).
  6. Pós-processamento
    O ERP valida formatação, destaca evidências, coloca links internos (ex.: abrir a tela de contas vencidas) e grava auditoria.

Resultado: o usuário não recebe “texto bonito”. Recebe análise com rastreabilidade.

5) Casos de uso por área: o que muda na prática

Financeiro

  • “Explique a variação do caixa e mostre os 5 itens que mais pesaram.”
  • “Quais clientes mais atrasaram pagamento no trimestre?”
  • “Simule impacto de reduzir prazo médio de recebimento em 10 dias.”

Vendas

  • “Quais produtos estão derrubando margem e por quê?”
  • “Quais clientes reduziram compra e em quais categorias?”
  • “Crie um argumento de venda com base no histórico do cliente X.”

CRM

  • “Quais oportunidades estão paradas há mais de 15 dias e qual próximo passo?”
  • “Resuma o histórico do cliente antes da ligação.”
  • “Escreva um follow-up objetivo com base no último contato.”

Estoque

  • “Itens com risco de ruptura em 14 dias considerando giro e lead time.”
  • “Sugira reposição priorizando margem e saída.”
  • “Quais produtos têm estoque alto e venda em queda?”

Compras

  • “Fornecedores com pior prazo real vs. prazo prometido.”
  • “Itens com maior impacto no custo final (variação de preço).”
  • “Negociação: escreva um e-mail com argumentos usando histórico.”

Fiscal

  • “Detecte padrões de inconsistência (CFOP, CST, NCM) por período.”
  • “Liste notas com divergência de impostos e provável causa.”
  • “Explique uma regra fiscal de forma simples para o usuário.”

Operação/Industrial (se aplicável)

  • “Ordens com maior atraso e gargalos recorrentes.”
  • “Perdas e retrabalho: tendências e hipóteses com evidência.”

O ponto comum: a IA deixa de ser “chat” e vira interface de decisão.

6) O risco real: “IA que inventa” — e como você evita isso

Se você conectar um LLM diretamente ao banco sem controle, você cria dois problemas: segurança e alucinação. A solução madura é simples (e não negociável):

  • Não permitir SQL livre vindo do modelo.
  • Sim usar consultas curadas (views/SPs) e respostas com evidências.
  • Sim aplicar limites (tamanho de contexto, agregação, amostragem).
  • Sim auditar tudo.

Isso faz o usuário confiar. E confiança é o ativo central de um ERP.

7) Por que on-premise é vantagem competitiva

Rodar Ollama + GPT-OSS no seu datacenter dá três vantagens que viram argumento comercial forte:

  1. Privacidade e soberania de dados
    Seus dados não saem do seu ambiente.
  2. Customização real
    Você ajusta prompts, políticas, fontes, templates e comportamento por segmento.
  3. Integração profunda com o ERP
    A IA não é um “apêndice”. Ela está dentro dos fluxos: telas, botões, ações, validações.

No fim, o Posseidom vira um ERP que não só registra a operação: ele interpreta, alerta e orienta.

Compartilhar: