Orquestração acima da aplicação: como desenhar um middleware omnicanal que aguenta pico e falha sem perder venda

1) Arquitetura que funciona na prática

  • Ingestão (pull/push): conector por plataforma e webhooks para eventos críticos (pedido, cancelamento, estorno).
  • Fila de eventos: mensageria com DLQ (dead letter queue) e replay.
  • Transformação: normalização de taxonomias (categorias, atributos, unidades), currency/impósitos.
  • Regras por parceiro:
    • Preço: markup por janela/praça/categoria.
    • Estoque: reserva por % (sazonal), bloqueio por risco de ruptura, lotes por canal.
    • Promo: “preço/promo” vs “desconto em N-ésima unidade”, duração e prioridade.
  • Entrega: APIs idempotentes, limite de taxa dinâmico (throttling) e monitoramento por integração.

2) Padrões de resiliência (pouco glamour, muito resultado)

  • Idempotência: toda mensagem com chave única; reenvio não duplica.
  • Circuit breaker: falha repetida isola o parceiro e aciona fallback.
  • Backoff exponencial: reintentos sem derrubar a fila.
  • Bulkhead: filas separadas por integração evitam “efeito dominó”.
  • Schema versioning: o mundo muda; seu contrato também.

3) Observabilidade: o painel que o diretor precisa

  • SLA de sincronismo: catálogo (min), preço (min), estoque (minutos/segundos), pedidos (segundos).
  • Taxa de erro por integração e aging de fila.
  • Cancelamentos por motivo de integração (mapeados: preço divergente, estoque desatualizado, timeout).
  • Latência p95/p99 por tipo de mensagem.

4) Exemplo com números (pico real)

  • 19h–21h de sexta: +34% de volume vs média.
  • Queda parcial do marketplace B → latência p99 sobe para 7,8s.
  • Circuit breaker ativado, retentativa com backoff, 1,2% de mensagens para DLQ.
  • Replay às 21h12 limpa DLQ; cancelamentos evitados: 740.
  • Impacto estimado: R$ 96k preservados no pico.

5) Roadmap 60–90 dias (pé no chão)

  • Semanas 1–3: inventariar integrações, medir latências e erros, desenhar taxonomia única.
  • Semanas 4–6: implementar filas, idempotência e logs de auditoria; KPIs executivos.
  • Semanas 7–9: circuit breaker, DLQ + replay, bloqueios por ruptura, marcações fiscais; runbook de incidentes.
  • Semanas 10–12: testes de caos (picos simulados), exercícios de rollback e SLOs por integração.

Conclusão
Omnicanal que dá certo não depende de herói; depende de engenharia previsível.