1) Arquitetura que funciona na prática
- Ingestão (pull/push): conector por plataforma e webhooks para eventos críticos (pedido, cancelamento, estorno).
- Fila de eventos: mensageria com DLQ (dead letter queue) e replay.
- Transformação: normalização de taxonomias (categorias, atributos, unidades), currency/impósitos.
- Regras por parceiro:
- Preço: markup por janela/praça/categoria.
- Estoque: reserva por % (sazonal), bloqueio por risco de ruptura, lotes por canal.
- Promo: “preço/promo” vs “desconto em N-ésima unidade”, duração e prioridade.
- Entrega: APIs idempotentes, limite de taxa dinâmico (throttling) e monitoramento por integração.
2) Padrões de resiliência (pouco glamour, muito resultado)
- Idempotência: toda mensagem com chave única; reenvio não duplica.
- Circuit breaker: falha repetida isola o parceiro e aciona fallback.
- Backoff exponencial: reintentos sem derrubar a fila.
- Bulkhead: filas separadas por integração evitam “efeito dominó”.
- Schema versioning: o mundo muda; seu contrato também.
3) Observabilidade: o painel que o diretor precisa
- SLA de sincronismo: catálogo (min), preço (min), estoque (minutos/segundos), pedidos (segundos).
- Taxa de erro por integração e aging de fila.
- Cancelamentos por motivo de integração (mapeados: preço divergente, estoque desatualizado, timeout).
- Latência p95/p99 por tipo de mensagem.
4) Exemplo com números (pico real)
- 19h–21h de sexta: +34% de volume vs média.
- Queda parcial do marketplace B → latência p99 sobe para 7,8s.
- Circuit breaker ativado, retentativa com backoff, 1,2% de mensagens para DLQ.
- Replay às 21h12 limpa DLQ; cancelamentos evitados: 740.
- Impacto estimado: R$ 96k preservados no pico.
5) Roadmap 60–90 dias (pé no chão)
- Semanas 1–3: inventariar integrações, medir latências e erros, desenhar taxonomia única.
- Semanas 4–6: implementar filas, idempotência e logs de auditoria; KPIs executivos.
- Semanas 7–9: circuit breaker, DLQ + replay, bloqueios por ruptura, marcações fiscais; runbook de incidentes.
- Semanas 10–12: testes de caos (picos simulados), exercícios de rollback e SLOs por integração.
Conclusão
Omnicanal que dá certo não depende de herói; depende de engenharia previsível.