Context: the inflection point
AI accelerated software production, but it also created simple, important questions: who reviews, who approves, what can go to production and how do we know the decision was good?
A tese deste playbook
A IA tornou a execução abundante: gerar código, criar testes, resumir incidentes e sugerir correções ficou mais fácil. O problema novo é outro: saber o que a IA pode fazer sozinha, quando precisa de revisão e como provar que ela está ajudando sem aumentar risco.
Este playbook foi escrito para líderes que ainda estão no começo dessa jornada. A ideia não é dominar todos os termos de IA, mas construir um mapa prático para qualidade, confiabilidade e governança.
Glossário mínimo para ler sem travar
| Termo | O que significa | Exemplo prático |
|---|---|---|
| Agent | Um software com IA que recebe uma meta, consulta contexto, chama ferramentas e propõe ou executa passos. | Um agent de SRE lê alertas, consulta logs e sugere a causa provável de um incidente. |
| Guardrail | Uma regra de proteção que limita o que a IA pode acessar, responder ou executar. | A IA pode sugerir rollback, mas não pode executar sem aprovação humana. |
| Human-in-the-loop | Um ponto obrigatório de revisão humana antes de uma decisão sensível. | Mudanças em produção, dados sensíveis e ações irreversíveis pedem aprovação de uma pessoa. |
| Judgment SLO | Uma meta para medir se a decisão da IA foi boa, não apenas se o sistema estava no ar. | Menos de 5% das recomendações do agent precisam ser revertidas por humanos. |
| Observabilidade comportamental | Monitorar o que a IA decidiu, por quê, com qual contexto e quais ferramentas usou. | Além de latência, registrar prompt, dados consultados, tool calls e decisão final. |
| Drift | Quando o comportamento da IA muda com o tempo, mesmo sem uma falha técnica aparente. | O agent continua respondendo rápido, mas começa a sugerir soluções piores após mudança de modelo. |
Sinais de mercado que mudaram o jogo
| Sinal | Evidência | Implicação | Fonte |
|---|---|---|---|
| IA virou parte do trabalho diário | DORA 2025 reporta adoção de AI no trabalho por 90% dos respondentes e ganhos percebidos de produtividade por mais de 80%. | O problema deixa de ser apenas produzir mais código e passa a ser controlar mudança, feedback e estabilidade. | DORA 2025 |
| Qualidade voltou ao nível executivo | A criação de uma liderança dedicada a engenharia de qualidade na Microsoft foi tratada como resposta organizacional à escala de AI. | Qualidade e confiabilidade deixam de ser funções de suporte e passam a ser tema de liderança. | Microsoft Quality Excellence |
| Falha silenciosa virou risco real | Monte Carlo reporta que 61% dos líderes já viram métricas normais enquanto um incidente crítico estava acontecendo. | Não basta ver se o sistema está online; é preciso entender se ele está decidindo certo. | Monte Carlo 2026 |
| Agents precisam de operação própria | Zylos descreve reliability de agents como task fidelity, judgment quality, custo por operação e capacidade de parar. | O líder precisa medir quando a IA acerta, quando erra, quando deve parar e quando deve chamar uma pessoa. | Zylos Research |
| Fonte | Tema | Uso no playbook |
|---|---|---|
| DORA / Google Cloud | State of AI-assisted Software Development 2025 | AI como amplificador do sistema de trabalho; adoção alta, ganhos de throughput e risco de instabilidade quando controles são fracos. |
| Google Cloud Blog | Resumo executivo do DORA 2025 | Base para o argumento de que AI melhora produtividade, mas expõe fraquezas downstream em testes, feedback loops e arquitetura. |
| Microsoft / cobertura pública | Quality Excellence Initiative e nova liderança de engenharia de qualidade | Sinal de mercado: qualidade deixa de ser função de release e vira tema de accountability executiva. |
| Monte Carlo + CDO Magazine | State of AI Reliability 2026 | Dados sobre silent failures, lacunas de observabilidade/governança e risco de escalar agents mais rápido que os controles. |
| Tricentis | How AI is redefining QA leadership | Base para o conceito de QA leader como decision architect, com foco em julgamento, contexto e confiança. |
| Xray Blog | How AI Will Shape QA Leadership in 2026 | Modelo de liderança agentic: orquestração, trust architecture, human checkpoints e PACT. |
| Zylos Research | SRE for AI Agent Systems | Framework de judgment SLOs, error budgets 2.0, HITL thresholds, token budgets e incident response para agents. |
| Zylos Research | OpenTelemetry for AI Agents | Telemetria de agents, GenAI semantic conventions, traces de tool calls e custo por outcome. |
| Google SRE | SRE Book e automação operacional | Fundação clássica: SRE como engenharia aplicada a operações, cap de toil e playbooks para reduzir MTTR. |
| Simon Prior | AI Governance and Guardrails | Argumento de que líderes de qualidade devem entrar cedo em governança, segurança e guardrails de AI. |
| Inspired Testing | 2026: The year quality engineering grows up | Contrapeso editorial anti-hype: 2026 como ano de disciplina operacional, governança e maturidade. |
| Forrester | The CIOs Guide To AI Readiness | AI readiness como maturidade de capacidades de TI: governança, dados, segurança e controle de risco. |
| McKinsey | AI transformation e liderança na era de AI | AI como transformação de pessoas, workflows e capacidade organizacional, não apenas ferramenta de produtividade. |
O ponto não é declarar que QA e SRE viraram a mesma coisa. O ponto é que IA criou uma zona comum: confiança em sistemas que decidem, mudam e operam com autonomia parcial.
The new leadership charter
The mandate is no longer just testing, monitoring or responding to incidents. Leadership now defines permissions, approvals, evidence and clear limits for AI use.
A carta da nova liderança
| Mandato | Pergunta que precisa responder | Artefatos |
|---|---|---|
| Governar autonomia | O que a IA pode fazer sozinha, o que exige aprovação e o que nunca deve executar? | Tabela de permissões, pontos de aprovação humana e níveis de risco por ação. |
| Arquitetar confiança | Como sabemos que o sistema está correto quando ele responde 200, mas decidiu errado? | Metas de qualidade da decisão, testes de comportamento e análise de decisões revertidas. |
| Instrumentar decisões | Conseguimos reconstruir o que a IA viu, fez e decidiu? | Logs de decisão, trilha de auditoria, histórico de ferramentas chamadas e contexto usado. |
| Traduzir risco em linguagem executiva | Qual é o custo de uma decisão errada, não de um teste falho? | Histórias de risco, impacto de negócio e relatório de confiança por fluxo crítico. |
| Desenvolver o sistema humano-agent | Quais habilidades humanas ficam mais valiosas quando execução vira abundante? | Trilhas de carreira, rituais de revisão, playbooks e comunidades internas de prática. |
+------------------+ +------------------+ +------------------+
| Produto e Dados | ---> | IA e Ferramentas | ---> | Produção |
+------------------+ +------------------+ +------------------+
| | |
v v v
+------------------+ +------------------+ +------------------+
| Contexto | ---> | Decisão | ---> | Consequência |
+------------------+ +------------------+ +------------------+
\_________________________|_________________________/
v
Liderança Quality + Reliability
limites, metas, auditoria, revisão humana
O primeiro salto de maturidade não é comprar mais ferramentas de AI; é descobrir quais decisões hoje já estão sendo delegadas sem contrato, rastreabilidade ou limite de autoridade.
A Voidr pode acelerar esse diagnóstico com mapeamento de fluxos críticos, automações existentes e sinais de qualidade/confiabilidade já disponíveis.
From execution to orchestration
Five mindset shifts help low-AI-maturity leaders move beyond fear or hype and start with decisions, risks and responsibilities.
Cinco mudanças mentais
| Antes | Depois | Comportamento | Prática |
|---|---|---|---|
| QA/SRE como executores | Líderes que desenham onde a IA ajuda e onde o humano decide | Definir onde a IA atua, onde uma pessoa revisa e como discordâncias são resolvidas. | Tabela simples de responsabilidades por fluxo e risco. |
| Qualidade só no fim | Qualidade acompanhando todo o fluxo | Validar requisito, código, deploy, produção e comportamento da IA no mesmo ciclo de feedback. | Sinais de qualidade no PR, no rollout, em produção e no postmortem. |
| Mais testes = mais confiança | Melhores decisões = mais confiança | Priorizar testes, evals e observabilidade pelo risco da decisão, não pelo volume gerado. | Inventário das decisões críticas e sinais mínimos para cada uma. |
| Escrever prompts melhores | Dar contexto confiável para a IA | Controlar fontes, limites, dados, exemplos e critérios que chegam ao agent. | Pacotes de contexto versionados e testados antes de uso amplo. |
| Incidente como falha técnica | Incidente como aprendizado de governança | Perguntar por que o sistema tinha permissão, contexto ou incentivo para agir daquela forma. | Postmortem com seção obrigatória: autonomia, contexto e proteções. |
A pergunta que muda a conversa
Em vez de perguntar "quantos testes temos?", comece por "quais decisões estamos permitindo que o sistema tome e qual evidência prova que essa permissão continua segura?".
2026 capability map
Critical skills start simple: understand risk, give AI the right context, record decisions, create approval rules and influence other teams.
Mapa de habilidades 2026
| Habilidade | Por que importa | Gap típico | Como desenvolver |
|---|---|---|---|
| Pensamento sistêmico | IA amplifica dependências invisíveis entre produto, dados, deploy, operação e suporte. | O líder ainda otimiza atividade local: cobertura, tickets ou MTTR isolado. | Mapear jornadas críticas e decisões antes de escolher ferramenta. |
| Governança de IA | Agents precisam de limites explícitos de dados, ferramentas, ação e auditoria. | Governança fica com jurídico/segurança sem tradução operacional para engenharia. | Criar uma matriz simples com o que a IA pode acessar, sugerir e executar. |
| Contexto para IA | A qualidade da resposta depende do contexto fornecido, não só do modelo. | Times tratam prompt como texto solto e não como artefato versionado. | Versionar prompts, fontes, exemplos e critérios de aceite. |
| Observabilidade comportamental | Falhas de agent podem parecer sucesso técnico: resposta válida, decisão errada. | Dashboards mostram disponibilidade, mas não qualidade de julgamento. | Registrar contexto, ferramentas chamadas, decisão final e correções humanas. |
| Políticas de ação | Automação sem regra aumenta o impacto de uma decisão errada. | Runbooks viram scripts com permissão demais e revisão de menos. | Definir níveis de risco, bloqueios automáticos e aprovações por tipo de ação. |
| Narrativa de risco | Governança abstrata raramente move orçamento; risco concreto move decisão. | Liderança técnica fala em testes e ferramentas, não em perdas, confiança e operação. | Levar exemplos reais, custo provável e controle preventivo para fóruns executivos. |
| Influência entre áreas | Qualidade com IA atravessa engenharia, produto, segurança, dados, jurídico e atendimento. | QA/SRE entra tarde, quando a decisão de arquitetura já foi tomada. | Criar revisões de risco, segurança e confiabilidade antes do piloto. |
Para uma empresa começando em IA, a primeira habilidade não é escolher a ferramenta mais avançada. É saber explicar quais decisões são críticas e quais evidências tornam uma decisão confiável.
Operational frameworks
Before advanced frameworks, start with basics: which decisions AI can make, how to measure whether it was right, when to stop and when to call a person.
Métricas de decisão para sistemas com IA
| Métrica | Meta inicial | Sinal | O que fazer quando piora |
|---|---|---|---|
| Taxa de correção humana | < 5% em decisões de baixo risco | Percentual de decisões revertidas, corrigidas ou bloqueadas por humanos. | Reduzir autonomia ou revisar contexto quando houver muitas correções. |
| Tarefa concluída corretamente | >= 95% em workflow definido | Agent conclui a tarefa correta com evidência suficiente, não apenas com resposta final. | Adicionar avaliações por etapa e validar a sequência de ações. |
| Custo por resultado correto | Estável por classe de tarefa | Consumo de tokens, chamadas de ferramentas e tentativas por tarefa concluída. | Investigar drift quando custo sobe sem melhora de resultado. |
| Escalonamento correto | 100% para ações irreversíveis | Ações de alto risco exigem aprovação ativa antes de execução. | Bloquear permissões perigosas e revisar aprovações humanas. |
| Mudança de comportamento | Sem alteração não explicada entre versões | Mudança de output, decisão ou custo após update de modelo, prompt, retrieval ou ferramenta. | Rodar regressão com exemplos conhecidos e pausar rollout. |
| Rastreabilidade da decisão | 100% para decisões autônomas | Prompt/contexto, retrieved data, tool calls, confidence e decisão final rastreáveis. | Impedir autonomia sem audit trail completo. |
+------------------+
| Confiança negócio|
| risco aceito |
+--------+---------+
|
+--------v---------+
| Decisão correta |
| decisão correta |
+--------+---------+
|
+--------v---------+
| Rastros da IA |
| contexto + ações |
+--------+---------+
|
+--------v---------+
| SLOs clássicos |
| uptime + latency |
+------------------+
Agents em produção precisam ser tratados como sistemas operacionais: observáveis, limitados, avaliados e revogáveis.
A plataforma da Voidr ajuda a transformar testes, monitoramento sintético e análise de falhas em sinais contínuos de confiança.
Ver como funciona: Relatórios InteligentesAI governance in practice
Useful governance is specific: it defines what data AI can use, what it can answer, what it can execute and what must be recorded.
Camadas de governança que precisam virar rotina
| Camada | Dono | Controles | Evidência |
|---|---|---|---|
| 1. Acesso e dados | Security + Data + Quality/Reliability | Quais repositórios, dados, logs, clientes e ferramentas o agent pode acessar. | Allow-list, data classification, secrets policy, trace de acesso. |
| 2. Padrões de output | Engineering + Product + Quality/Reliability | O que precisa ser validado antes de virar PR, deploy, resposta a cliente ou ação operacional. | Eval suites, review policy, contract tests, acceptance rubric. |
| 3. Autoridade de ação | SRE + Platform + Quality/Reliability | Quais ações são autônomas, quais pedem aprovação e quais são proibidas. | Risk scores, HITL thresholds, circuit breakers, audit ledger. |
| 4. Monitoramento comportamental | Observability + Data + Quality/Reliability | Como detectar drift, tool loops, custo anormal, alucinação, override e regressão. | Judgment SLOs, OTel GenAI spans, anomaly alerts, postmortems. |
Governança boa é específica
"Precisamos usar IA com responsabilidade" não muda comportamento. Uma política útil diz quais dados podem entrar, quais ferramentas podem ser chamadas, quais ações exigem aprovação e qual trilha de auditoria é obrigatória.
Organization and career paths
QA and SRE move closer because both protect production, customers and trust. New roles can come later; first comes clarity of responsibility.
Trilhas de carreira que estão convergindo
| Origem | Próximo papel | Novo escopo | Prova de maturidade |
|---|---|---|---|
| QA Analyst / Tester | Quality Strategist | Sai de execução de casos para análise de risco, exploração assistida por AI e feedback de produto. | Consegue transformar requisito ambíguo em riscos, exemplos e critérios de decisão. |
| QA Engineer / SDET | Quality Architect | Desenha test architecture, contract validation, synthetic monitoring e evals para agents. | Cria frameworks que squads usam sem depender de handoff central. |
| SRE | Agent Reliability Engineer | Opera agents como sistemas distribuídos: SLOs, error budgets, observability, runbooks e safe remediation. | Define quando um agent pode agir, pausar, pedir ajuda ou perder autonomia. |
| QA/SRE Lead | Reliability + Quality Lead | Lidera um portfólio de decisões críticas, não apenas um backlog de testes ou incidentes. | Conecta quality signals a risco de negócio, experiência e confiança de release. |
| Head of QA / Head of SRE | Head of Quality & Reliability | Mandato executivo de durabilidade, governança de AI, operação e qualidade sistêmica. | Tem assento nos fóruns onde autonomia, risco, produto e arquitetura são decididos. |
Modelos organizacionais pós-AI
| Modelo | Melhor para | Responsabilidades | Risco |
|---|---|---|---|
| Reliability + Quality CoE | Empresas com múltiplos produtos e necessidade de governança comum. | Frameworks, policies, eval platform, standards, enablement e métricas executivas. | Virar torre de aprovação se não houver self-service. |
| Embedded Quality/Reliability Architect | Squads com domínio complexo ou AI/agents em produção. | Apoiar arquitetura, riscos, SLOs, testability e reviews de autonomia dentro do produto. | Isolamento se não houver guilda central. |
| Agent Platform Team | Organizações que operam agents em escala. | Runtime, tracing, evals, tool permissions, policy graph, guardrails e rollout controls. | Focar em infraestrutura e esquecer comportamento de produto. |
| Incident Learning Council | Ambientes com incidentes frequentes ou alto custo reputacional. | Postmortems, padrões de falha, autonomy lessons, reliability investments e executive reporting. | Virar comitê retrospectivo sem autoridade de priorização. |
Metrics that connect to business
Leadership metrics should answer simple questions: did AI help, did it fail, did a human need to correct it, did it become too expensive or did it act without traceability?
Métricas que conectam a confiança ao negócio
| Métrica | Audiência | Interpretação | Fonte |
|---|---|---|---|
| Mudanças que quebram produção | Engenharia e liderança executiva | Mostra se a velocidade trazida pela IA está aumentando incidentes, rollback ou retrabalho. | DORA |
| Correções humanas | Produto, risco e operações | Mostra onde a IA ainda precisa de supervisão antes de ganhar mais autonomia. | Zylos / AI SRE patterns |
| Custo por resultado correto | Financeiro e plataforma | Distingue produtividade real de gasto crescente com tentativas, tokens e loops. | OpenTelemetry GenAI patterns |
| Tempo para detectar falha silenciosa | C-level e customer operations | Mede quanto tempo a organização fica confiante enquanto o sistema já está errado. | Monte Carlo AI Reliability |
| Tempo até confiar | Engineering leaders | Tempo até uma automação com IA ganhar autonomia limitada com evidência rastreável. | Governance practice |
| Rastreabilidade da decisão | Security, legal e compliance | Capacidade de reconstruir por que uma decisão foi tomada e quais dados/ferramentas foram usados. | OTel GenAI / auditability |
90/180/365-day roadmap
A practical path to start small: map where AI already appears, create minimum boundaries, measure decisions and only then increase autonomy.
Roadmap 90/180/365 dias
0-30 dias: Diagnosticar o sistema real
Inventário de decisões e riscos
31-90 dias: Criar guardrails mínimos
Governança operável
91-180 dias: Escalar confiança com evidência
Plataforma e rituais
181-365 dias: Virar função estratégica
Mandato organizacional
Checklist de prontidão
Fundação
Observabilidade
Governança
Liderança
Next step
Turn the playbook into action with a post-AI QA + SRE readiness diagnosis.
Diagnóstico de prontidão QA + SRE pós-AI
A Voidr ajuda sua liderança a mapear fluxos com IA, riscos de autonomia, lacunas de observabilidade, sinais de qualidade e um roadmap prático para sair de execução reativa para governança estratégica.
Lideranças QA/SRE que se posicionam só como executoras serão medidas por custo; as que assumem governança de risco serão medidas por confiança de entrega.
A Voidr apoia a transição com frameworks, automação e especialistas que conectam qualidade técnica a risco de negócio.