Atualizado Abril 2026

Roadmap de Estudos
AI-Native 2026

O guia técnico para engenheiros que querem dominar Engenharia de Contexto Neuro-Simbólica — dos internos de LLMs e KV cache a MCP, DSPy, ontologias e produção de agentes autônomos.

7 fases14 módulos~42-52 semanas
Fase 014-6 semanas

Internos de LLMs & Scaling Laws

Arquitetura transformer, mecanismos de atenção, KV cache e as leis que governam a emergência de capacidades cognitivas

Arquitetura Transformer em Profundidade

Avançado

Q/K/V como projeções lineares, Multi-Head vs Grouped-Query Attention, flashattention e os mecanismos de KV cache que tornam inferência eficiente em contextos longos

  • Self-attention: Q/K/V projections, escala √d_k, operação softmax
  • Multi-Head vs Multi-Query Attention vs Grouped-Query (GQA) trade-offs
  • KV cache: acúmulo K/V por token, eviction policy, prefill vs decode phase
  • Positional Encoding: RoPE (extrapolação suave), ALiBi (linear bias), NoPE
  • FlashAttention 2/3: IO-aware attention, SRAM tiling, sub-quadratic memory
  • Speculative decoding: drafter + verifier, token acceptance rate e speedup

Scaling Laws & Emergência de Capacidades

Avançado

Leis de Kaplan e Chinchilla, phase transitions para capacidades emergentes, tokenização BPE e arquiteturas pós-transformer MoE e SSM

  • Kaplan (2020): potência entre compute, parâmetros e loss — overshooting anterior
  • Chinchilla (2022): tokens = 20× parâmetros, optimal compute frontier
  • Emergência: BIG-Bench phase transitions, unpredictable capability jumps
  • Tokenização BPE & SentencePiece: byte-level, vocab size vs cobertura
  • MoE (Mixture of Experts): routing, sparse activation, GPT expert claims
  • SSM alternativas: Mamba (selective state space), RWKV hybrid approaches
Fase 028-10 semanas

Context Engineering

A disciplina de projetar, comprimir e gerenciar contexto para maximizar performance cognitiva — minha especialidade central

Arquitetura de Janela de Contexto

Expert

Token budget management, RAPTOR e compression chains, prefix caching e políticas de sliding window para contextos de 1M+ tokens

  • Budget allocation: static vs dynamic, per-component accounting, headroom policy
  • "Lost in the Middle": posição relativa importa — primacy e recency bias
  • RAPTOR: recursive abstractive processing, clustering semântico hierárquico
  • KV cache reuse: prefix sharing, cache warming, TTL e invalidation triggers
  • Sliding window + chunking: overlap, stride, span selection por relevância
  • Context compression: entropy-weighted pruning, selective summarization chains

RAG Avançado & Sistemas de Memória

Expert

Vector store internos (HNSW, IVF, PQ), retrieved híbrido BM25+dense, reranking neural e arquiteturas de memória episódica para agentes de longa duração

  • Dense retrieval: bi-encoders, cross-encoders, late interaction ColBERT
  • HNSW vs IVF+PQ: recall@k, latência de busca, tamanho de índice trade-offs
  • Hybrid search: BM25 + dense, RRF (Reciprocal Rank Fusion)
  • Neural reranking: cross-encoder reranker, MonoT5, listwise rerankers
  • Memória episódica vs semântica: MemGPT, Mem0, A-MEM consolidation
  • Políticas de memória: TTL, importance scoring, forgetting curves
Fase 038-10 semanas

Arquitetura Neuro-Simbólica

A convergência entre raciocínio simbólico e aprendizado estatístico — fundamento da Engenharia de Contexto Neuro-Simbólica

DSPy & Programação Declarativa de LMs

Expert

DSPy transforma engenharia de prompts em programação de módulos LM tipados — Signature, ChainOfThought, Retrieve e optimizadores MIPRO/BootstrapFewShot

  • DSPy Signature: typed input/output spec que substitui string literals de prompt
  • Módulos: dspy.Predict, ChainOfThought, ReAct, ProgramOfThought, Retrieve
  • Optimizers: BootstrapFewShot, MIPRO v2, COPRO — otimização automática de prompts
  • Assertions & Suggestions: constraints declarativos que deflect ou assert no output
  • TypedPredictor: Pydantic models como output type, validação automática
  • Pipeline end-to-end: compilação, traces, evals integradas ao optimizer

Ontologias, Grafos & Raciocínio Formal

Expert

Engenharia de ontologias OWL/RDF, SPARQL para queries sobre grafos de conhecimento, GraphRAG e integração de lógica de primeira ordem com LLMs

  • OWL 2: classes, propriedades de objeto, restrições axiomáticas (DL expressividade)
  • RDF/SPARQL 1.1: grafos de triplas, SELECT/CONSTRUCT/ASK, property paths
  • KG Embeddings: TransE, RotatE, ComplEx — representação em espaço latente
  • GraphRAG & Subgraph-RAG: subgraph retrieval como contexto estruturado
  • Constraint propagation: SAT, CSP solvers como validadores de saída LLM
  • Logic programming + LLMs: Prolog, Datalog, Answer Set Programming (ASP)
Fase 046-8 semanas

MCP & Protocolos Agênticos

Model Context Protocol spec 2025-11-25: transportes, contratos de ferramentas, segurança OAuth e o protocolo A2A agente-para-agente

MCP Internos: JSON-RPC & Transportes

Avançado

Arquitetura Host/Client/Server, JSON-RPC 2.0 sobre stdio, HTTP+SSE e Streamable HTTP — lifecycle de sessão e negociação de capacidades

  • JSON-RPC 2.0: request/response/notification, batch, error code taxonomy
  • Transport stdio: framing newline-delimited, process lifecycle, sequência de init
  • HTTP+SSE: SSE para server→client (GET), POST para client→server
  • Streamable HTTP (spec 2025-11-25): session resumption, upgrade de SSE
  • Capability negotiation: initialize handshake, protocol versioning, roots
  • Tool annotations: readOnlyHint, destructiveHint, idempotentHint, openWorldHint

Segurança MCP & Contratos de Ferramentas

Avançado

OAuth 2.1 com PKCE para servidores remotos, JSON Schema validation para ferramentas, Sampling schema e defesa contra prompt injection via MCP tools

  • OAuth 2.1 + PKCE: authorization code flow, token rotation para MCP remoto
  • Tool JSON Schema: input validation rigorosa, additionalProperties: false
  • Sampling schema: temperature, top_p, stop sequences, max_tokens como contrato
  • Prompt injection via MCP: attack vectors, tool result poisoning, mitigações
  • Sandboxing: Docker isolado para tools destrutivas, read-only mounts
  • A2A Protocol (Google): agente-para-agente via HTTP+JSON-RPC, agent cards
Fase 056-8 semanas

Padrões de Agentes Autônomos

ReAct, Tree-of-Thoughts, Reflexion, MCTS e padrões multi-agente com coordenação explícita e Human-in-the-Loop

Padrões de Raciocínio & Self-Reflection

Expert

ReAct (reason+act), Tree-of-Thoughts com beam search e MCTS, Reflexion com memória verbal e Self-Consistency por amostragem múltipla

  • ReAct: thought→action→observation loop, grounding externo no ambiente
  • Chain-of-Thought (Wei et al.): zero-shot CoT, exemplar selection, processo passo-a-passo
  • Tree-of-Thoughts: nós de raciocínio, beam search, BFS vs DFS vs MCTS
  • Reflexion (Shinn et al.): estado episódico, self-eval criteria, memória verbal
  • Self-Consistency: múltiplos paths de raciocínio, aggregation por votação
  • Evaluator-Optimizer: generator + critic loop com critério externo definido

Multi-Agente & Orquestração

Expert

Orchestrator-Workers, Parallelization, comunicação estruturada inter-agente, estado compartilhado e padrões de Human-in-the-Loop com checkpoints

  • Orchestrator-Workers: delegação dinâmica, routing por capacidade e especialização
  • Parallelization: fan-out + join, rate limiting, concurrency control per tool
  • Comunicação inter-agente: typed message contracts, schema validation
  • Estado compartilhado: eventual consistency, conflict resolution, CRDT patterns
  • Self-healing: diagnóstico automático, retry com backoff, circuit breaker
  • HITL (Human-in-the-Loop): checkpoints, interrupt patterns, approval gates
Fase 066-8 semanas

Desenvolvimento AI-Native

Claude Code, GitHub Copilot, Cursor — e o design de CLAUDE.md, AGENTS.md, instructions, hooks e skills que moldam comportamento agêntico

Claude Code & Copilot — Loops Agênticos

Avançado

Loop agêntico perceive→plan→act→reflect, subagents paralelos, CLAUDE.md como contrato com o agente e GitHub Copilot agent mode com MCP integration

  • Claude Code: subagents, tarefas paralelas, extended thinking em code review
  • CLAUDE.md: estrutura do projeto, comandos, boas práticas — contract com o agente
  • AGENTS.md: multi-agent coordination, project map, agent skill routing
  • Copilot agent mode: inline + sidebar + agent, tool calls, MCP servers
  • .instructions.md: applyTo globs, scoped context, instruction layering
  • Cursor: .cursor/rules vs .cursorrules, composer context, notepads

Skills, Hooks & Context Injection

Avançado

Design de SKILL.md, hooks de ciclo de vida (SessionStart, PostToolUse), injeção automática de contexto e o Neuro-Symbolic Context Engine como single source of truth

  • SKILL.md: structure, trigger conditions, domain knowledge packaging
  • Hooks: SessionStart (pre-load), PostToolUse (observe), pre-commit (validate)
  • Context injection: auto-sync, workspace manifest, pre-loaded knowledge digests
  • Neuro-Symbolic Context Engine: projectId, activity routing, depth levels
  • Knowledge base: contexts, agents, shared infrastructure, auto-generation via MCP
  • Self-healing protocol: implement → tsc → vitest → fix loop (max 3 ciclos)
Fase 074-6 semanas

Avaliação, Observabilidade & Produção

RAGAS, LLM-as-judge, tracing distribuído com LangSmith/Phoenix, red-teaming adversarial e governança para produção

Avaliação de LLMs & RAG (Evals)

Avançado

RAGAS (context_precision, faithfulness, answer_relevancy), LLM-as-judge, Expected Calibration Error, detecção de alucinação e benchmarks técnicos

  • RAGAS: context_precision, context_recall, faithfulness, answer_relevancy — métricas RAG
  • LLM-as-judge: preference modeling, G-eval, scalable oversight para annotation
  • Calibração: ECE (Expected Calibration Error), reliability diagrams, temperature scaling
  • Detecção de alucinação: factuality scoring, entailment classifiers, SelfCheckGPT
  • Benchmarks: MMLU, HELM, BIG-Bench, LMSYS Arena Elo, GAIA, SWE-bench
  • Evals framework: promptfoo, LangFuse evals, custom harness com CI integration

Observabilidade & Segurança em Produção

Avançado

LangSmith e Phoenix/Arize para tracing de LLMs, red-teaming adversarial, Constitutional AI, guardrails e estratégias de deployment cost-efficient

  • Tracing: LangSmith, Phoenix/Arize — spans, traces, token accounting por request
  • Métricas: P95/P99 latência, TTFT (Time-to-First-Token), throughput, tokens/s
  • Red-teaming: jailbreaks, indirect injection, data poisoning, model inversion
  • Constitutional AI: RLHF com feedback de princípios, harmlessness, helpful, honest
  • Guardrails: NeMo Guardrails, Llama Guard 3, Rebuff prompt injection detector
  • Deployment: serverless vs batch inference, cost/quality frontier, caching

Acompanhe a Evolução

Notícias, análises e deep dives diários sobre cada tópico deste roadmap. Acompanhe no portal.