Roadmap de Estudos
AI-Native 2026
O guia técnico para engenheiros que querem dominar Engenharia de Contexto Neuro-Simbólica — dos internos de LLMs e KV cache a MCP, DSPy, ontologias e produção de agentes autônomos.
Internos de LLMs & Scaling Laws
Arquitetura transformer, mecanismos de atenção, KV cache e as leis que governam a emergência de capacidades cognitivas
Arquitetura Transformer em Profundidade
Q/K/V como projeções lineares, Multi-Head vs Grouped-Query Attention, flashattention e os mecanismos de KV cache que tornam inferência eficiente em contextos longos
- Self-attention: Q/K/V projections, escala √d_k, operação softmax
- Multi-Head vs Multi-Query Attention vs Grouped-Query (GQA) trade-offs
- KV cache: acúmulo K/V por token, eviction policy, prefill vs decode phase
- Positional Encoding: RoPE (extrapolação suave), ALiBi (linear bias), NoPE
- FlashAttention 2/3: IO-aware attention, SRAM tiling, sub-quadratic memory
- Speculative decoding: drafter + verifier, token acceptance rate e speedup
Scaling Laws & Emergência de Capacidades
Leis de Kaplan e Chinchilla, phase transitions para capacidades emergentes, tokenização BPE e arquiteturas pós-transformer MoE e SSM
- Kaplan (2020): potência entre compute, parâmetros e loss — overshooting anterior
- Chinchilla (2022): tokens = 20× parâmetros, optimal compute frontier
- Emergência: BIG-Bench phase transitions, unpredictable capability jumps
- Tokenização BPE & SentencePiece: byte-level, vocab size vs cobertura
- MoE (Mixture of Experts): routing, sparse activation, GPT expert claims
- SSM alternativas: Mamba (selective state space), RWKV hybrid approaches
Context Engineering
A disciplina de projetar, comprimir e gerenciar contexto para maximizar performance cognitiva — minha especialidade central
Arquitetura de Janela de Contexto
Token budget management, RAPTOR e compression chains, prefix caching e políticas de sliding window para contextos de 1M+ tokens
- Budget allocation: static vs dynamic, per-component accounting, headroom policy
- "Lost in the Middle": posição relativa importa — primacy e recency bias
- RAPTOR: recursive abstractive processing, clustering semântico hierárquico
- KV cache reuse: prefix sharing, cache warming, TTL e invalidation triggers
- Sliding window + chunking: overlap, stride, span selection por relevância
- Context compression: entropy-weighted pruning, selective summarization chains
RAG Avançado & Sistemas de Memória
Vector store internos (HNSW, IVF, PQ), retrieved híbrido BM25+dense, reranking neural e arquiteturas de memória episódica para agentes de longa duração
- Dense retrieval: bi-encoders, cross-encoders, late interaction ColBERT
- HNSW vs IVF+PQ: recall@k, latência de busca, tamanho de índice trade-offs
- Hybrid search: BM25 + dense, RRF (Reciprocal Rank Fusion)
- Neural reranking: cross-encoder reranker, MonoT5, listwise rerankers
- Memória episódica vs semântica: MemGPT, Mem0, A-MEM consolidation
- Políticas de memória: TTL, importance scoring, forgetting curves
Arquitetura Neuro-Simbólica
A convergência entre raciocínio simbólico e aprendizado estatístico — fundamento da Engenharia de Contexto Neuro-Simbólica
DSPy & Programação Declarativa de LMs
DSPy transforma engenharia de prompts em programação de módulos LM tipados — Signature, ChainOfThought, Retrieve e optimizadores MIPRO/BootstrapFewShot
- DSPy Signature: typed input/output spec que substitui string literals de prompt
- Módulos: dspy.Predict, ChainOfThought, ReAct, ProgramOfThought, Retrieve
- Optimizers: BootstrapFewShot, MIPRO v2, COPRO — otimização automática de prompts
- Assertions & Suggestions: constraints declarativos que deflect ou assert no output
- TypedPredictor: Pydantic models como output type, validação automática
- Pipeline end-to-end: compilação, traces, evals integradas ao optimizer
Ontologias, Grafos & Raciocínio Formal
Engenharia de ontologias OWL/RDF, SPARQL para queries sobre grafos de conhecimento, GraphRAG e integração de lógica de primeira ordem com LLMs
- OWL 2: classes, propriedades de objeto, restrições axiomáticas (DL expressividade)
- RDF/SPARQL 1.1: grafos de triplas, SELECT/CONSTRUCT/ASK, property paths
- KG Embeddings: TransE, RotatE, ComplEx — representação em espaço latente
- GraphRAG & Subgraph-RAG: subgraph retrieval como contexto estruturado
- Constraint propagation: SAT, CSP solvers como validadores de saída LLM
- Logic programming + LLMs: Prolog, Datalog, Answer Set Programming (ASP)
MCP & Protocolos Agênticos
Model Context Protocol spec 2025-11-25: transportes, contratos de ferramentas, segurança OAuth e o protocolo A2A agente-para-agente
MCP Internos: JSON-RPC & Transportes
Arquitetura Host/Client/Server, JSON-RPC 2.0 sobre stdio, HTTP+SSE e Streamable HTTP — lifecycle de sessão e negociação de capacidades
- JSON-RPC 2.0: request/response/notification, batch, error code taxonomy
- Transport stdio: framing newline-delimited, process lifecycle, sequência de init
- HTTP+SSE: SSE para server→client (GET), POST para client→server
- Streamable HTTP (spec 2025-11-25): session resumption, upgrade de SSE
- Capability negotiation: initialize handshake, protocol versioning, roots
- Tool annotations: readOnlyHint, destructiveHint, idempotentHint, openWorldHint
Segurança MCP & Contratos de Ferramentas
OAuth 2.1 com PKCE para servidores remotos, JSON Schema validation para ferramentas, Sampling schema e defesa contra prompt injection via MCP tools
- OAuth 2.1 + PKCE: authorization code flow, token rotation para MCP remoto
- Tool JSON Schema: input validation rigorosa, additionalProperties: false
- Sampling schema: temperature, top_p, stop sequences, max_tokens como contrato
- Prompt injection via MCP: attack vectors, tool result poisoning, mitigações
- Sandboxing: Docker isolado para tools destrutivas, read-only mounts
- A2A Protocol (Google): agente-para-agente via HTTP+JSON-RPC, agent cards
Padrões de Agentes Autônomos
ReAct, Tree-of-Thoughts, Reflexion, MCTS e padrões multi-agente com coordenação explícita e Human-in-the-Loop
Padrões de Raciocínio & Self-Reflection
ReAct (reason+act), Tree-of-Thoughts com beam search e MCTS, Reflexion com memória verbal e Self-Consistency por amostragem múltipla
- ReAct: thought→action→observation loop, grounding externo no ambiente
- Chain-of-Thought (Wei et al.): zero-shot CoT, exemplar selection, processo passo-a-passo
- Tree-of-Thoughts: nós de raciocínio, beam search, BFS vs DFS vs MCTS
- Reflexion (Shinn et al.): estado episódico, self-eval criteria, memória verbal
- Self-Consistency: múltiplos paths de raciocínio, aggregation por votação
- Evaluator-Optimizer: generator + critic loop com critério externo definido
Multi-Agente & Orquestração
Orchestrator-Workers, Parallelization, comunicação estruturada inter-agente, estado compartilhado e padrões de Human-in-the-Loop com checkpoints
- Orchestrator-Workers: delegação dinâmica, routing por capacidade e especialização
- Parallelization: fan-out + join, rate limiting, concurrency control per tool
- Comunicação inter-agente: typed message contracts, schema validation
- Estado compartilhado: eventual consistency, conflict resolution, CRDT patterns
- Self-healing: diagnóstico automático, retry com backoff, circuit breaker
- HITL (Human-in-the-Loop): checkpoints, interrupt patterns, approval gates
Desenvolvimento AI-Native
Claude Code, GitHub Copilot, Cursor — e o design de CLAUDE.md, AGENTS.md, instructions, hooks e skills que moldam comportamento agêntico
Claude Code & Copilot — Loops Agênticos
Loop agêntico perceive→plan→act→reflect, subagents paralelos, CLAUDE.md como contrato com o agente e GitHub Copilot agent mode com MCP integration
- Claude Code: subagents, tarefas paralelas, extended thinking em code review
- CLAUDE.md: estrutura do projeto, comandos, boas práticas — contract com o agente
- AGENTS.md: multi-agent coordination, project map, agent skill routing
- Copilot agent mode: inline + sidebar + agent, tool calls, MCP servers
- .instructions.md: applyTo globs, scoped context, instruction layering
- Cursor: .cursor/rules vs .cursorrules, composer context, notepads
Skills, Hooks & Context Injection
Design de SKILL.md, hooks de ciclo de vida (SessionStart, PostToolUse), injeção automática de contexto e o Neuro-Symbolic Context Engine como single source of truth
- SKILL.md: structure, trigger conditions, domain knowledge packaging
- Hooks: SessionStart (pre-load), PostToolUse (observe), pre-commit (validate)
- Context injection: auto-sync, workspace manifest, pre-loaded knowledge digests
- Neuro-Symbolic Context Engine: projectId, activity routing, depth levels
- Knowledge base: contexts, agents, shared infrastructure, auto-generation via MCP
- Self-healing protocol: implement → tsc → vitest → fix loop (max 3 ciclos)
Recursos
Avaliação, Observabilidade & Produção
RAGAS, LLM-as-judge, tracing distribuído com LangSmith/Phoenix, red-teaming adversarial e governança para produção
Avaliação de LLMs & RAG (Evals)
RAGAS (context_precision, faithfulness, answer_relevancy), LLM-as-judge, Expected Calibration Error, detecção de alucinação e benchmarks técnicos
- RAGAS: context_precision, context_recall, faithfulness, answer_relevancy — métricas RAG
- LLM-as-judge: preference modeling, G-eval, scalable oversight para annotation
- Calibração: ECE (Expected Calibration Error), reliability diagrams, temperature scaling
- Detecção de alucinação: factuality scoring, entailment classifiers, SelfCheckGPT
- Benchmarks: MMLU, HELM, BIG-Bench, LMSYS Arena Elo, GAIA, SWE-bench
- Evals framework: promptfoo, LangFuse evals, custom harness com CI integration
Observabilidade & Segurança em Produção
LangSmith e Phoenix/Arize para tracing de LLMs, red-teaming adversarial, Constitutional AI, guardrails e estratégias de deployment cost-efficient
- Tracing: LangSmith, Phoenix/Arize — spans, traces, token accounting por request
- Métricas: P95/P99 latência, TTFT (Time-to-First-Token), throughput, tokens/s
- Red-teaming: jailbreaks, indirect injection, data poisoning, model inversion
- Constitutional AI: RLHF com feedback de princípios, harmlessness, helpful, honest
- Guardrails: NeMo Guardrails, Llama Guard 3, Rebuff prompt injection detector
- Deployment: serverless vs batch inference, cost/quality frontier, caching
Acompanhe a Evolução
Notícias, análises e deep dives diários sobre cada tópico deste roadmap. Acompanhe no portal.