Radar Inżynierii Agentowej

WSZYSTKIE WPISY

28 technik
z okopów

28 wpisów: Budowanie 6 · Orkiestracja 6 · Domykanie i zaufanie 8 · Operacje i HITL 8

Budowanie

Produkcja

Skills — wielokrotne, weryfikowalne zdolności

Spakowane raz, działają wszędzie; u mnie w prod jako emodul, gh-tasks, infra-nginx, deep-research — jednostka ponownego użycia, nie prompt.

Structured output (schema-constrained)

Wymuszony schemat bije parsowanie tekstu; model retry'uje na poziomie tool-calla. CAVEAT: schema-valid ≠ poprawne semantycznie — kształt, nie jakość; krytyczne pola i tak przez weryfikację.

Context engineering (kontekst jako kod)

Awansował z Pilotażu: 'Context Rot' u każdego modelu i degradacja po liczbie tokenów czynią selekcję/kompresję kontekstu codziennym chlebem prod.

Źródło: Chroma Context Rot + Context Engineering Reliability Playbook 2026.

Pilotaż

Wyspecjalizowane subagenty z izolowanym kontekstem

Wąski subagent z własnym oknem zwraca rodzicowi 1-2k tokenów esencji — bije generalistę i chroni przed degradacją, ale koszt koordynacji każe skalować świadomie.

Źródło: Anthropic multi-agent research system (2026).

Eksperyment

Fine-tuning własnego modelu pod task

Rzadko opłacalny w 2026 — context engineering + skille + prompt-caching dowożą taniej i bez zamrażania się na starym checkpoincie.

Pułapka cichej awarii

Mega-prompt jako bramka jakości — regresja po edycie fragmentu

Monolit pada GŁOŚNO na demie, ale realna cicha awaria to regresja po tknięciu jednego fragmentu: zmiana w sekcji A po cichu psuje sekcję C — bez golden-datasetu tego nie widzisz.

Orkiestracja

Produkcja

Deterministyczny workflow (Ty trzymasz control flow)

Fan-out / pipeline / loop-until po mojej stronie, poznanie po stronie modelu — powtarzalne, tanie do debugowania, odporne na dryf.

Human-in-the-loop gate

Checkpoint człowieka w krytycznym punkcie to najtańszy bezpiecznik przeciw dryfowi — i pierwsza rzecz, którą regulowane branże faktycznie kupują.

Durable execution / checkpointing (wznawialny przebieg)

Stan zapisany na każdym kroku do Postgres/SQLite pozwala wznowić wielogodzinny przebieg zamiast startu od zera — to czyni długie agenty bezpiecznymi.

Źródło: LangGraph 2026: checkpointer + HITL primitives jako standard; time-travel rollback głównie dev/debug.

Pilotaż

Pipeline bez bariery (dla niezależnych etapów)

Krótszy wall-clock niż parallel-barrier; do prod tylko tam, gdzie etapy są naprawdę niezależne i da się je domknąć osobno.

Eksperyment

Model planuje własne kroki (pełny ReAct / autoplanning)

Kuszące przy zadaniach otwartych, ale przy wysokich stawkach nieprzewidywalny — trzymam na krótkiej smyczy z twardym budżetem i bramką.

Pułapka cichej awarii

Multi-agent „konsensus” jako bramka jakości

Kilku agentów dochodzi do spójnie brzmiącego, błędnego wniosku — i ta zgoda CZYTA się jak weryfikacja, choć nią nie jest. Bez zewnętrznego yardsticka konsensus przepuszcza halucynację, która wygląda na potwierdzoną.

Źródło: ryzyko 'sycophantic agreement' / collusion między agentami (Augment Code 2026).

Domykanie i zaufanie

Produkcja

RATCHET — iteruj wobec immutable yardstick

Keep-if-better / else revert → model nie oszuka sam siebie. Dowód: OffBall 0,83 Spearman, whitepaper po 3 rundach review.

JUDGE-PANEL — generuj→adwersaryjni sędziowie→synteza

Pojedynczy sędzia LLM wygrywa slot A o 10-15 pkt częściej niezależnie od treści; panel + zamiana pozycji to neutralizuje. Dowód: double-diamond 219→2.

Źródło: futureagi / Adaline 2026: position/verbosity/self-preference bias.

WATCHDOG — agent pilnuje agentów

Łapie ciche awarie (status=ok / output=śmieci). Dowód: cron-watcher na Haiku co godzinę + audit JSONL.

Deterministyczna bramka przed sędzią (verify-before-judge)

'Co da się sprawdzić deterministycznie (schema, test, lookup faktu) NIE idzie do sędziego' — konsensus prod 2026. Sędziego rezerwujesz na wymiary subiektywne.

Źródło: Vadim.blog / labelyourdata 2026.

Pilotaż

Groundedness / faithfulness check

Weryfikacja, czy odpowiedź/argument tool-calla faktycznie wynika z pobranego źródła (halucynowany tool-arg, retrieval-faithfulness). Odrębne ryzyko od judge-bias i injection; metryki wciąż dojrzewają.

Źródło: RAGAS / hallucinated-tool-arg checks 2026.

Golden-dataset / eval jako CI-bramka regresji

Evale jak testy przed mergem na stałym zestawie referencyjnym, blokują regresję przed prod. Mniej rozpowszechnione niż sama zasada verify-before-judge — stąd Pilotaż.

Pułapka cichej awarii

Samoocena modelu jako JEDYNA weryfikacja (self-critique / 1 LLM-judge bez ground truth)

Sędzia ocenia własną pracę i sam się przepuszcza (self-preference bias) — bez zewnętrznego yardsticka to teatr jakości, nie jakość.

Ufanie confidence-score modelu

Pewność ≠ poprawność; model bywa najbardziej pewny dokładnie wtedy, gdy najbardziej kłamie — calibration drift udokumentowany.

Operacje i człowiek w pętli

Produkcja

Append-only audit log (JSONL trace przebiegu)

Każdy przebieg zostawia ślad; bez tego nie udowodnisz co się stało ani nie złapiesz regresji po fakcie — i nie przejdziesz audytu w regulowanej branży.

MCP za bramką (gateway + auth + allowlist narzędzi)

MCP to standard integracji (oddany Agentic AI Foundation pod Linux Foundation, gru 2025), ale do prod TYLKO za gatewayem z auth i allowlistą — to access-control (kto/co wolno wywołać), nie obrona przed treścią.

Źródło: Stacklok 2026: 41% org ma MCP w prod; security = top bloker.

Pilotaż

Izolacja/sanityzacja niezaufanej treści + injection guardrails

Gateway pilnuje DOSTĘPU, nie treści — pobrana strona/dokument/odpowiedź narzędzia może nieść prompt-injection. Oddziel dane od instrukcji (content fencing), nie wykonuj poleceń z untrusted content.

Źródło: OWASP LLM01 + 'lethal trifecta' (Anthropic/Willison) 2026.

Agentic memory: working memory + zewnętrzny store

Robocza pamięć w oknie + fakty w zewnętrznym store (SQL/graf) to workhorse prod, ale 'memory staleness' (zdezaktualizowany wysoko-trafny fakt) to otwarte ryzyko — skaluję z polityką wygaszania.

Źródło: mem0 State of AI Agent Memory 2026.

Twardy budżet tokenów/kosztu + prompt/semantic caching

Limit ratuje przed runaway-loop i fakturą-niespodzianką; cache-read 90% taniej to czysty zysk — pod warunkiem, że cache'ujesz statyczny prefix, nie dynamiczne wyniki narzędzi.

Źródło: Anthropic 2026: prompt caching 90% oszczędności na cache-read.

Eksperyment

Computer-use agent (agent operuje GUI)

Już 'kategoria produkcyjna', ale OSWorld pokazuje ~27% porażek za pierwszym podejściem (modele początku 2026) — do prod tylko za twardym HITL-gatem i w wąskim sandboxie.

Źródło: OSWorld 2026: Claude ~73%, Operator niżej.

Pułapka cichej awarii

Cichy fallback / retry bez alertu

Fallback maskuje awarię — system mówi 'ok', jakość spadła, nikt nie wie; w marcu 2026 ~1/3 błędów LLM-spanów to rate-limity, które ciche retry zamiata pod dywan.

Źródło: Datadog State of AI Engineering 2026.

Zmiana modelu/promptu bez wersjonowania i rollbacku

Provider podmienia model pod spodem albo ktoś tknie prompt → cicha regresja; bez wersji promptu/evali nie cofniesz i nie wykryjesz, że 'upgrade' zepsuł produkcję.

28 technikz okopów

Budowanie

Skills — wielokrotne, weryfikowalne zdolności

Structured output (schema-constrained)

Context engineering (kontekst jako kod)

Wyspecjalizowane subagenty z izolowanym kontekstem

Fine-tuning własnego modelu pod task

Mega-prompt jako bramka jakości — regresja po edycie fragmentu

Orkiestracja

Deterministyczny workflow (Ty trzymasz control flow)

Human-in-the-loop gate

Durable execution / checkpointing (wznawialny przebieg)

Pipeline bez bariery (dla niezależnych etapów)

Model planuje własne kroki (pełny ReAct / autoplanning)

Multi-agent „konsensus” jako bramka jakości

Domykanie i zaufanie

RATCHET — iteruj wobec immutable yardstick

JUDGE-PANEL — generuj→adwersaryjni sędziowie→synteza

WATCHDOG — agent pilnuje agentów

Deterministyczna bramka przed sędzią (verify-before-judge)

Groundedness / faithfulness check

Golden-dataset / eval jako CI-bramka regresji

Samoocena modelu jako JEDYNA weryfikacja (self-critique / 1 LLM-judge bez ground truth)

Ufanie confidence-score modelu

Operacje i człowiek w pętli

Append-only audit log (JSONL trace przebiegu)

MCP za bramką (gateway + auth + allowlist narzędzi)

Izolacja/sanityzacja niezaufanej treści + injection guardrails

Agentic memory: working memory + zewnętrzny store

Twardy budżet tokenów/kosztu + prompt/semantic caching

Computer-use agent (agent operuje GUI)

Cichy fallback / retry bez alertu

Zmiana modelu/promptu bez wersjonowania i rollbacku

Gdzie jestTwój zespół?

Radar
Inżynierii Agentowej

28 technik
z okopów

Gdzie jest
Twój zespół?