Tech Radar v1.1 · Q2 2026

Radar
Inżynierii Agentowej

Deterministyczna kontrola nad niedeterministycznym AI — z okopów, nie ze slajdów

28 wpisów: Budowanie 6 · Orkiestracja 6 · Domykanie i zaufanie 8 · Operacje i HITL 8

Radar Inżynierii Agentowej v1.1 · Q2 2026 · Szymon Paluch 28 wpisów: Budowanie 6 · Orkiestracja 6 · Domykanie i zaufanie 8 · Operacje i HITL 8 PRODUKCJA PILOTAŻ EKSPERYMENT PUŁAPKA CICHEJ AWARII BUDOWANIE ORKIESTRACJA DOMYKANIE I ZAUFANIE OPERACJE I HITL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 DOJRZAŁOŚĆ (od środka) Produkcja Pilotaż Eksperyment Pułapka cichej awarii BUDOWANIE 1 Skills (komponenty) 2 Structured output 3 Context engineering 4 Subagenty z izolowanym kontekstem 5 Fine-tuning pod task 6 Mega-prompt (bez evali regresji) ORKIESTRACJA 7 Deterministyczny workflow 8 Human-in-the-loop gate 9 Durable execution / checkpointing 10 Pipeline bez bariery 11 Pełny ReAct / autoplanning 12 Multi-agent „konsensus” jako bramka DOMYKANIE I ZAUFANIE 13 RATCHET 14 JUDGE-PANEL 15 WATCHDOG 16 Verify-before-judge 17 Groundedness / faithfulness 18 Golden-dataset (eval-CI) 19 Samoocena jako jedyna weryfikacja 20 Ufanie confidence-score OPERACJE I HITL 21 Append-only audit log 22 MCP za bramką (gateway) 23 Injection guardrails 24 Agentic memory + store 25 Budżet tokenów + caching 26 Computer-use agent 27 Cichy fallback bez alertu 28 Zmiana modelu bez wersjonowania „Deterministyczna kontrola nad niedeterministycznym AI — z okopów, nie ze slajdów"

Najedź na punkt lub wiersz legendy, aby zobaczyć uzasadnienie i źródło. Pełna lista poniżej.

WSZYSTKIE WPISY

28 technik
z okopów

28 wpisów: Budowanie 6 · Orkiestracja 6 · Domykanie i zaufanie 8 · Operacje i HITL 8

Budowanie

Produkcja
1

Skills — wielokrotne, weryfikowalne zdolności

Spakowane raz, działają wszędzie; u mnie w prod jako emodul, gh-tasks, infra-nginx, deep-research — jednostka ponownego użycia, nie prompt.

2

Structured output (schema-constrained)

Wymuszony schemat bije parsowanie tekstu; model retry'uje na poziomie tool-calla. CAVEAT: schema-valid ≠ poprawne semantycznie — kształt, nie jakość; krytyczne pola i tak przez weryfikację.

3

Context engineering (kontekst jako kod)

Awansował z Pilotażu: 'Context Rot' u każdego modelu i degradacja po liczbie tokenów czynią selekcję/kompresję kontekstu codziennym chlebem prod.

Źródło: Chroma Context Rot + Context Engineering Reliability Playbook 2026.

Pilotaż
4

Wyspecjalizowane subagenty z izolowanym kontekstem

Wąski subagent z własnym oknem zwraca rodzicowi 1-2k tokenów esencji — bije generalistę i chroni przed degradacją, ale koszt koordynacji każe skalować świadomie.

Źródło: Anthropic multi-agent research system (2026).

Eksperyment
5

Fine-tuning własnego modelu pod task

Rzadko opłacalny w 2026 — context engineering + skille + prompt-caching dowożą taniej i bez zamrażania się na starym checkpoincie.

Pułapka cichej awarii
6

Mega-prompt jako bramka jakości — regresja po edycie fragmentu

Monolit pada GŁOŚNO na demie, ale realna cicha awaria to regresja po tknięciu jednego fragmentu: zmiana w sekcji A po cichu psuje sekcję C — bez golden-datasetu tego nie widzisz.

Orkiestracja

Produkcja
7

Deterministyczny workflow (Ty trzymasz control flow)

Fan-out / pipeline / loop-until po mojej stronie, poznanie po stronie modelu — powtarzalne, tanie do debugowania, odporne na dryf.

8

Human-in-the-loop gate

Checkpoint człowieka w krytycznym punkcie to najtańszy bezpiecznik przeciw dryfowi — i pierwsza rzecz, którą regulowane branże faktycznie kupują.

9

Durable execution / checkpointing (wznawialny przebieg)

Stan zapisany na każdym kroku do Postgres/SQLite pozwala wznowić wielogodzinny przebieg zamiast startu od zera — to czyni długie agenty bezpiecznymi.

Źródło: LangGraph 2026: checkpointer + HITL primitives jako standard; time-travel rollback głównie dev/debug.

Pilotaż
10

Pipeline bez bariery (dla niezależnych etapów)

Krótszy wall-clock niż parallel-barrier; do prod tylko tam, gdzie etapy są naprawdę niezależne i da się je domknąć osobno.

Eksperyment
11

Model planuje własne kroki (pełny ReAct / autoplanning)

Kuszące przy zadaniach otwartych, ale przy wysokich stawkach nieprzewidywalny — trzymam na krótkiej smyczy z twardym budżetem i bramką.

Pułapka cichej awarii
12

Multi-agent „konsensus” jako bramka jakości

Kilku agentów dochodzi do spójnie brzmiącego, błędnego wniosku — i ta zgoda CZYTA się jak weryfikacja, choć nią nie jest. Bez zewnętrznego yardsticka konsensus przepuszcza halucynację, która wygląda na potwierdzoną.

Źródło: ryzyko 'sycophantic agreement' / collusion między agentami (Augment Code 2026).

Domykanie i zaufanie

Produkcja
13

RATCHET — iteruj wobec immutable yardstick

Keep-if-better / else revert → model nie oszuka sam siebie. Dowód: OffBall 0,83 Spearman, whitepaper po 3 rundach review.

14

JUDGE-PANEL — generuj→adwersaryjni sędziowie→synteza

Pojedynczy sędzia LLM wygrywa slot A o 10-15 pkt częściej niezależnie od treści; panel + zamiana pozycji to neutralizuje. Dowód: double-diamond 219→2.

Źródło: futureagi / Adaline 2026: position/verbosity/self-preference bias.

15

WATCHDOG — agent pilnuje agentów

Łapie ciche awarie (status=ok / output=śmieci). Dowód: cron-watcher na Haiku co godzinę + audit JSONL.

16

Deterministyczna bramka przed sędzią (verify-before-judge)

'Co da się sprawdzić deterministycznie (schema, test, lookup faktu) NIE idzie do sędziego' — konsensus prod 2026. Sędziego rezerwujesz na wymiary subiektywne.

Źródło: Vadim.blog / labelyourdata 2026.

Pilotaż
17

Groundedness / faithfulness check

Weryfikacja, czy odpowiedź/argument tool-calla faktycznie wynika z pobranego źródła (halucynowany tool-arg, retrieval-faithfulness). Odrębne ryzyko od judge-bias i injection; metryki wciąż dojrzewają.

Źródło: RAGAS / hallucinated-tool-arg checks 2026.

18

Golden-dataset / eval jako CI-bramka regresji

Evale jak testy przed mergem na stałym zestawie referencyjnym, blokują regresję przed prod. Mniej rozpowszechnione niż sama zasada verify-before-judge — stąd Pilotaż.

Pułapka cichej awarii
19

Samoocena modelu jako JEDYNA weryfikacja (self-critique / 1 LLM-judge bez ground truth)

Sędzia ocenia własną pracę i sam się przepuszcza (self-preference bias) — bez zewnętrznego yardsticka to teatr jakości, nie jakość.

20

Ufanie confidence-score modelu

Pewność ≠ poprawność; model bywa najbardziej pewny dokładnie wtedy, gdy najbardziej kłamie — calibration drift udokumentowany.

Operacje i człowiek w pętli

Produkcja
21

Append-only audit log (JSONL trace przebiegu)

Każdy przebieg zostawia ślad; bez tego nie udowodnisz co się stało ani nie złapiesz regresji po fakcie — i nie przejdziesz audytu w regulowanej branży.

22

MCP za bramką (gateway + auth + allowlist narzędzi)

MCP to standard integracji (oddany Agentic AI Foundation pod Linux Foundation, gru 2025), ale do prod TYLKO za gatewayem z auth i allowlistą — to access-control (kto/co wolno wywołać), nie obrona przed treścią.

Źródło: Stacklok 2026: 41% org ma MCP w prod; security = top bloker.

Pilotaż
23

Izolacja/sanityzacja niezaufanej treści + injection guardrails

Gateway pilnuje DOSTĘPU, nie treści — pobrana strona/dokument/odpowiedź narzędzia może nieść prompt-injection. Oddziel dane od instrukcji (content fencing), nie wykonuj poleceń z untrusted content.

Źródło: OWASP LLM01 + 'lethal trifecta' (Anthropic/Willison) 2026.

24

Agentic memory: working memory + zewnętrzny store

Robocza pamięć w oknie + fakty w zewnętrznym store (SQL/graf) to workhorse prod, ale 'memory staleness' (zdezaktualizowany wysoko-trafny fakt) to otwarte ryzyko — skaluję z polityką wygaszania.

Źródło: mem0 State of AI Agent Memory 2026.

25

Twardy budżet tokenów/kosztu + prompt/semantic caching

Limit ratuje przed runaway-loop i fakturą-niespodzianką; cache-read 90% taniej to czysty zysk — pod warunkiem, że cache'ujesz statyczny prefix, nie dynamiczne wyniki narzędzi.

Źródło: Anthropic 2026: prompt caching 90% oszczędności na cache-read.

Eksperyment
26

Computer-use agent (agent operuje GUI)

Już 'kategoria produkcyjna', ale OSWorld pokazuje ~27% porażek za pierwszym podejściem (modele początku 2026) — do prod tylko za twardym HITL-gatem i w wąskim sandboxie.

Źródło: OSWorld 2026: Claude ~73%, Operator niżej.

Pułapka cichej awarii
27

Cichy fallback / retry bez alertu

Fallback maskuje awarię — system mówi 'ok', jakość spadła, nikt nie wie; w marcu 2026 ~1/3 błędów LLM-spanów to rate-limity, które ciche retry zamiata pod dywan.

Źródło: Datadog State of AI Engineering 2026.

28

Zmiana modelu/promptu bez wersjonowania i rollbacku

Provider podmienia model pod spodem albo ktoś tknie prompt → cicha regresja; bez wersji promptu/evali nie cofniesz i nie wykryjesz, że 'upgrade' zepsuł produkcję.

NASTĘPNY KROK

Gdzie jest
Twój zespół?

Radar pokazuje, co działa w produkcji. Sprawdź, gdzie na nim jesteś — albo przeczytaj pełny raport Q2 2026.