Skills — wielokrotne, weryfikowalne zdolności
Spakowane raz, działają wszędzie; u mnie w prod jako emodul, gh-tasks, infra-nginx, deep-research — jednostka ponownego użycia, nie prompt.
Deterministyczna kontrola nad niedeterministycznym AI — z okopów, nie ze slajdów
28 wpisów: Budowanie 6 · Orkiestracja 6 · Domykanie i zaufanie 8 · Operacje i HITL 8
Najedź na punkt lub wiersz legendy, aby zobaczyć uzasadnienie i źródło. Pełna lista poniżej.
28 wpisów: Budowanie 6 · Orkiestracja 6 · Domykanie i zaufanie 8 · Operacje i HITL 8
Spakowane raz, działają wszędzie; u mnie w prod jako emodul, gh-tasks, infra-nginx, deep-research — jednostka ponownego użycia, nie prompt.
Wymuszony schemat bije parsowanie tekstu; model retry'uje na poziomie tool-calla. CAVEAT: schema-valid ≠ poprawne semantycznie — kształt, nie jakość; krytyczne pola i tak przez weryfikację.
Awansował z Pilotażu: 'Context Rot' u każdego modelu i degradacja po liczbie tokenów czynią selekcję/kompresję kontekstu codziennym chlebem prod.
Źródło: Chroma Context Rot + Context Engineering Reliability Playbook 2026.
Wąski subagent z własnym oknem zwraca rodzicowi 1-2k tokenów esencji — bije generalistę i chroni przed degradacją, ale koszt koordynacji każe skalować świadomie.
Źródło: Anthropic multi-agent research system (2026).
Rzadko opłacalny w 2026 — context engineering + skille + prompt-caching dowożą taniej i bez zamrażania się na starym checkpoincie.
Monolit pada GŁOŚNO na demie, ale realna cicha awaria to regresja po tknięciu jednego fragmentu: zmiana w sekcji A po cichu psuje sekcję C — bez golden-datasetu tego nie widzisz.
Fan-out / pipeline / loop-until po mojej stronie, poznanie po stronie modelu — powtarzalne, tanie do debugowania, odporne na dryf.
Checkpoint człowieka w krytycznym punkcie to najtańszy bezpiecznik przeciw dryfowi — i pierwsza rzecz, którą regulowane branże faktycznie kupują.
Stan zapisany na każdym kroku do Postgres/SQLite pozwala wznowić wielogodzinny przebieg zamiast startu od zera — to czyni długie agenty bezpiecznymi.
Źródło: LangGraph 2026: checkpointer + HITL primitives jako standard; time-travel rollback głównie dev/debug.
Krótszy wall-clock niż parallel-barrier; do prod tylko tam, gdzie etapy są naprawdę niezależne i da się je domknąć osobno.
Kuszące przy zadaniach otwartych, ale przy wysokich stawkach nieprzewidywalny — trzymam na krótkiej smyczy z twardym budżetem i bramką.
Kilku agentów dochodzi do spójnie brzmiącego, błędnego wniosku — i ta zgoda CZYTA się jak weryfikacja, choć nią nie jest. Bez zewnętrznego yardsticka konsensus przepuszcza halucynację, która wygląda na potwierdzoną.
Źródło: ryzyko 'sycophantic agreement' / collusion między agentami (Augment Code 2026).
Keep-if-better / else revert → model nie oszuka sam siebie. Dowód: OffBall 0,83 Spearman, whitepaper po 3 rundach review.
Pojedynczy sędzia LLM wygrywa slot A o 10-15 pkt częściej niezależnie od treści; panel + zamiana pozycji to neutralizuje. Dowód: double-diamond 219→2.
Źródło: futureagi / Adaline 2026: position/verbosity/self-preference bias.
Łapie ciche awarie (status=ok / output=śmieci). Dowód: cron-watcher na Haiku co godzinę + audit JSONL.
'Co da się sprawdzić deterministycznie (schema, test, lookup faktu) NIE idzie do sędziego' — konsensus prod 2026. Sędziego rezerwujesz na wymiary subiektywne.
Źródło: Vadim.blog / labelyourdata 2026.
Weryfikacja, czy odpowiedź/argument tool-calla faktycznie wynika z pobranego źródła (halucynowany tool-arg, retrieval-faithfulness). Odrębne ryzyko od judge-bias i injection; metryki wciąż dojrzewają.
Źródło: RAGAS / hallucinated-tool-arg checks 2026.
Evale jak testy przed mergem na stałym zestawie referencyjnym, blokują regresję przed prod. Mniej rozpowszechnione niż sama zasada verify-before-judge — stąd Pilotaż.
Sędzia ocenia własną pracę i sam się przepuszcza (self-preference bias) — bez zewnętrznego yardsticka to teatr jakości, nie jakość.
Pewność ≠ poprawność; model bywa najbardziej pewny dokładnie wtedy, gdy najbardziej kłamie — calibration drift udokumentowany.
Każdy przebieg zostawia ślad; bez tego nie udowodnisz co się stało ani nie złapiesz regresji po fakcie — i nie przejdziesz audytu w regulowanej branży.
MCP to standard integracji (oddany Agentic AI Foundation pod Linux Foundation, gru 2025), ale do prod TYLKO za gatewayem z auth i allowlistą — to access-control (kto/co wolno wywołać), nie obrona przed treścią.
Źródło: Stacklok 2026: 41% org ma MCP w prod; security = top bloker.
Gateway pilnuje DOSTĘPU, nie treści — pobrana strona/dokument/odpowiedź narzędzia może nieść prompt-injection. Oddziel dane od instrukcji (content fencing), nie wykonuj poleceń z untrusted content.
Źródło: OWASP LLM01 + 'lethal trifecta' (Anthropic/Willison) 2026.
Robocza pamięć w oknie + fakty w zewnętrznym store (SQL/graf) to workhorse prod, ale 'memory staleness' (zdezaktualizowany wysoko-trafny fakt) to otwarte ryzyko — skaluję z polityką wygaszania.
Źródło: mem0 State of AI Agent Memory 2026.
Limit ratuje przed runaway-loop i fakturą-niespodzianką; cache-read 90% taniej to czysty zysk — pod warunkiem, że cache'ujesz statyczny prefix, nie dynamiczne wyniki narzędzi.
Źródło: Anthropic 2026: prompt caching 90% oszczędności na cache-read.
Już 'kategoria produkcyjna', ale OSWorld pokazuje ~27% porażek za pierwszym podejściem (modele początku 2026) — do prod tylko za twardym HITL-gatem i w wąskim sandboxie.
Źródło: OSWorld 2026: Claude ~73%, Operator niżej.
Fallback maskuje awarię — system mówi 'ok', jakość spadła, nikt nie wie; w marcu 2026 ~1/3 błędów LLM-spanów to rate-limity, które ciche retry zamiata pod dywan.
Źródło: Datadog State of AI Engineering 2026.
Provider podmienia model pod spodem albo ktoś tknie prompt → cicha regresja; bez wersji promptu/evali nie cofniesz i nie wykryjesz, że 'upgrade' zepsuł produkcję.
Radar pokazuje, co działa w produkcji. Sprawdź, gdzie na nim jesteś — albo przeczytaj pełny raport Q2 2026.