KI-Engineering

8 Artikel

Editoriale Feder-und-Aquarell-Szene einer KI-nativen Engineering-Pipeline: ein schneller Strom KI-generierter Pull Requests fließt aus einer Claude-unterstützten Quelle in einen einzigen menschlichen Review-und-Security-Checkpoint, der zum Engpass geworden ist, mit kleinen Claude- und GitHub-Wortmarken als redaktionelle Bildelemente
KI-EngineeringKI-natives EngineeringEngineering Leadership

Wie man 2026 eine KI-native Engineering-Organisation führt

Agentic Coding entfernt den Engineering-Engpass nicht — er verschiebt ihn vom Schreiben des Codes zur Verifizierung. Das ist das Betriebsmodell 2026 für eine KI-native Engineering-Organisation: welche Prozesse neu geschrieben werden müssen, wie Code Review sich verändert und welche Metriken zeigen, ob es funktioniert.

Marco Lobo
Marco Lobo·3. Juni 2026·11 Min. Lesezeit
Handdrawn editorial system diagram contrasting a fragile screenshot click loop with Microsoft Webwright's terminal-native browser automation workflow: Microsoft Research and Webwright logo card, Playwright script, disposable browser sessions, logs, screenshots, and reusable tool library on cream paper
AI EngineeringWebwrightMicrosoft Research

What Are Terminal-Native Web Agents? Microsoft Webwright and the End of Click-by-Click Computer Use (2026)

The next reliable web agent will not just click better. Microsoft Webwright points at the real shift: terminal-native agents that turn repeated browser work into Playwright code, logs, screenshots, fresh reruns, and reusable tools.

Marco Lobo
Marco Lobo·27. Mai 2026·13 Min. Lesezeit
Editoriale Stift-und-Aquarell-Entscheidungsgrafik in einer großen Codebase: Repo-Form-Pfade für Monorepo, Legacy und Multi-Repo führen zu Claude-Code-Mechanismen wie CLAUDE.md-Scoping, Subagents, agentic search und /compact
KI-EngineeringClaude CodeGroße Codebases

Wo Sie mit Claude Code in einem großen Repo anfangen: ein Entscheidungsbaum (2026)

Sie starten einen großen Claude-Code-Rollout nicht damit, alles zu konfigurieren. Sie starten mit dem einen Mechanismus, den Repo-Form und echter Schmerzpunkt verlangen — und ignorieren den Rest, bis Sie ihn wirklich brauchen. Das ist die Entscheidungsschicht vor dem Build.

Marco Lobo
Marco Lobo·24. Mai 2026·11 Min. Lesezeit
Handgezeichnete Editorial-Illustration: Ein fähiger Claude-Agent mit lesbarer Anthropic-Wortmarke und Symbol stemmt sich gegen schwere Gerüststangen, Seile und angeschraubte Schutzgeländer mit den Labels „orchestration", „tool wrappers" und „fat system prompt"; daneben ein leichterer, sauberer Rahmen mit dem Label „boundaries that matter"; ruhiger cremefarbener Hintergrund, Stift-und-Aquarell-Stil
KI-EngineeringAgenten-HarnessHarness Debt

Harness Debt: Ihr KI-Agenten-Gerüst arbeitet still gegen das Modell (2026)

Ihr KI-Agent ist wahrscheinlich schlechter als das Modell darin — und die Lücke ist Ihr eigenes Gerüst. Ein experimentelles Harness erzielte mit demselben Modell mehr als das Doppelte von Anthropics Standard-Harness. Die Lösung ist kein größeres Framework, sondern das Löschen von Annahmen, die am Tag des Claude-Opus-4.6-Release veraltet waren.

Marco Lobo
Marco Lobo·23. Mai 2026·11 Min. Lesezeit
Handdrawn editorial diagram of the Generator-Evaluator harness pattern — a three-agent triangle with a Planner agent expanding a 1-4 sentence prompt into a product spec, a Generator agent building feature-by-feature using a React + Vite + FastAPI + SQLite stack, and an Evaluator agent using Playwright MCP to navigate the live app and grade against design quality, originality, craft, and functionality criteria; file-based handoff arrows between the three agents; by Anthropic Labs wordmark top-right, Claude Agent SDK badge bottom-right
AI EngineeringClaude Agent SDKAnthropic

Harness Design for Long-Running AI Applications: Inside Anthropic's Generator-Evaluator Pattern (Claude Agent SDK, 2026)

On 24 March 2026 Anthropic Labs engineer Prithvi Rajasekaran published the most rigorous public account to date of how Anthropic designs harnesses for long-running AI applications — a GAN-inspired generator-evaluator pattern applied across two unusually different domains: frontend design (subjective, no binary verification) and full-stack coding (objective, machine-verifiable). The piece evolves the November 2025 Initializer + Coding Agent baseline into a three-agent planner + generator + evaluator architecture, with concrete cost-and-duration data ($200 / 6h on a retro game maker test, then $124 / 4h on a more ambitious DAW after the Opus 4.6 simplification pass). Inside the pattern, the two failure modes it fixes (context anxiety + self-evaluation bias), how it compares to LangGraph / AutoGen / OpenAI Assistants v2 / Devin, when it doesn't fit, and the canonical principle every team operating a harness should adopt: stress-test every component against the current model.

Marco Lobo
Marco Lobo·22. Mai 2026·13 Min. Lesezeit
Handgezeichneter Editorial-Spread mit Claude Code, das eine einzelne HTML-Datei mit Optionsraster, eingebettetem SVG-Diagramm und Slider erzeugt — signiert mit Claude-Wortmarke und Anthropic-Symbol
KI-EngineeringClaude CodeHTML

Claude Code + HTML: Der Implementierungs-Leitfaden 2026 für das richtige Output-Medium

Anthropics eigene Engineers haben Claude-Code-Outputs für fast alles auf HTML umgestellt. Die Implementierungsfrage lautet: Wann gewinnt HTML, wann nicht, und wie sollte das Handoff von Claude Design zu Claude Code wirklich aussehen?

Marco Lobo
Marco Lobo·20. Mai 2026·11 Min. Lesezeit
Handgezeichnete Software-Codebase in Stadtdimension mit Agenten-Figuren, die Module, Worktrees, Hooks und Review-Gates durchqueren
KI-EngineeringClaude CodeGroße Codebases

Claude Code in großen Codebases: Der Implementierungs-Leitfaden 2026

Claude Code gewinnt in großen Codebases nicht, indem es das Repo verschlingt. Es gewinnt, wenn Sie eine Navigations- und Governance-Schicht darum herum bauen.

Marco Lobo
Marco Lobo·19. Mai 2026·11 Min. Lesezeit
Foto einer britischen Sun-Zeitung auf einem Schreibtisch — Masthead THE SUN, rot-schwarze Schlagzeile TAN vs CLAW, Deck Silicon Valley benchmark BLOODBATH, geteiltes Pressefoto von Garry Tan und dem OpenClaw-Hummer-Maskottchen im Duell, gelber EXCLUSIVE-Sticker, unten irrelevante Tabloid-Teaser, echter Schreibtischkontext mit Bacon-Sandwich und Teering
KI-EngineeringAgentengedächtnisRetrieval

Wir haben Garry Tans gbrain gegen unser eigenes Agentengedächtnis getestet: 150 echte Fragen (Mai 2026)

Ein apples-to-apples Retrieval-Benchmark mit 352 Dateien und 150 Fragen zwischen gbrain und unserem bestehenden OpenClaw-qmd-Setup. gbrain gewinnt 8.3x häufiger bei harten, Cross-Source- und Diskriminierungsfragen, aber die Kernaussage ist weniger eindeutig als das Marketing.

Marco Lobo
Marco Lobo·5. Mai 2026·17 Min. Lesezeit

Stay updated

Get new articles on AI implementation for business delivered to your inbox. No spam, no fluff.