Что сказать модели?
Формулировка, роль, примеры, тон. Ошибка обычно видна сразу.
Loop Engineering — это переход от ручного “Claude, сделай X” к системе, которая сама находит работу, запускает агентов, проверяет результат, сохраняет состояние и зовёт человека только там, где нужен judgment.
Инженер выходит из внутренней петли и становится дизайнером системы.
Paper говорит: prompt/context/harness engineering всё ещё предполагают человека у клавиатуры. Loop engineering убирает это допущение: агент больше не ждёт, пока человек вспомнит его запустить.
Каждый этаж отвечает за более крупную единицу: одно предложение → одно окно контекста → один запуск агента → повторяющаяся система.
Формулировка, роль, примеры, тон. Ошибка обычно видна сразу.
Документы, код, историю, свежие факты. Плохой контекст даёт уверенно неверный ответ.
Инструменты, allowed actions, recovery, критерий “done”. Но run всё ещё одноразовый.
Расписание, helper agents, feedback в следующий turn, persistent state и стоп-кран.
Если убрать любое движение, loop либо не крутится, либо крутится опасно. Нажми на узел — справа короткое объяснение.
Самый сильный тезис paper: агент, который написал решение, обычно слишком лоялен к нему. Поэтому проверяющий должен быть отдельным.
“Выглядит нормально, ship it.”
Один и тот же контекст содержит причины, почему код был написан именно так. Агент видит не результат, а свою цепочку самоубеждения.
“Предположи, что всё сломано, и докажи обратное.”
Отдельный reviewer запускает тесты, кликает UI, смотрит DOM, проверяет ticket и возвращает PASS только если всё держится.
Paper подчёркивает: эти риски не пищат во время исполнения. Они накапливаются и приходят счётом позже.
PR зелёный, но не обязательно правильный. Лекарство: независимый evaluator.
Loop меняет систему быстрее, чем человек обновляет mental model. Лекарство: читать сэмпл каждый день.
Самый страшный момент: “ну агент же сделал”. Лекарство: human checkpoint, который нельзя убрать.
Retries + helpers + bad stop condition = неожиданный invoice. Лекарство: per-run cap, daily cap, max retries.
Paper советует: первый loop должен быть настолько маленьким, что почти выглядит скучно. Но внутри уже должны быть проверка и стоп-кран.
Каждое утро: прочитай CI/issues/commits → выбери actionable → запиши state → создай worktree → попроси reviewer проверить → открой PR, но не auto-merge.
Что читаем по таймеру: CI, Jira/issues, commits, inbox?
Где живёт память между runs: markdown, board, PR, ticket?
Кто независимо может сказать “нет” и показать реальный output?
Каждый parallel agent получает отдельный worktree.
Budget cap, max retries и шаг, где человек остаётся в контроле.
# 06:00 daily, cloud trigger run: agent --skill morning-triage # skill reads CI / issues / commits write: ./state/triage.md # one isolated task per finding agent --worktree fix/auth-test --goal "tests pass + lint clean" # never auto-merge: keep the human door open open PR → human review
Loop-Engineering-IEEE.pdf, Google Drive file ID 1qzKI4DKnyHRpXK1J3ATPqwaqLc0iNu-M, modified 2026-06-24T10:45:20Z.
Paper cites: Addy Osmani “Loop Engineering”, Peter Steinberger, Boris Cherny, Prithvi Rajasekaran, Steve Kaliski / Stripe Minions, HuaShu Orange Books v260615, June 2026.