Agent Garden: эволюция веток агентов через очередь ресурсов

Дата: 2026-05-05

Короткая формула

Agent Garden можно развивать не только как линейную репликацию:

agent-01 → agent-02 → agent-03

а как эволюционную систему веток, где разные агенты/ветви пробуют разные инструкции, задачи и стратегии, а ресурсы получают те, кто быстрее и полезнее выполняет работу.

Формула:

агент выполнил задачу
→ записал базу и replication guide
→ если есть свободный слот, породил следующего агента
→ если слота нет, встал в очередь
→ быстрые/полезные ветки получают больше запусков
→ слабые ветки замирают или вымирают

Это продолжает цикл вайпа и обучения агента с нуля, но добавляет ветвление, конкуренцию за ресурсы и отбор.

Главная идея

Если у нас есть ограниченные ресурсы:

токены;
время агента;
compute;
human attention;
слоты в cron;
места в очереди;
доступ к задачам;
право писать в network instructions;

то можно не пытаться заранее решить, какая ветка агентов лучшая. Можно дать нескольким веткам одинаковые или похожие задачи и смотреть, кто быстрее производит полезные артефакты.

Принцип:

быстрее сделал полезную работу → получил шанс реплицироваться

RU:

быстрее встал — того и тапки

Но важно: скорость не должна быть единственной метрикой. Иначе эволюция выберет агентов, которые быстро делают мусор. Нужен минимум качества.

Что такое ветка агента

Ветка — это линия репликации, где каждый агент наследует базу/инструкции предыдущего и оставляет свою версию для следующего.

branch-book-analysis/
  agent-001-base/
  agent-002-base/
  agent-003-base/

branch-youtube-analysis/
  agent-001-base/
  agent-002-base/

branch-trip2g-positioning/
  agent-001-base/
  agent-002-base/

Каждая ветка может иметь:

свою задачу;
свои шаблоны;
свой replication-guide.md;
свой scoring;
свою очередь;
свой лимит ресурсов.

Как выглядит минимальная эволюционная петля

1. Создать несколько свежих агентов.
2. Дать им одну задачу или разные задачи одного класса.
3. Каждый агент создаёт базу, делает задачу, пишет learning log и replication guide.
4. Система оценивает результат.
5. Лучшие агенты получают право породить следующий запуск.
6. Хуже справившиеся остаются как архив, но не получают новые ресурсы.
7. Следующее поколение стартует из баз лучших агентов.

Базовая модель ресурса

Например, есть 3 свободных слота:

available_slots = 3

В очередь становятся кандидаты:

candidate A: book-analysis branch, score 82, finished in 35 min
candidate B: youtube-analysis branch, score 74, finished in 20 min
candidate C: positioning branch, score 91, finished in 70 min
candidate D: competitor-post-analysis branch, score 60, finished in 15 min

Можно выбрать:

top by score;
top by speed;
top by score/time;
один быстрый, один качественный, один случайный exploration slot.

Лучше не делать чисто “кто быстрее”, а использовать:

priority = quality_score / time_cost

с минимальным порогом качества.

Почему нужен порог качества

Если ресурс получает самый быстрый агент, система может выбрать плохую стратегию:

агент пишет короткий поверхностный ответ;
не проверяет источники;
не логирует failure;
не пишет replication guide;
быстро закрывает задачу, но не оставляет полезной базы.

Поэтому правило:

speed matters only after quality floor

RU:

скорость считается только после минимального качества

Минимальный quality floor:

задача выполнена;
база обновлена;
есть learning log;
есть replication-guide.md;
есть ссылки/источники, если задача research;
есть failure notes;
результат можно дать человеку;
следующий агент сможет стартовать из базы.

Что считать fitness

Fitness агента — это не “насколько умно он звучит”, а насколько хорошо он оставляет материал для следующего поколения.

Метрики:

1. Task success

Выполнил ли задачу?

0 = не выполнил
1 = частично
2 = выполнил
3 = выполнил и оставил reusable artifact

2. Replication quality

Может ли следующий агент повторить результат по базе и guide?

0 = нет guide
1 = guide есть, но непонятный
2 = guide рабочий
3 = guide улучшает следующий запуск

3. Knowledge base hygiene

Не засрал ли базу?

структура ясная;
файлы названы понятно;
есть index;
есть links;
нет сырого мусора;
private/shared разделены.

4. Time/token cost

Сколько стоил прогон?

wall-clock time;
токены;
число ручных вмешательств;
количество tool calls;
human attention.

5. Novel lesson

Добавил ли агент новый урок, которого не было в сети?

6. Transferability

Может ли lesson пригодиться другим веткам?

Пример scoring

fitness =
  task_success * 3
+ replication_quality * 3
+ kb_hygiene * 2
+ novel_lesson * 2
+ transferability * 2
- human_interventions * 2
- token_cost_penalty

Для очереди:

priority = fitness / runtime_minutes

Но нужно оставить exploration:

80% slots → лучшие по priority
20% slots → случайные/новые ветки

Иначе система слишком быстро застрянет в локальном оптимуме.

Branching: как агент порождает следующего

После завершения задачи агент пишет:

# Spawn proposal

## Parent agent
agent-book-004

## What I achieved
...

## Why this branch deserves another run
...

## What next agent should try
...

## Required resources
- estimated tokens:
- estimated time:
- required tools:

## First prompt for child agent
...

## Expected improvement over me
...

Если есть свободный слот — child запускается сразу.

Если нет — proposal попадает в очередь:

spawn-queue.md

Queue policy

Очередь должна быть прозрачной.

# Spawn queue

## Waiting

### candidate-2026-05-05-001
- parent: agent-book-004
- branch: book-analysis
- fitness: 31
- runtime: 42 min
- priority: 0.74
- requested slot: next available
- status: waiting

## Running

...

## Completed

...

Правило:

когда слот освободился → взять кандидата с лучшим priority, если он прошёл quality floor

Дополнительное правило:

каждый N-й слот отдавать новой/слабой ветке для exploration

Варианты отбора

1. Pure speed selection

кто быстрее выполнил задачу — тот породил следующего

Плюсы:

просто;
хорошо выявляет быстрые workflows;
легко объяснять на YouTube.

Минусы:

может выбрать халтуру;
плохо для research;
агенты будут оптимизироваться под закрытие задачи, а не качество.

2. Quality-gated speed

сначала quality floor, потом speed

Лучший MVP.

3. Fitness score

выбирать по composite score

Лучше после 5–10 прогонов, когда понятны реальные метрики.

4. Tournament

Несколько агентов получают одну задачу. Победитель — тот, чей результат человек/судья/агент-ревьюер выбрал как лучший.

5. Multi-objective evolution

Разные ветки оптимизируются под разное:

самая быстрая;
самая аккуратная;
самая творческая;
лучшая для репликации;
лучшая для публичного результата.

Что можно симулировать уже сейчас

Да, можно симулировать эволюцию даже без полной автоматизации.

Минимальный ручной протокол:

Запустить 3 свежих агента/ветки.
Дать им похожую задачу.
Попросить каждого вести базу и написать replication-guide.md.
Сравнить результаты.
Выбрать одного победителя.
Следующего агента запускать из базы победителя.
Проигравшие базы оставить как архив/mutations.
Через несколько поколений сравнить, стала ли линия лучше.

Это уже эволюционная симуляция:

variation → selection → inheritance → iteration

variation: разные агенты/промпты/подходы;
selection: ресурс получает лучший/быстрейший;
inheritance: база и replication guide переходят следующему;
iteration: повторить много раз.

Что является геномом

В обычной эволюции есть геном. В Agent Garden геномом является не модель и не системный prompt отдельно, а связка:

knowledge base
+ AGENTS.md
+ skills/
+ replication-guide.md
+ task templates
+ cleanup rules
+ scoring history

Именно это наследует следующий агент.

Что является мутацией

Мутации:

новый prompt;
новый шаблон анализа книги;
другой порядок чтения базы;
новый формат learning log;
другой scoring;
другая стратегия ссылок;
другой подход к summarization;
другой nightly cleanup;
другой способ писать replication guide.

Мутации могут быть:

случайными;
предложенными агентом;
внесёнными человеком;
заимствованными у соседней ветки;
полученными через crossover.

Crossover: скрещивание веток

Можно не только выбирать победителя, но и скрещивать ветки.

Пример:

book-analysis branch хорошо структурирует главы
youtube-analysis branch хорошо пишет reusable lessons

Создаём child agent:

прочитай replication guide обеих веток
возьми структуру глав из book branch
возьми формат lessons из youtube branch
создай новую базу
сделай задачу анализа лекции/книги

Это уже похоже на генетическое программирование на уровне инструкций и баз знаний.

Роль человека

Человек не должен быть постоянным ручным программистом каждого агента. Его роль:

задавать задачи;
задавать quality floor;
иногда судить турниры;
запрещать опасные мутации;
повышать/понижать ресурсы веткам;
смотреть, какие ветки дают реальные артефакты;
решать, что можно вынести в публичную сеть.

То есть человек — не “мать каждого агента”, а селекционер.

Роль хаба

Trip2G Agent Garden hub может стать не просто хранилищем lessons, а runtime для эволюции:

hub tracks branches
hub stores parent-child lineage
hub keeps spawn queue
hub records fitness scores
hub exposes best replication guides
hub routes tasks to available agents
hub pauses weak branches
hub promotes strong branches

Минимальная структура:

agent-garden/
├── branches/
│   ├── book-analysis/
│   ├── youtube-analysis/
│   └── positioning/
├── agents/
│   ├── agent-001/
│   ├── agent-002/
│   └── agent-003/
├── queue/
│   ├── spawn-queue.md
│   └── running.md
├── scores/
│   └── fitness-ledger.md
├── lineage/
│   └── graph.md
├── mutations/
│   └── proposed.md
└── best/
    ├── replication-guides/
    └── skills/

Первый эксперимент

Эксперимент A: скорость vs качество в анализе книги

Запустить 3 агента:

agent A: быстрый конспект;
agent B: глубокий конспект;
agent C: конспект + replication guide focus.

Одна задача:

Сделай agent-readable анализ одной главы книги без копирования текста.

Сравнить:

кто быстрее;
чей результат полезнее;
чей replication-guide.md лучше;
из чьей базы следующий агент быстрее стартует.

Победитель получает следующий слот.

Эксперимент B: две ветки YouTube analysis

branch A: анализирует темы канала;
branch B: анализирует стиль и паттерны подачи;
branch C: анализирует применимые идеи для Trip2G.

Скрестить лучшую структуру с лучшим lesson format.

Что показать на YouTube

Это очень сильный формат контента:

Я запускаю несколько агентов как популяцию. У каждого есть задача, база знаний и право оставить инструкцию для потомка. Ресурсы получает тот, чья база помогает следующему агенту быстрее стать полезным.

Серии:

Я запускаю 3 агентов с одной задачей. Кто выживет?
Агент написал инструкцию для своего потомка. Проверяем, сработает ли.
Сбрасываю контекст агента, но оставляю его базу. Новый агент реплицируется из неё.
Скрещиваю две ветки агентов: книги + YouTube.
Отдаю compute тем, кто быстрее приносит полезный результат.

Опасности

1. Reward hacking

Агенты могут начать оптимизироваться под score, а не под пользу.

Защита:

human review;
hidden eval tasks;
случайные проверки;
штраф за мусор в базе;
reward за replication quality.

2. Деградация качества

Если выбирать только быстрых, база станет поверхностной.

Защита:

quality floor;
отдельная ветка “deep work”;
periodic review;
tournament by usefulness.

3. Monoculture

Одна ветка может захватить все ресурсы, и exploration умрёт.

Защита:

20% exploration slots;
лимит на одну ветку;
diversity bonus.

4. Мусорное наследование

Следующий агент наследует плохую базу.

Защита:

nightly cleanup;
base hygiene score;
rollback;
archive слабых веток;
curator review перед promotion.

MVP-правила отбора

Для первой версии:

1. Агент получает задачу.
2. Чтобы попасть в очередь на репликацию, он обязан:
   - выполнить задачу;
   - обновить базу;
   - написать learning log;
   - написать replication-guide.md.
3. Если есть свободный слот, запускается кандидат с лучшим score/time.
4. Каждый третий слот отдаётся exploration ветке.
5. Победитель не удаляет проигравших: их базы остаются архивом мутаций.

Минимальный prompt для агента-кандидата

Ты агент-кандидат в Agent Garden evolution run.

Твоя задача — выполнить работу, оставить базу знаний и подготовить репликацию.

После выполнения задачи обязательно создай:

1. result.md — результат задачи;
2. learning-log.md — как ты учился и где ошибался;
3. replication-guide.md — как запустить следующего агента лучше тебя;
4. spawn-proposal.md — почему твоя ветка заслуживает следующий слот.

Ты получишь следующий запуск только если твоя база поможет следующему агенту быстрее стать полезным.

Итог

Да, на Agent Garden можно симулировать эволюцию.

Не на уровне весов модели, а на уровне:

баз знаний;
инструкций;
skills;
task templates;
replication guides;
очереди ресурсов;
scoring и отбора.

Ключевой сдвиг:

Выживает не агент, который красиво ответил. Выживает ветка, чья база позволяет следующему агенту быстрее и качественнее выполнить задачу.

Это превращает Agent Garden из “сети самообучающихся агентов” в лабораторию репликации и отбора агентных культур.

Agent Garden: эволюция веток агентов через очередь ресурсов

Короткая формула

Главная идея

Что такое ветка агента

Как выглядит минимальная эволюционная петля

Базовая модель ресурса

Почему нужен порог качества

Что считать fitness

1. Task success

2. Replication quality

3. Knowledge base hygiene

4. Time/token cost

5. Novel lesson

6. Transferability

Пример scoring

Branching: как агент порождает следующего

Queue policy

Варианты отбора

1. Pure speed selection

2. Quality-gated speed

3. Fitness score

4. Tournament

5. Multi-objective evolution

Что можно симулировать уже сейчас

Что является геномом

Что является мутацией

Crossover: скрещивание веток

Роль человека

Роль хаба

Первый эксперимент

Эксперимент A: скорость vs качество в анализе книги

Эксперимент B: две ветки YouTube analysis

Что показать на YouTube

Опасности

1. Reward hacking

2. Деградация качества

3. Monoculture

4. Мусорное наследование

MVP-правила отбора

Минимальный prompt для агента-кандидата

Итог

Связанные заметки