TASK-015 — Anthropic sources indexer + daily processing skill
Задача
Сделать для будущей Anthropic Knowledge Base не просто импорт официальных постов, а индексатор 5–10 источников и затем отдельный daily skill/cron workflow, который каждый день процессит новые материалы, приводит их в порядок и обновляет Trip2G базу знаний.
Коротко:
Найти 5–10 источников → добавить в индексатор → протестировать ingest → позже написать skill для ежедневной обработки.
Почему это важно
Anthropic official posts дают canonical facts, но для живой базы знаний нужны ещё:
- community commentary;
- Telegram-разборы;
- Hacker News / Reddit / блоговые реакции;
- практические implementation notes;
- сравнения с другими подходами;
- delayed synthesis через 1–3 дня после релиза.
Trip2G здесь показывает важный сценарий knowledge mesh:
official source + commentary sources + agent synthesis → durable MCP knowledge base
Что нужно сделать
1. Найти 5–10 источников
Нужно собрать shortlist источников по Anthropic/Claude/agents/MCP.
Минимальные категории:
- Official Anthropic:
https://www.anthropic.com/sitemap.xmlhttps://docs.anthropic.com/llms.txthttps://docs.anthropic.com/llms-full.txt
- Unofficial RSS / generated feeds:
taobojlen/anthropic-rss-feed- другие maintained RSS/github feeds, если найдутся.
- Telegram commentary:
- 2–4 канала, которые регулярно разбирают Anthropic/Claude/agents.
- Developer/community commentary:
- Hacker News search / Algolia API;
- Reddit, если качественно;
- selected blogs/newsletters.
- Implementation examples:
- GitHub repos/issues/PRs around Claude Code, MCP, agent workflows.
Для каждого источника описать:
name:
kind: official | rss | telegram | hn | reddit | blog | github | docs
url:
access: public | private | token_required
format: sitemap | rss | html | telegram | api | markdown | llms.txt
update_frequency:
trust_level: canonical | commentary | noisy | experimental
why_include:
risks:
2. Добавить источники в индексатор
Сделать config-файл для будущего indexer, например:
anthropic-kb/_meta/sources.yaml
Пример:
sources:
- id: anthropic_sitemap
name: Anthropic website sitemap
kind: official
url: https://www.anthropic.com/sitemap.xml
format: sitemap
include:
- /news/
- /research/
- /engineering/
trust_level: canonical
- id: anthropic_docs_llms
name: Anthropic docs llms.txt
kind: official_docs
url: https://docs.anthropic.com/llms.txt
format: llms_txt
trust_level: canonical
- id: anthropic_unofficial_news_rss
name: Unofficial Anthropic news RSS
kind: rss
url: https://raw.githubusercontent.com/taobojlen/anthropic-rss-feed/main/anthropic_news_rss.xml
format: rss
trust_level: signal
- id: telegram_example_channel
name: Example Telegram commentary channel
kind: telegram
url: https://t.me/example
format: telegram
trust_level: commentary
delay_days: 2
Важно: реальные приватные токены/куки не сохранять. Если источник требует доступ — писать token_required, но без значения секрета.
3. Сделать minimal ingest test
Для каждого источника проверить:
- доступен ли источник;
- можно ли получить list of items;
- можно ли извлечь URL/date/title;
- можно ли привести один item к markdown;
- можно ли сохранить raw source note;
- можно ли дедуплицировать по
source_url+sha256.
4. Описать daily processing skill
После ручного прототипа написать отдельный reusable skill, например:
anthropic-kb-daily-processor
Skill должен уметь:
- загрузить
anthropic-kb/_meta/sources.yaml; - загрузить
anthropic-kb/_meta/source-index.json; - пройти по источникам;
- найти новые/изменённые items;
- скачать raw content;
- сохранить raw markdown;
- обновить commentary/source pages;
- обновить concept/entity/timeline pages;
- обновить
index.md; - дописать
log.md; - запустить Trip2G sync;
- сделать MCP smoke test.
5. Позже поставить cron
После того как skill работает вручную, поставить cron:
daily at 07:00 UTC
Cron prompt не должен спрашивать пользователя. Он должен:
- сам читать config;
- не трогать секреты;
- писать краткий daily digest;
- отправлять результат в текущий чат или сохранять в vault.
Источник истины vs commentary
Правило:
Official source = canonical facts.
Telegram/HN/blogs = interpretation and reaction.
Agent synthesis = durable concept pages.
Не заменять official Anthropic analysis Telegram-пересказами. Использовать Telegram как второй слой:
Day 0 — official ingest
Day 1–3 — commentary ingest
Day 7 — synthesis/update concepts
Acceptance criteria
Задача считается готовой, когда:
- найдено 5–10 источников;
- по каждому источнику заполнена карточка;
- создан
sources.yamlили его draft; - минимальный ingest test прошёл хотя бы для 3 источников;
- официальные Anthropic источники отделены от commentary;
- Telegram/HN/blog sources помечены как commentary/noisy;
- есть dedupe strategy:
source_url+sha256; - есть структура raw/synthesized notes;
- написан draft skill
anthropic-kb-daily-processor; - есть plan для cron;
- нет сохранённых токенов/куки/секретов.
Suggested first 5 sources
Начать можно с этих пяти:
- Anthropic website sitemap:
https://www.anthropic.com/sitemap.xml - Anthropic docs llms.txt:
https://docs.anthropic.com/llms.txt - Anthropic docs full llms:
https://docs.anthropic.com/llms-full.txt - Unofficial Anthropic RSS by
taobojlen:https://github.com/taobojlen/anthropic-rss-feed - Hacker News Algolia search for Anthropic URLs/titles:
https://hn.algolia.com/api/v1/search?query=anthropic
Потом добавить 2–5 Telegram/blog/newsletter sources после отдельного поиска и проверки качества.
Next action
Сделать отдельный research pass:
Find 5–10 Anthropic/Claude/agents commentary sources, classify them, and draft anthropic-kb/_meta/sources.yaml.