TASK-015 — Anthropic sources indexer + daily processing skill

Задача

Сделать для будущей Anthropic Knowledge Base не просто импорт официальных постов, а индексатор 5–10 источников и затем отдельный daily skill/cron workflow, который каждый день процессит новые материалы, приводит их в порядок и обновляет Trip2G базу знаний.

Коротко:

Найти 5–10 источников → добавить в индексатор → протестировать ingest → позже написать skill для ежедневной обработки.

Почему это важно

Anthropic official posts дают canonical facts, но для живой базы знаний нужны ещё:

community commentary;
Telegram-разборы;
Hacker News / Reddit / блоговые реакции;
практические implementation notes;
сравнения с другими подходами;
delayed synthesis через 1–3 дня после релиза.

Trip2G здесь показывает важный сценарий knowledge mesh:

official source + commentary sources + agent synthesis → durable MCP knowledge base

Что нужно сделать

1. Найти 5–10 источников

Нужно собрать shortlist источников по Anthropic/Claude/agents/MCP.

Минимальные категории:

Official Anthropic:
- https://www.anthropic.com/sitemap.xml
- https://docs.anthropic.com/llms.txt
- https://docs.anthropic.com/llms-full.txt
Unofficial RSS / generated feeds:
- taobojlen/anthropic-rss-feed
- другие maintained RSS/github feeds, если найдутся.
Telegram commentary:
- 2–4 канала, которые регулярно разбирают Anthropic/Claude/agents.
Developer/community commentary:
- Hacker News search / Algolia API;
- Reddit, если качественно;
- selected blogs/newsletters.
Implementation examples:
- GitHub repos/issues/PRs around Claude Code, MCP, agent workflows.

Для каждого источника описать:

name:
kind: official | rss | telegram | hn | reddit | blog | github | docs
url:
access: public | private | token_required
format: sitemap | rss | html | telegram | api | markdown | llms.txt
update_frequency:
trust_level: canonical | commentary | noisy | experimental
why_include:
risks:

2. Добавить источники в индексатор

Сделать config-файл для будущего indexer, например:

anthropic-kb/_meta/sources.yaml

Пример:

sources:
  - id: anthropic_sitemap
    name: Anthropic website sitemap
    kind: official
    url: https://www.anthropic.com/sitemap.xml
    format: sitemap
    include:
      - /news/
      - /research/
      - /engineering/
    trust_level: canonical

  - id: anthropic_docs_llms
    name: Anthropic docs llms.txt
    kind: official_docs
    url: https://docs.anthropic.com/llms.txt
    format: llms_txt
    trust_level: canonical

  - id: anthropic_unofficial_news_rss
    name: Unofficial Anthropic news RSS
    kind: rss
    url: https://raw.githubusercontent.com/taobojlen/anthropic-rss-feed/main/anthropic_news_rss.xml
    format: rss
    trust_level: signal

  - id: telegram_example_channel
    name: Example Telegram commentary channel
    kind: telegram
    url: https://t.me/example
    format: telegram
    trust_level: commentary
    delay_days: 2

Важно: реальные приватные токены/куки не сохранять. Если источник требует доступ — писать token_required, но без значения секрета.

3. Сделать minimal ingest test

Для каждого источника проверить:

доступен ли источник;
можно ли получить list of items;
можно ли извлечь URL/date/title;
можно ли привести один item к markdown;
можно ли сохранить raw source note;
можно ли дедуплицировать по source_url + sha256.

4. Описать daily processing skill

После ручного прототипа написать отдельный reusable skill, например:

anthropic-kb-daily-processor

Skill должен уметь:

загрузить anthropic-kb/_meta/sources.yaml;
загрузить anthropic-kb/_meta/source-index.json;
пройти по источникам;
найти новые/изменённые items;
скачать raw content;
сохранить raw markdown;
обновить commentary/source pages;
обновить concept/entity/timeline pages;
обновить index.md;
дописать log.md;
запустить Trip2G sync;
сделать MCP smoke test.

5. Позже поставить cron

После того как skill работает вручную, поставить cron:

daily at 07:00 UTC

Cron prompt не должен спрашивать пользователя. Он должен:

сам читать config;
не трогать секреты;
писать краткий daily digest;
отправлять результат в текущий чат или сохранять в vault.

Источник истины vs commentary

Правило:

Official source = canonical facts.
Telegram/HN/blogs = interpretation and reaction.
Agent synthesis = durable concept pages.

Не заменять official Anthropic analysis Telegram-пересказами. Использовать Telegram как второй слой:

Day 0 — official ingest
Day 1–3 — commentary ingest
Day 7 — synthesis/update concepts

Acceptance criteria

Задача считается готовой, когда:

найдено 5–10 источников;
по каждому источнику заполнена карточка;
создан sources.yaml или его draft;
минимальный ingest test прошёл хотя бы для 3 источников;
официальные Anthropic источники отделены от commentary;
Telegram/HN/blog sources помечены как commentary/noisy;
есть dedupe strategy: source_url + sha256;
есть структура raw/synthesized notes;
написан draft skill anthropic-kb-daily-processor;
есть plan для cron;
нет сохранённых токенов/куки/секретов.

Suggested first 5 sources

Начать можно с этих пяти:

Anthropic website sitemap:
```
https://www.anthropic.com/sitemap.xml
```
Anthropic docs llms.txt:
```
https://docs.anthropic.com/llms.txt
```

Anthropic docs full llms:

https://docs.anthropic.com/llms-full.txt

Unofficial Anthropic RSS by taobojlen:

https://github.com/taobojlen/anthropic-rss-feed

Hacker News Algolia search for Anthropic URLs/titles:

https://hn.algolia.com/api/v1/search?query=anthropic

Потом добавить 2–5 Telegram/blog/newsletter sources после отдельного поиска и проверки качества.

Next action

Сделать отдельный research pass:

Find 5–10 Anthropic/Claude/agents commentary sources, classify them, and draft anthropic-kb/_meta/sources.yaml.