TASK-015 — Anthropic sources indexer + daily processing skill

Задача

Сделать для будущей Anthropic Knowledge Base не просто импорт официальных постов, а индексатор 5–10 источников и затем отдельный daily skill/cron workflow, который каждый день процессит новые материалы, приводит их в порядок и обновляет Trip2G базу знаний.

Коротко:

Найти 5–10 источников → добавить в индексатор → протестировать ingest → позже написать skill для ежедневной обработки.

Почему это важно

Anthropic official posts дают canonical facts, но для живой базы знаний нужны ещё:

  • community commentary;
  • Telegram-разборы;
  • Hacker News / Reddit / блоговые реакции;
  • практические implementation notes;
  • сравнения с другими подходами;
  • delayed synthesis через 1–3 дня после релиза.

Trip2G здесь показывает важный сценарий knowledge mesh:

official source + commentary sources + agent synthesis → durable MCP knowledge base

Что нужно сделать

1. Найти 5–10 источников

Нужно собрать shortlist источников по Anthropic/Claude/agents/MCP.

Минимальные категории:

  1. Official Anthropic:
    • https://www.anthropic.com/sitemap.xml
    • https://docs.anthropic.com/llms.txt
    • https://docs.anthropic.com/llms-full.txt
  2. Unofficial RSS / generated feeds:
    • taobojlen/anthropic-rss-feed
    • другие maintained RSS/github feeds, если найдутся.
  3. Telegram commentary:
    • 2–4 канала, которые регулярно разбирают Anthropic/Claude/agents.
  4. Developer/community commentary:
    • Hacker News search / Algolia API;
    • Reddit, если качественно;
    • selected blogs/newsletters.
  5. Implementation examples:
    • GitHub repos/issues/PRs around Claude Code, MCP, agent workflows.

Для каждого источника описать:

name:
kind: official | rss | telegram | hn | reddit | blog | github | docs
url:
access: public | private | token_required
format: sitemap | rss | html | telegram | api | markdown | llms.txt
update_frequency:
trust_level: canonical | commentary | noisy | experimental
why_include:
risks:

2. Добавить источники в индексатор

Сделать config-файл для будущего indexer, например:

anthropic-kb/_meta/sources.yaml

Пример:

sources:
  - id: anthropic_sitemap
    name: Anthropic website sitemap
    kind: official
    url: https://www.anthropic.com/sitemap.xml
    format: sitemap
    include:
      - /news/
      - /research/
      - /engineering/
    trust_level: canonical

  - id: anthropic_docs_llms
    name: Anthropic docs llms.txt
    kind: official_docs
    url: https://docs.anthropic.com/llms.txt
    format: llms_txt
    trust_level: canonical

  - id: anthropic_unofficial_news_rss
    name: Unofficial Anthropic news RSS
    kind: rss
    url: https://raw.githubusercontent.com/taobojlen/anthropic-rss-feed/main/anthropic_news_rss.xml
    format: rss
    trust_level: signal

  - id: telegram_example_channel
    name: Example Telegram commentary channel
    kind: telegram
    url: https://t.me/example
    format: telegram
    trust_level: commentary
    delay_days: 2

Важно: реальные приватные токены/куки не сохранять. Если источник требует доступ — писать token_required, но без значения секрета.

3. Сделать minimal ingest test

Для каждого источника проверить:

  • доступен ли источник;
  • можно ли получить list of items;
  • можно ли извлечь URL/date/title;
  • можно ли привести один item к markdown;
  • можно ли сохранить raw source note;
  • можно ли дедуплицировать по source_url + sha256.

4. Описать daily processing skill

После ручного прототипа написать отдельный reusable skill, например:

anthropic-kb-daily-processor

Skill должен уметь:

  1. загрузить anthropic-kb/_meta/sources.yaml;
  2. загрузить anthropic-kb/_meta/source-index.json;
  3. пройти по источникам;
  4. найти новые/изменённые items;
  5. скачать raw content;
  6. сохранить raw markdown;
  7. обновить commentary/source pages;
  8. обновить concept/entity/timeline pages;
  9. обновить index.md;
  10. дописать log.md;
  11. запустить Trip2G sync;
  12. сделать MCP smoke test.

5. Позже поставить cron

После того как skill работает вручную, поставить cron:

daily at 07:00 UTC

Cron prompt не должен спрашивать пользователя. Он должен:

  • сам читать config;
  • не трогать секреты;
  • писать краткий daily digest;
  • отправлять результат в текущий чат или сохранять в vault.

Источник истины vs commentary

Правило:

Official source = canonical facts.
Telegram/HN/blogs = interpretation and reaction.
Agent synthesis = durable concept pages.

Не заменять official Anthropic analysis Telegram-пересказами. Использовать Telegram как второй слой:

Day 0 — official ingest
Day 1–3 — commentary ingest
Day 7 — synthesis/update concepts

Acceptance criteria

Задача считается готовой, когда:

  • найдено 5–10 источников;
  • по каждому источнику заполнена карточка;
  • создан sources.yaml или его draft;
  • минимальный ingest test прошёл хотя бы для 3 источников;
  • официальные Anthropic источники отделены от commentary;
  • Telegram/HN/blog sources помечены как commentary/noisy;
  • есть dedupe strategy: source_url + sha256;
  • есть структура raw/synthesized notes;
  • написан draft skill anthropic-kb-daily-processor;
  • есть plan для cron;
  • нет сохранённых токенов/куки/секретов.

Suggested first 5 sources

Начать можно с этих пяти:

  1. Anthropic website sitemap:
    https://www.anthropic.com/sitemap.xml
    
  2. Anthropic docs llms.txt:
    https://docs.anthropic.com/llms.txt
    
  3. Anthropic docs full llms:
    https://docs.anthropic.com/llms-full.txt
    
  4. Unofficial Anthropic RSS by taobojlen:
    https://github.com/taobojlen/anthropic-rss-feed
    
  5. Hacker News Algolia search for Anthropic URLs/titles:
    https://hn.algolia.com/api/v1/search?query=anthropic
    

Потом добавить 2–5 Telegram/blog/newsletter sources после отдельного поиска и проверки качества.

Next action

Сделать отдельный research pass:

Find 5–10 Anthropic/Claude/agents commentary sources, classify them, and draft anthropic-kb/_meta/sources.yaml.