Wenmai Release Notes
Synced from docs/changelog.md
当前版本 v0.1
Diarium Operis

开发日志

版本记录 · 内容补充 · 编辑说明

v0.1
2026-05-05

DeepSeek 默认模型 deepseek-chat → deepseek-v4-pro

这里现在直接读取仓库里的 docs/changelog.md。工程日志和公开开发日志共用同一份来源,避免线上版本记录再和提交历史脱节。

当前收录 38 条版本记录。

DeepSeek 默认模型 deepseek-chat → deepseek-v4-pro

deepseek-chat 计划下架,全仓 default 升到 deepseek-v4-pro

荷马史诗中译完整产出(48 卷,cc-by-sa-4.0)

继当日 corpus 双层公版策略入库(希腊原文 Allen 1920 OCT + Butler 1898/1900 英译),本轮把伊利亚特 24 卷 + 奥德赛 24 卷全部译为现代汉语散文体,仓库自产、license cc-by-sa-4.0。绕开通行中译本版权期(罗念生/王焕生 2041+,杨宪益 2060,陈中梅在世)的实际可行解。

吉尔伽美什全译本 gilgamesh.md 完成(Phase 2 + 3)

承接当日 Phase 1(Thompson 1928 启动)的 Tablet I 样章 + 术语表,本轮收尾 Phase 2 翻译 + Phase 3 拼装。

吉尔伽美什 Thompson 1928 全译本启动(Phase 1 样章 + 术语表)

anonymous-mesopotamia/gilgamesh 主条目改为「全译本」占位(基于 R. Campbell Thompson 1928 The Epic of Gilgamish (Oxford),英美均已公版)。新增 gilgamesh-summary 条目指向已有的 185 行散文梗概,避免占位与梗概互相覆盖。

欧洲中世纪页 name_zh 标注精确化

eras/medieval/page.mdname_zh 与标题从「中世纪」改为「欧洲中世纪」,避免与印度中世纪、拜占庭中世纪等混淆。

issue #3 P2-P4 收尾(管子谋失 / yijing 噪音 / 旧索引 / mozi 亡篇注)

继 P1 诗经全文导入,本轮收完 issue #3 剩余 phases。

周礼 metadata 拆 6 → 60 职官 + corpus 替换 + notes 聚合

eanzhao/17-z.com sites/zhouli 数据迁入。site-data.core.json 60 条 curated(6 大官 × 10 职官)作 metadata + works 粒度,fullClassical 完整经文作 corpus。

楚辞 / 庄子 校对 + 读书笔记 sidecar 入库

继 rev 6 notes/ sidecar 约定,本轮把 eanzhao/17-z.com 的 AI commentary 落地到楚辞与庄子。0 篇 corpus 替换——双方文本经校对均为编辑选择差异,不动 works/

山海经 18 区升级 + 552 条 AI 读书笔记 sidecar

山海经 corpus 升 3 倍(147 KB → 444 KB / 17.6 万字),同时 552 条 AI commentary 落入 notes/ sidecar(不进 RAG)。

诗经 305 首全文从 eanzhao/shijing 导入(option A,关闭 issue #3 P1)

works/ 305 个 .md 文件取代原 6 个 section 级 stub TOC。

notes/ 读书笔记 sidecar 约定(rev 6)

新增 authors/<slug>/notes/ 子目录约定:作家文件夹现在可以同时持有公版原文(works/,进 RAG)和 AI 生成的读书笔记 / 评论 / 导读(notes/不进 RAG)。动机是把 eanzhao/17-z.com 等外部 repo 的 commentary 字段(AI 写的导读)保留进仓库供前端展现,同时避免作家本人 voice 检索到 AI 评论 = "自己引自己"(RAG self-pollution)。

先秦作家 author-voice 模式切换收尾(issue #2)

承接 rev 5 cleanup 的 kongzi / zhuangzi 切换,本轮把剩余 6 位先秦作家全部切到 author-voice 第一人称对话模式,issue #2 关闭:

荷马史诗 corpus 入库(双层公版策略)

补齐 authors/homer/works/,落实 CLAUDE.md "古典 / 小语种作家:不出原作者 voice,多译本融合中文 voice" 路线。中译本受版权约束(罗念生/王焕生 2041+,杨宪益 2060,陈中梅在世),方案绕开通行中译本走双层公版 corpus:

先秦元数据全面修订(rev 5 cleanup)

承接同日 rev 5 schema 扩展,集中一轮 11 条并行 wave + 1 条收尾 wave,对全部先秦 49 条作者/作品条目做真伪、断代、归属逐条清理;并把符合 CLAUDE.md author-voice 标准的两位先秦人物切换到第一人称对话模式。据多源学界主流(A.C. Graham 1960/1989、Hunter & Kern 2018、Yuri Pines 2017、Edward Shaughnessy 2022/2024、chinaknowledge.de 等)。

先秦元数据:真伪 / 断代 / 归属字段扩展(rev 5)

楚辞 / 屈原语料边界整理

古希腊罗马作家与作品目录扩充(88 条目)

先秦文学目录二次补全与精校(49 条目 / 516 个作品项)

先秦文学全面收纳(+18 位新作家,2672 chunks)

对话分享、公开入口与目录维护

作品正文排版系统升级

古埃及文学扩充(+6 篇新作品,261 chunks)

美索不达米亚文学作品体系完善

新增古埃及文学(文明级条目)+ 238 chunks 入 Supabase

信息架构与视觉系统整理

批量新增 90 位中国古代文学家 + RAG 作品摄入 + author-voice 标准化

公版作品全文与内容清洗批量落地

鲁迅 corpus 扩充:故事新编 + 朝花夕拾 + 野草(+45 篇)

庄子 corpus 入 RAG(Phase 1 第二位公版作家)

搜索、流式对话与移动端聊天修复

邮箱登录:Magic Link + 验证码

部署、限流与运行时护栏

移除微信登录

chat 端到端:DeepSeek + Supabase 会话存储

用户系统:Supabase Auth + Google / Email

鲁迅 Phase 0 RAG 初版与强制引用

站点骨架、设计系统与内容底座

rev 4:v1 stack 锁定 + 版权硬规则 + 产品定位

会话来源:plan-eng-review(含 codex outside voice 第二意见)

新增的项目级硬规则

  1. chat 仅对全公版作家开放:作品没全部进入公有领域的作家,不出 AI chat 入口metadata.yaml.chat_enabled: bool 闸控,由版权状态驱动。版权未到期作家依然可以有 page.md 导读 + 影响图谱节点,只是 chat 组件不渲染。
  2. 产品定位双轨制:默认 chat 走 "基于以下文本回答 + 强制引用 + 不知道就说不知道" 的 tutor 模式;"和作家本人对话"的作家蒸馏模式作为实验性入口(隐藏或 feature flag),且 UI 必须明确"风格模拟,非作家本人"。

v1 技术栈锁定(覆盖原设计文档对应内容)

决策点 原方案 锁定方案
向量库 Qdrant Supabase pgvector(exact search,Phase 1 末向量数 >100k 时再考虑 HNSW)
API 层 Hono 或 FastAPI 独立服务 Astro server endpoints(v1 阶段 /api/chat 在 Astro 里)
托管 未明定 Cloudflare Worker(静态资源 + Astro server endpoints)
嵌入 BGE-M3 自托管或 API BGE-M3 via Cloudflare Workers AI;CI 阶段走 REST API(不是 binding)
主聊天 LLM Claude Sonnet 4.6 / GPT-5 / Qwen-Max DeepSeek Chat(个人 key 起步;provider 层后续可替换)
缓存 Redis Phase 0 公开站时上 推迟到 Phase 1(翻译网关上线时一并加,Upstash)
Auth 未明定 推迟到 Phase 2(Supabase Auth)
对话历史 未明定 Supabase chat_sessions / chat_messages;Phase 0.5 先用匿名浏览器 sessionId

Phase 0 必加(原设计文档遗漏)

Eval 策略重写

原设计文档"style classifier 5-10 sample" 路线在 codex review 中被指为假严谨。Phase 0 改为:

  1. Golden set(20-50 题):human-curated 测试集,覆盖 citation 准确性、refusal 行为、中文可读性、幻觉检查
  2. LLM-judge 仍用,但跑 golden set 而非 holdout 自相似度
  3. Style classifier 推迟到 v2(LoRA 真训出来时才有意义,否则学的是 prompt 工程艺术品而非作家风格)
  4. 人工评估:Phase 0 不做(太早);Phase 1 末有外部访问后再启动

Phase 0 种子作家:博尔赫斯 → 鲁迅

Codex outside voice 全部采纳的技术修正

已保留的设计(codex 提了但我们坚持的)