股权架构知识库 — 建设方案与维护手册

供特工家族其他兄弟(二哥云上小龙虾、四弟元宝小黄虾)接手维护使用。


一、整体架构

本地 Win 笔记本(三弟)
  ├── Obsidian 编辑知识库
  ├── Remotely Save → 腾讯云 COS(xsw-1413872168)
  └── Hermes Agent 自动转写+入库

腾讯云服务器(二哥)
  ├── Nginx 反向代理
  ├── Quartz 静态站点(Node.js v22)
  └── FastAPI 搜索后端(Python 3.12)

二、知识库路径与结构

知识库根目录: D:\Sven\ObsidianBase\Sven's base\股权架构知识库\

⚠️ 注意:Sven's base 中的撇号是 Unicode 左引号(U+2018),不是 ASCII 撇号。Hermes Agent 的 write_file 工具会误写为 ASCII 路径,需手动迁移。

目录结构

股权架构知识库/
├── SCHEMA 使用规范.md        ← 知识库规则
├── index 目录索引.md          ← 内容目录(新增页面必更新)
├── log 更新日志.md            ← 操作日志(追加式)
├── 建设方案与维护手册.md       ← 本文件
│
├── 原始素材/                  ← 不可变的原始资料(Layer 1)
│   ├── 音频转写稿/             ← 录音转写文本
│   └── 参考资料/               ← 法规条文、研报(待补充)
│
├── 核心实体/                  ← 实体页面(Layer 2)
│   └── 有限合伙企业.md
│
├── 核心概念/                  ← 概念页面(Layer 2)
│   ├── 股权结构概述.md
│   ├── 公司类型与股权比例.md
│   ├── 资本的四重价值.md
│   ├── 一致行动人协议.md
│   ├── 持股平台设计.md
│   ├── 底层股权结构.md
│   ├── 金字塔股权结构与控制链.md
│   ├── 优先股.md
│   ├── 对赌协议设计.md
│   └── 股权转让税务要点.md
│
└── 对比分析/                  ← 对比页面(待补充)

三、音频转写流水线

环境要求

  • Python 3.11+,pip install faster-whisper
  • HuggingFace 镜像:set HF_ENDPOINT=https://hf-mirror.com
  • 模型推荐:small(平衡速度与准确度),避免用 base(中文质量差)

转写命令

set HF_ENDPOINT=https://hf-mirror.com
python -c "from faster_whisper import WhisperModel; m=WhisperModel('small',device='cpu',compute_type='int8'); s,i=m.transcribe('输入.mp3',beam_size=5,language='zh',vad_filter=True); open('输出.txt','w').write('\n'.join(seg.text.strip() for seg in s))

转写后处理

  1. LLM 精加工——纠正错别字(如”优向企业”→“有限合伙企业”)
  2. 知识萃取——提取实体和概念,遵循 SCHEMA 规范
  3. 交叉引用——每篇至少 2 个 wikilinks
  4. 更新 index 目录索引.md + log 更新日志.md

四、Web 部署计划

目标环境

  • 二哥腾讯云:Ubuntu 24.04, Node v22, Python 3.12, Nginx 1.24
  • 域名:en.xingshuwen.com(已有站点)/ 可增子域名
  • 存储:/data 32G 空闲 + COS /lhcos-data 256T

部署步骤(待实施)

  1. 安装 Quartz:npm install -g quartz
  2. 从 COS 拉取 Markdown 到服务器
  3. Quartz build 生成静态 HTML
  4. Nginx 反向代理指向 Quartz 输出目录
  5. FastAPI 后端:搜索日志 + Zero-hit 盲区记录

五、已知问题

  1. Unicode路径问题:write_file 会把 U+2018 写成 ASCII 撇号,需用 terminal 的 cat 写入
  2. 中文 Whisper:base 模型质量差,必须用 small 以上
  3. 元宝群消息:CLI 模式无法读取群消息,需通过 cron job 发送

六、联系方式

  • 文哥:群内 @文哥
  • 三弟(随身小河马):Hermes Agent,本知识库创建者
  • 二哥(云上小龙虾):腾讯云服务器维护
  • 四弟(元宝小黄虾):元宝服务器