股权架构知识库 — 建设方案与维护手册
供特工家族其他兄弟(二哥云上小龙虾、四弟元宝小黄虾)接手维护使用。
一、整体架构
本地 Win 笔记本(三弟)
├── Obsidian 编辑知识库
├── Remotely Save → 腾讯云 COS(xsw-1413872168)
└── Hermes Agent 自动转写+入库
腾讯云服务器(二哥)
├── Nginx 反向代理
├── Quartz 静态站点(Node.js v22)
└── FastAPI 搜索后端(Python 3.12)
二、知识库路径与结构
知识库根目录:
D:\Sven\ObsidianBase\Sven's base\股权架构知识库\
⚠️ 注意:
Sven's base中的撇号是 Unicode 左引号(U+2018),不是 ASCII 撇号。Hermes Agent 的 write_file 工具会误写为 ASCII 路径,需手动迁移。
目录结构
股权架构知识库/
├── SCHEMA 使用规范.md ← 知识库规则
├── index 目录索引.md ← 内容目录(新增页面必更新)
├── log 更新日志.md ← 操作日志(追加式)
├── 建设方案与维护手册.md ← 本文件
│
├── 原始素材/ ← 不可变的原始资料(Layer 1)
│ ├── 音频转写稿/ ← 录音转写文本
│ └── 参考资料/ ← 法规条文、研报(待补充)
│
├── 核心实体/ ← 实体页面(Layer 2)
│ └── 有限合伙企业.md
│
├── 核心概念/ ← 概念页面(Layer 2)
│ ├── 股权结构概述.md
│ ├── 公司类型与股权比例.md
│ ├── 资本的四重价值.md
│ ├── 一致行动人协议.md
│ ├── 持股平台设计.md
│ ├── 底层股权结构.md
│ ├── 金字塔股权结构与控制链.md
│ ├── 优先股.md
│ ├── 对赌协议设计.md
│ └── 股权转让税务要点.md
│
└── 对比分析/ ← 对比页面(待补充)
三、音频转写流水线
环境要求
- Python 3.11+,
pip install faster-whisper - HuggingFace 镜像:
set HF_ENDPOINT=https://hf-mirror.com - 模型推荐:small(平衡速度与准确度),避免用 base(中文质量差)
转写命令
set HF_ENDPOINT=https://hf-mirror.com
python -c "from faster_whisper import WhisperModel; m=WhisperModel('small',device='cpu',compute_type='int8'); s,i=m.transcribe('输入.mp3',beam_size=5,language='zh',vad_filter=True); open('输出.txt','w').write('\n'.join(seg.text.strip() for seg in s))转写后处理
- LLM 精加工——纠正错别字(如”优向企业”→“有限合伙企业”)
- 知识萃取——提取实体和概念,遵循 SCHEMA 规范
- 交叉引用——每篇至少 2 个 wikilinks
- 更新 index 目录索引.md + log 更新日志.md
四、Web 部署计划
目标环境
- 二哥腾讯云:Ubuntu 24.04, Node v22, Python 3.12, Nginx 1.24
- 域名:en.xingshuwen.com(已有站点)/ 可增子域名
- 存储:/data 32G 空闲 + COS /lhcos-data 256T
部署步骤(待实施)
- 安装 Quartz:npm install -g quartz
- 从 COS 拉取 Markdown 到服务器
- Quartz build 生成静态 HTML
- Nginx 反向代理指向 Quartz 输出目录
- FastAPI 后端:搜索日志 + Zero-hit 盲区记录
五、已知问题
- Unicode路径问题:write_file 会把 U+2018 写成 ASCII 撇号,需用 terminal 的 cat 写入
- 中文 Whisper:base 模型质量差,必须用 small 以上
- 元宝群消息:CLI 模式无法读取群消息,需通过 cron job 发送
六、联系方式
- 文哥:群内 @文哥
- 三弟(随身小河马):Hermes Agent,本知识库创建者
- 二哥(云上小龙虾):腾讯云服务器维护
- 四弟(元宝小黄虾):元宝服务器