网易首页 > 网易号 > 正文 申请入驻

基于大模型、SKills 的知识管理

0
分享至

今天不聊新工具,聊点更高级的东西——三个巨佬的知识管理哲学

还有我自己的知识管理及内容生成工作流

Karpathy

昨天 Andrej Karpathy(斯坦福 PhD、OpenAI 创始成员、前特斯拉 AI 总监、CS231n(全球最火深度学习课程)缔造者)发了条长推,炸了整个 AI 圈子。


这条推文的核心观点是:他现在把大部分 token 预算花在了"操作知识"上,而不是"操作代码"。

什么意思?

他搭了一套 LLM 驱动的个人知识库系统,用 Obsidian 做前端,Markdown 做底层格式,LLM 负责一切脏活累活。

整个系统的架构可以拆成五个模块:


Karpathy 知识库系统:五大模块 1. 数据导入(Data Import)

把各种原始素材——论文、文章、代码库、数据集、图片——统统丢进 raw/ 目录。

用 Obsidian Web Clipper 浏览器插件一键裁剪网页文章为 .md 文件,配合快捷键把相关图片下载到本地。

核心思路:先不管三七二十一,把所有原始材料攒在一起

2. 知识编译(Wiki Compilation)

这是整个系统最核心的一步——让 LLM 把 raw/ 目录里的散碎材料"编译"成一个结构化的维基。

具体做什么?

  • 为每份原始数据生成摘要

  • 建立反向链接(backlinks)

  • 将数据分类到不同的概念

  • 为每个概念撰写专题文章

  • 将所有文章互相链接

注意这个词:编译(compile)

Karpathy 用的是编程的隐喻——原始数据是"源码",维基是"编译产物",LLM 就是那个"编译器"

3. 问答驱动(Q&A)

当维基长到足够大(他举例说他某个研究方向的维基有约 100 篇文章、40 万字),就可以开始向 LLM Agent 提各种复杂问题了。

一个关键的发现:他本以为需要搞复杂的 RAG,但实际上 LLM 自己维护的索引文件和摘要就够用了。

在这个规模下,Agent 可以比较轻松地读取所有重要的相关数据。

这点我必须插一嘴——40 万字对现在的长上下文模型来说真不算什么。

Gemini 的百万 token 窗口,Claude 的 200K 上下文,处理这个量级的知识库绑绑有余。

Karpathy 说不需要 RAG,在这个规模下我同意

4. 输出呈现(Output)

Karpathy 不喜欢在终端里看答案

他更倾向于让 LLM 生成 Markdown 文件、Marp 格式的幻灯片、matplotlib 图表,然后在 Obsidian 里直接查看

更聪明的是:他会把输出"归档"回维基,这样每次探索和查询都会"累积"在知识库里,让它越用越富

5. 健康检查(Health Check)

定期让 LLM 对维基做"体检":

  • 查找数据不一致的地方

  • 用网络搜索填充缺失信息

  • 发现有趣的关联,建议新的文章候选

  • 提出下一步要调查的问题

他说 LLM 在"建议进一步的问题"这件事上做得相当好。这不就是我们说的 Agent 自主探索 吗?

用一张流程图来理解 Karpathy 的系统:


Lex Fridman:把知识库变成跑步伙伴

Karpathy 发完推,Lex Fridman 秒回——他也有类似的系统。

Lex 的身份不用多介绍了吧?全球最火的 AI 播客主持人,他的 Lex Fridman Podcast 采访过 Elon Musk、Sam Altman、Mark Zuckerberg、Karpathy 本人,以及一堆你叫得出名字的科技大佬

Lex 的设置和 Karpathy 类似,但有几个独特的点:

前端混合体:Obsidian + Cursor(用来编辑 .md 文件)+ 自己 vibe-coded 的网页终端

Lex 不满足于 Markdown 的静态渲染——他经常让 LLM 生成动态 HTML 页面(带 JavaScript),这样他可以对数据排序、筛选,交互式地调整可视化

做播客的知识管理需求:因为播客嘉宾覆盖的领域极广,Lex 的研究兴趣数量和多样性远超普通人。

这种场景下知识库方法的优势更明显——你不可能把所有领域的知识都记在脑子里。

最炸裂的用法——跑步语音播客:Lex 会让系统为特定主题生成一个临时的迷你知识库,加载进 LLM,然后在 7-10 英里的长跑中开启语音模式。

跑步的时候,它就变成了一个交互式播客——他可以随时提问、听答案、深入探讨。

你品品:一个人一边跑步一边跟 AI 讨论量子力学或者神经科学。

知识的摄入方式从"坐着读"变成了"边跑边聊"

kepano:Obsidian 创始人的"冷水"

然后 Obsidian 的创始人 kepano(Steph Ango)出来说话了

他没有否定 Karpathy 的方法,而是提出了一个很微妙的警告:

"我更喜欢我的个人 Obsidian 仓库具有高信号噪声比,并且所有内容都有已知的来源。"

kepano 的核心观点:你的个人笔记库应该是"你"的思想的体现,而不是 AI 的。

他的建议是:

  1. 保持个人仓库干净 ——这是你的思维主场

  2. **给 Agent 一个单独的"杂乱仓库"**——让 AI 在那里随便折腾

  3. 只在 Agent 产出有用工件时 ,才手动搬到主仓库

他担心什么?如果人类写的和 AI 写的混在一起太多:

  • 搜索 会被 AI 生成内容淹没

  • 反向链接 不再局限于你真正思考过的内容

  • 图谱视图 变成 AI 的知识图谱,不再是你的

  • 你无法 追溯 哪些想法是自己的、哪些是机器生成的

这段话的背后是 kepano 一贯的哲学

他写过一篇很有名的文章叫 **"File over app"**(文件优先于应用),核心主张是:

如果你希望你的写作在 2060 年甚至 2160 年的电脑上仍然可读,那它最好在 1960 年代的电脑上也能被读取。

他还写过 **"Don't delegate understanding"**(不要把理解力外包)——你可以让 AI 帮你干活,但不能让 AI 替你思考

理解力本身就是你最大的资产

在他的个人 Obsidian 实践中,他甚至直接说:

"有人问我能不能用 LLM 自动化笔记整理,但我不想这么做。我享受这个过程。做这种维护工作帮助我理解自己的模式。"
老章的观点

Karpathy 的方法论是天才级别的,Lex 的应用场景让人拍案叫绝,kepano 的警告确实发人深省

他们三个人讲的是知识管理链路上不同的环节

我在做的事:补上"最后一公里"

Karpathy 搭的是一个知识积累与检索系统——把数据灌进去,编译成知识,然后查询和输出。

但作为一个每周要输出 3-5 篇技术文章、配套口播视频、社交媒体内容的人,我需要的不只是"积累"和"查询",我需要把知识变成内容产品推出去

这就是我做的事——知识管理的下游:内容生产流水线

zhangAI/                          # Karpathy 说的"知识库"
├── 1-Wechat/ # 公众号文章(成品库)
│ ├── Archive/ # 已发布文章
│ └── ing/ # 正在写的稿子
├── .agent/skills/ # 58 个 AI Skill(执行层)
│ ├── 1-write_tech_article_pro/ # 技术文章撰写
│ ├── 1-title_generator/ # 标题生成(3种风格)
│ ├── 1-video-script-converter/ # 文章→口播稿
│ ├── 1-doubao-tts-voice-clone/ # 口播稿→克隆语音
│ ├── audio-to-video/ # 语音→竖版短视频
│ ├── 1-upload-images-to-picgo/ # 图片→个人图床
│ ├── design_svg_card/ # 知识卡片设计
│ └── ...还有 50 多个
├── Video/ # 视频产物
│ ├── 口播稿/
│ ├── 口播音频/
│ └── 成品视频/
├── Clippings/ # Karpathy 说的 raw/ 目录
├── CLAUDE.md # AI Agent 的"操作手册"
├── AGENTS.md # Codex 的上下文配置
└── GEMINI.md # Gemini 的指令文件

看出区别了吗?

Karpathy 的系统是 raw/ → wiki/ → query——知识的上游

我的系统是 素材 → skills/ → 文章 → 视频 → 社交媒体——知识的下游

它们不是竞争关系,是上下游互补关系

Karpathy 解决的问题是:大量散碎信息怎么变成可查询、可增长的结构化知识? 我解决的问题是:有了知识和选题,怎么高效地变成文章、视频、社交内容?

一篇文章从素材到成品视频,我的 Skill 流水线是这样的:


一条命令"帮我写篇技术文章"触发 write_tech_article_pro Skill,输出 Markdown 成品。然后"转成口播稿"触发 video-script-converter,接着"用豆包转成音频"触发 doubao-tts-voice-clone,最后"音频转视频"触发 audio-to-video

从一篇文章到一条短视频,全程约 8 分钟,传统方式需要 2-3 小时。

所以理想的完整架构,应该是把上下游接起来:

Karpathy 的知识编译层(上游:积累、编译、检索)

老章的内容生产流水线(下游:写作、配音、视频)

发布 & 多形态分发

反馈回知识库(闭环)← 这一步大家都还没完全做好

这也是我接下来要补的课——给自己的系统加上 Karpathy 式的"知识编译层",让过去写的每一篇文章都成为未来创作的养料。

关于 kepano 的"污染论"

kepano 担心 AI 生成的内容会"污染"个人知识库

他的解决方案是两个仓库——一个干净的给自己,一个脏的给 AI

这个担心是合理的

不过在我的实际操作中,我用的是另一条路:溯源标记

在我的系统里,每个 Skill 生成的文件都有清晰的来源标记——YAML 头部的 author 字段、文件路径本身(比如 Video/口播稿/ 一看就知道是 AI 转的)、以及 Skill 的执行日志。这样不需要物理隔离,也能知道每一段内容是谁写的、用什么工具写的、基于什么素材写的

两种方案各有道理

kepano 的物理隔离更干净纯粹,适合把 Obsidian 当"思维延伸"的人;

我的溯源标记更灵活,适合人机协作频繁、产出量大的场景

不过 kepano 有句话我是完全同意的——**"Don't delegate understanding"**

你可以让 AI 帮你整理知识,但你不能让 AI 替你理解知识

如果你连自己知识库里的内容都没读过、没消化过,那这个知识库再大也不是你的

Karpathy 最有远见的一句话

Karpathy 整个推文我认为最有远见的一句话:

"随着仓库的增长,自然地也想考虑合成数据生成 + 微调,让你的 LLM '知道'数据在其权重中,而不仅仅是上下文窗口。"

这才是真正的终局——从上下文到权重

现在所有的知识管理方案,本质上都是在"上下文工程"的范畴内打转

把知识塞进上下文窗口让 LLM 读取——管你是 RAG 还是直接长上下文

但想象一下:如果你能用自己积累的 40 万字知识库微调一个专属的小模型,让它从骨子里"理解"你的领域知识和思考方式。那就不是"你问它答"了,那是你训练了一个数字分身

三人观点对比

维度

Karpathy

Lex Fridman

kepano

核心身份

AI 研究者 / 教育者

播客主持人 / 研究者

Obsidian CEO / 产品哲学家

知识库用途

研究探索

多领域播客准备

个人思维记录

对 LLM 的态度

全面拥抱,让 LLM 管理一切

拥抱但重视多模态输出

审慎,警惕过度依赖

Obsidian 角色

只是"前端渲染器"

混合前端之一

思维的延伸

核心哲学

"编译知识"

"知识要可交互"

"文件优先于应用"

最大贡献

完整方法论框架

语音交互式学习

人机边界思考


One More Thing

三位巨佬给了我们三个视角:

  • Karpathy 搭了知识管理的上游基建—— raw/ → compile → wiki → query

  • Lex 打开了知识消费的新维度——语音对话、动态可视化、运动中学习

  • kepano 守住了最重要的底线—— 知识库的主人是你,不是 AI

而我在做的事情,是补上下游的最后一公里——把知识变成文章、视频、社交媒体内容,让它流动起来:

积累(Karpathy)→ 消费(Lex)→ 守护(kepano)→ 生产(老章)→ 反哺积累

你的知识管理系统,走到了哪一环?

参考资料:

  1. Andrej Karpathy — X/Twitter 长推文,2026 年 4 月,关于 LLM 驱动的个人知识库系统

  2. Lex Fridman — 对 Karpathy 推文的回复,关于混合前端和语音模式知识消费

  3. kepano (Steph Ango) — 对 Karpathy 推文的回复,关于个人仓库与 Agent 仓库分离

  4. Steph Ango, "File over app" — stephango.com/file-over-app — 文件优先于应用的产品哲学

  5. Steph Ango, "Don't delegate understanding" — stephango.com/understand — 不要将理解力外包的警示

  6. Steph Ango, "How I use Obsidian" — stephango.com/vault — Obsidian 创始人的个人笔记实践

  7. Andrej Karpathy 个人页面 — karpathy.ai — 个人经历与项目列表

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被判定灭绝几千年!1971年意外重现,靠吃仙人掌存活,今仅存千只

被判定灭绝几千年!1971年意外重现,靠吃仙人掌存活,今仅存千只

万象硬核本尊
2026-04-04 17:06:32
超市悄悄改规矩!把秤全挪到收银台,原来暗藏这么多套路

超市悄悄改规矩!把秤全挪到收银台,原来暗藏这么多套路

吃货的分享
2026-04-04 22:15:31
姆巴佩是“毒瘤”?学不到C罗半点拼劲!皇马引进他是否大错特错

姆巴佩是“毒瘤”?学不到C罗半点拼劲!皇马引进他是否大错特错

足坛刘脂导
2026-04-05 11:37:24
震惊!涉黄的麻豆传媒永久关停!

震惊!涉黄的麻豆传媒永久关停!

广告创意
2026-04-04 09:15:50
南京博物院事件真相来了:果然,那些人真狗啊!

南京博物院事件真相来了:果然,那些人真狗啊!

李月亮
2026-02-10 20:58:01
掘金官方力挺MVP!约基奇40+13+8+0失误完压文班 休媒:当世最强

掘金官方力挺MVP!约基奇40+13+8+0失误完压文班 休媒:当世最强

颜小白的篮球梦
2026-04-05 07:37:34
伊朗发动第97波打击

伊朗发动第97波打击

财联社
2026-04-06 00:50:15
美以霸权行径终将被历史无情碾碎

美以霸权行径终将被历史无情碾碎

烽火瞭望者
2026-04-05 11:36:56
被内地下架的6部限制级动漫,从头打到尾,你有幸看过几部?

被内地下架的6部限制级动漫,从头打到尾,你有幸看过几部?

小Q侃电影
2026-03-19 09:56:48
日本民宿被曝变身卖淫场,性工作者称中国游客更大方。

日本民宿被曝变身卖淫场,性工作者称中国游客更大方。

环球趣闻分享
2025-11-09 14:20:06
破百+1!赵心童霸榜,世界排名创新高,PK小特争冠,冲击4大成就

破百+1!赵心童霸榜,世界排名创新高,PK小特争冠,冲击4大成就

刘姚尧的文字城堡
2026-04-05 07:00:00
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
美军战机20多年来首次被敌方击落,分析称伊朗大概率使用肩扛式导弹

美军战机20多年来首次被敌方击落,分析称伊朗大概率使用肩扛式导弹

澎湃新闻
2026-04-05 13:28:28
张爱玲:人生最大的悲哀不是选错伴侣,也不是没挣到钱,而是人到中年才发现,从未真正为自己活过

张爱玲:人生最大的悲哀不是选错伴侣,也不是没挣到钱,而是人到中年才发现,从未真正为自己活过

四行书
2026-03-27 12:33:32
存款大局已定:4月起,手里有定期存款的人,要提前做好4个准备

存款大局已定:4月起,手里有定期存款的人,要提前做好4个准备

小蜜情感说
2026-04-05 21:31:01
俞敏洪:如果拼了命,英年早逝的话,和不那么拼命,而活到八九十岁,是一件更加合算的事

俞敏洪:如果拼了命,英年早逝的话,和不那么拼命,而活到八九十岁,是一件更加合算的事

南京择校
2026-03-29 22:42:47
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
儿子今年38岁还不愿结婚,那晚我把他灌醉,有意撮合他和邻居女儿

儿子今年38岁还不愿结婚,那晚我把他灌醉,有意撮合他和邻居女儿

千秋文化
2026-03-23 20:24:57
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

医学科普汇
2026-01-29 06:25:03
2026-04-06 03:24:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3306文章数 11129关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗官员提开放霍尔木兹海峡条件

头条要闻

伊朗官员提开放霍尔木兹海峡条件

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

旅游
健康
艺术
数码
教育

旅游要闻

文明旅游|清明出游请注意!莫让这些不文明行为煞风景!

干细胞抗衰4大误区,90%的人都中招

艺术要闻

高210米,砸13亿!厦门“矿泉水瓶大楼”即将建成!

数码要闻

大胆复古美学,海盗船推出原子紫配色K65 PLUS WIRELESS机械键盘

教育要闻

高考地理中的束水攻沙

无障碍浏览 进入关怀版