Karpathy的AI知识库理念已经有人开源在GitHub

说在前头的一些话：
有人把 Karpathy 的知识库构想变成了现实。

一篇关于 Karpathy 的 LLM Wiki 理念的文章，讲的是用 LLM 当知识工程师，帮你持续维护一个 Markdown 知识库。
Karpathy的AI知识库理念已经有人开源在GitHub - 第 1 张图
当时文章里提到 GitHub 上已经有人在基于这个理念做具体实现了。

其中有一个项目卷得特别猛。

叫 LLM Wiki，现在已经 3300 多 Star 了。

Karpathy的AI知识库理念已经有人开源在GitHub - 第 2 张图
不是简单的命令行工具或者 Claude Code Skill，直接做了一个跨平台的桌面应用。

功能做得非常扎实，比 Karpathy 原版 Gist 的设想丰富太多了。
今天就来看看这个开源项目。
【001】一句话说清楚这是什么
LLM Wiki 是一个跨平台桌面应用，你把文档丢进去，它自动帮你生成一个结构化的、互相链接的个人 Wiki 知识库。

Karpathy的AI知识库理念已经有人开源在GitHub - 第 3 张图
和传统 RAG 方案不同，它不是每次提问都从原始文档重新检索。

LLM 先把你的文档吃透，生成 Wiki 页面、建立交叉引用、标注矛盾点，后续提问直接在 Wiki 上做。

知识编译一次，持续保持最新。

这个项目就是基于 Karpathy 的 Gist 做的具体实现，但功能远超原版设想，加了知识图谱、深度研究、网页剪藏、向量搜索这些能力。
（目前斩获 3300+ Star）

Karpathy的AI知识库理念已经有人开源在GitHub - 第 4 张图
开源地址：
立即下载

【002】两步链式思考录入，这是整个项目最核心的设计之一。

原版 Gist 的思路是让 LLM 读文档的同时写 Wiki，一步到位。这个项目把它拆成了两步。

第一步，分析：
LLM 先通读你的文档，提取关键实体、概念、论点，找和已有 Wiki 内容的关联，发现矛盾和张力，然后给出结构化的分析结果。

第二步，生成：
1、LLM 拿着分析结果，才开始写 Wiki 页面。生成摘要页、实体页、概念页，更新索引，建立交叉引用，标注需要人工判断的事项。
2、拆成两步的好处是质量明显更高。让 LLM 先想清楚再动手写，比边想边写效果好得多。
3、一个来源录入进去，可能牵动 10 到 15 个 Wiki 页面的更新。LLM 会自动把新知识和已有知识网络串联起来。
4、还有个很实用的细节：SHA256 增量缓存。每个文件在录入前会算哈希，没改过的文件自动跳过，不用每次都让 LLM 重新处理一遍，省 token 也省时间。
5、持久化队列也做得不错，崩了重启能接着跑，失败自动重试 3 次。活动面板能实时看到每个文件的处理进度。

【003】知识图谱可视化
相当于就是：
原版 Gist 只提到了用 wikilinks 做交叉引用，基本上就是文本链接。这个项目直接做了一个完整的知识图谱可视化和关联引擎。
Karpathy的AI知识库理念已经有人开源在GitHub - 第 5 张图
它用四个维度来衡量两个 Wiki 页面之间的关联程度：
1、直接链接（权重 x3.0）：页面之间有 wikilinks 直接引用
2、来源重叠（权重 x4.0）：两个页面引用了同一个原始文档
3、Adamic-Adar（权重 x1.5）：两个页面有共同邻居，共同邻居越稀有关联性越强
4、类型亲和度（权重 x1.0）：同类型页面有额外加分
5、可视化用的是 sigma.js + ForceAtlas2 布局。
6、节点颜色可以按页面类型或者社区聚类来着色，节点大小按链接数量缩放。
7、鼠标悬停的时候，关联节点保持高亮，其他节点变暗，边上还会显示关联分数。
8、还集成了 Louvain 社区发现算法，能自动识别出知识集群。
9、你导入了一堆文档之后，它能告诉你你的知识自然形成了哪几个主题聚类，每个聚类的内聚程度如何。

【004】图谱洞察，这个功能最有意思
1、这是原版完全没有的，但我觉得是整个项目最有价值的部分。
2、系统会自动分析图谱结构，给你两种洞察。
3、一种是意外关联、跨社区的、跨类型的、意料之外的连接。比如你分别录入了两批看起来毫不相干的资料，图谱里突然出现了一条连接它们的边。这种发现往往是认知突破的起点。
4、另一种是知识缺口。它会找出几乎没有连接的孤立页面、内部交叉引用太少的稀疏社区、同时连接三个以上集群的桥接节点。
5、每个缺口旁边都有个深度研究按钮，点一下就能让 LLM 自动去网上搜资料补全。从发现缺口到补齐缺口，基本全程自动。

Karpathy的AI知识库理念已经有人开源在GitHub - 第 6 张图

Karpathy的AI知识库理念已经有人开源在GitHub - 第 7 张图
【005】深度研究，知识库会自己补全自己
当系统发现知识缺口后，LLM 会自动生成搜索关键词，调用 Tavily API 去网上搜索。
搜到的结果 LLM 会综合分析，写成一篇研究页面，直接写进 Wiki。研究页面还会自动触发录入流程，提取出新的实体和概念，整合到已有的知识网络里。

Karpathy的AI知识库理念已经有人开源在GitHub - 第 8 张图
、相当于你的知识库会自己去发现缺口，然后自己上网查资料补全。
触发深度研究的时候，LLM 会先读 overview.md 和 purpose.md
2、来理解你的知识库是关于什么的，然后生成针对性的搜索词。不是泛泛的关键词，而是根据你已有知识的上下文来精确定位。
3、搜索前还会弹个确认框，你可以修改搜索主题和搜索词，觉得没问题再开始。

【006】Chrome 网页剪藏
这个项目做了一个专门的 Chrome 扩展，用起来挺方便的。
在浏览器里看到什么好文章，点一下图标就搞定。
Readability.js 自动去掉广告、导航栏、侧边栏这些干扰内容，只保留正文，Turndown.js 转成干净的 Markdown。

Karpathy的AI知识库理念已经有人开源在GitHub - 第 9 张图
、剪藏的内容会自动发送到本地应用，触发录入流程，直接变成 Wiki 的一部分。支持多项目选择，如果你同时维护好几个知识库，剪藏的时候可以选存到哪个。
2、即使应用没开着，扩展也能预览提取的内容，等你打开应用后再自动同步。检索也做了不少优化Karpathy 原版方案在中等规模下靠索引文件就够了，但知识库一大就不够用了。
3、LLM Wiki 搞了一套多阶段检索管线。先分词搜索，中文做 CJK 二元组分词。然后可选开向量语义搜索，通过 LanceDB 做近似最近邻检索，即使没有关键词重叠也能找到语义相关的页面。再把搜索结果当种子节点，用关联度模型做 2 跳遍历发现更深层的关联。
4、上下文窗口可以配置，从 4K 到 1M tokens 都行。60% 给 Wiki 页面，20% 聊天历史，5% 索引，15% 系统提示。官方说开向量搜索后整体召回率从 58.2% 提升到了 71.4%。

【007】上手教程
开源地址：立即下载
[玫瑰][玫瑰]里面有编译包的[玫瑰][玫瑰]
装好之后的流程：
① 启动应用，创建新项目，有场景模板可选，比如研究、阅读、个人成长、商业、通用
② 设置里配置大模型，支持 OpenAI、Anthropic、Google、Ollama，也支持自定义接口
③ 导入文档，PDF、Word、Markdown、Excel 都行
④ 看着 LLM 自动构建 Wiki 页面
⑤ 用 Chat 提问，浏览知识图谱Chrome 扩展的安装也很简单。打开 chrome://extensions，开启开发者模式，加载已解压的扩展程序，选择项目里的 extension/ 目录就行。

Karpathy的AI知识库理念已经有人开源在GitHub

emer

搜索

最新文章

热门文章