GitHub 上 AI + 股票的真货：干的是把你的投研变成流水线|服务器|知识库

GitHub 上 AI + 股票的真货：干的是把你的投研变成流水线

分享至

如果你在 GitHub 搜 "AI stock prediction / LLM trading bot"，Star 最高的那一排会把你带入一个平行宇宙：那里回测曲线永远美丽，SHARPE 永远大于 2，月收益动辄三位数——然后你拉到本地一跑，发现它依赖的"新闻情感分数"来自 2023 年的 Reddit scrape，"价格数据"来自一条断更的 yfinance 接口，而所谓"实盘"根本不存在，只有一段写在 README 里的英雄故事。

这不是说 GitHub 上的 AI + 股票全是蛇油。恰恰相反——真货一直都在，只是它长得太丑、太琐碎、太不像"印钞机"，所以没人把它的 Star 刷到榜首。今天不给你列"十大神级项目"，我们聊这条被忽略的主航道：从"AI 算命"转向"AI 投研流水线"，以及 GitHub 上哪些东西真正把一个人的研究部跑了起来。

一、先拆穿那个"预测崇拜"：LLM 看 K 线，就像人看茶叶渣

PriceSeer 那篇 benchmark 论文把话说得很直白：他们拿 GPT-4o / DeepSeek-R1 / Claude / Gemini 这些顶级模型，喂真实且不泄漏未来信息的股价 + 新闻，做短视距方向预测——结果相对误差收敛到的"水平"，本质上就是量价统计学的天花板。你用一个 671B 参数的推理怪兽，去跟一个 5 美元/月的均线交叉比胜率，赢不了，因为股价短期方向里"可被文本/量价捕获的信息"占比太低，剩下全是噪声。

所以 GitHub 上真正聪明的项目，早就不主打"predict price"了。它们把 LLM 的定位改成两个务实角色：

Reader（阅读理解器）：读财报、读公告、读研报、读法规——任务是"从非结构化文本里榨出可核验的事实与条件"。
Dispatcher（流水线调度员）：把"拉数据→清洗→算指标→写摘要→推送你"串起来跑，最好还跑在定时任务里，不用你盯着。

一句话：GitHub 上能帮你赚钱的 AI + 股票项目，不是算命的，是"不知疲倦的初级研究员 + 自动化运维工程师"的合体。

二、这条主航道上的三个真货形态

形态 1：FinGPT 系——LLM 不当预言家，当"财报/研报蒸馏器"

AI4Finance 的FinGPT是整个开源金融 LLM 运动里最诚实的之一：它的主线不是"预测 close(t+1)"，而是情绪分析 + 市场信息处理 + 基于股价的强化学习（RLSP，用价格变动当 reward，不靠人类偏好标注），并明确把你往"数据工程层 → 特征层 → 模型层"的分工上引。

FinGPT-Forecaster 的预测模块确实存在，但它真正的生产力在旁边：

你把一堆金融新闻 / 10-K / 研报段落喂进去
它给情绪标签、主题抽取、可读性结构化
你把这些当成"因子补充"，喂给你的传统量化栈（Qlib / Backtrader / 自己的 pandas 管线）

为什么这比"直接问 AI 明天涨不涨"靠谱一百倍？

因为情绪/主题信号是可以回验、可审计、可控粒度的；而"明天的价格"一旦错了，你不知道是数据烂、prompt 飘、还是市场刚好随机——三者永远混在一起。

形态 2：RAGfolio 系——用 RAG 把"一堆 PDF"变成"可追问的知识库"

RAGfolio 这个项目名字听起来普通，但架构思路非常正：多流投资分析系统，把财报（10-K/10-Q）+ 新闻舆情拆成三条并行流，上面架一层Qdrant 向量库 + 三级混合检索（Dense + BM25 + ColBERTv2 晚交互），然后让 LLM（走 Groq / Instructor 拿结构化输出）做综合研判。

它的价值不是"牛股推荐"，是把 SEC filing 这种法律-会计-业务的混合泥浆，变成你能用自然语言追问的数据库：

"这家公司最近两年资本开支口径变了几次？"
"无形资产摊销政策在 10-K 的 Risk Factors 里怎么描述的？"
"这三篇研报对同一块收入的口径一致吗？"

这才是 GitHub 开源 AI + 股票最值钱的用法：不是让它替你拍板，是让它替你翻档案。

形态 3："零服务器"自动化：daily_stock_analysis 这种 GitHub Actions 跑法

这是 GitHub 上最近两年很有意思的分支：有人干脆不跟你争论"AI 准不准"，而是把"准不准"降级成"每日信息面板"——跑在 GitHub Actions 上，免费额度内定时触发，拉 AkShare/Tushare/yFinance + 新闻搜索，喂给 Gemini 免费层/DeepSeek，出一份结构化简报，推到企微/飞书/Telegram。

你别用它当"交易信号"，你用它当"每天早上 8:20 桌上躺着的预习作业"：

持仓里谁出了公告？
行业里哪几条新闻是噪音，哪条是催化？
技术面到了哪个关键位？
然后你自己决定

这比"全自动化下单"安全，也比"只聊不跑"实用。它本质上是在用开源把华尔街 research desk 的"晨报流水线"个人化。

三、怎么在 GitHub 森林里分辨"真流水线"vs"展示品"

给你 5 个快速嗅探法（比看 Star 准）：

它有没有"数据版本化"意识？真货会记下"这批数据拉于何时、哪个接口、原始哈希是多少"。没这个的，跑两次结果不一样你还以为是策略问题。
它敢不敢写 "This is not financial advice / experimental" 并有实质含义？go-stock 这种直接在 README 写"仅供娱乐/学习/投资有风险"的反而诚实；反而那些"月收益 90%"的截图最可疑。
LLM 输出是否被约束为结构化校验（Pydantic / JSON Schema / Instructor）？纯自然语言当"决策依据"是灾难；能校验字段的才进下一步。
"新闻情感"是不是裸 VADER 还是至少做了去重 + 时效窗口 + 源可信分级？很多开源项目的 sentiment score 本质是"标题情绪过拟合"。
它能不能"无网跑"（至少用落盘缓存 replay）？不能的就是拿你当 API 调用量换活体实验。

四、一句收住

GitHub 上 AI + 股票这场戏，前半场卖的是"它算得准"，后半场卖的一定是"它省你命、且不会偷你钱"。

真货长这样：本地优先（go-stock / Ollama 本地 embedding）、流水线化（Actions 定时 + 推送 + 落盘）、可审计（每一步有文件、有哈希、有版本）。它不让你暴富，但让你第一次拥有一个能翻档案、能按时汇报、不乱下单的私人研究部——而这，才是开源能给散户的、最不骗人的东西。

⚠️ 任何项目只要出现"稳赚/保本/全自动实盘"这三件套，直接关掉。GitHub 上能帮你做功课的很多，能替你承担亏损的为零。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.