如果你在 GitHub 搜 "AI stock prediction / LLM trading bot",Star 最高的那一排会把你带入一个平行宇宙:那里回测曲线永远美丽,SHARPE 永远大于 2,月收益动辄三位数——然后你拉到本地一跑,发现它依赖的"新闻情感分数"来自 2023 年的 Reddit scrape,"价格数据"来自一条断更的 yfinance 接口,而所谓"实盘"根本不存在,只有一段写在 README 里的英雄故事。
![]()
这不是说 GitHub 上的 AI + 股票全是蛇油。恰恰相反——真货一直都在,只是它长得太丑、太琐碎、太不像"印钞机",所以没人把它的 Star 刷到榜首。今天不给你列"十大神级项目",我们聊这条被忽略的主航道:从"AI 算命"转向"AI 投研流水线",以及 GitHub 上哪些东西真正把一个人的研究部跑了起来。
一、先拆穿那个"预测崇拜":LLM 看 K 线,就像人看茶叶渣
PriceSeer 那篇 benchmark 论文把话说得很直白:他们拿 GPT-4o / DeepSeek-R1 / Claude / Gemini 这些顶级模型,喂真实且不泄漏未来信息的股价 + 新闻,做短视距方向预测——结果相对误差收敛到的"水平",本质上就是量价统计学的天花板。你用一个 671B 参数的推理怪兽,去跟一个 5 美元/月的均线交叉比胜率,赢不了,因为股价短期方向里"可被文本/量价捕获的信息"占比太低,剩下全是噪声。
所以 GitHub 上真正聪明的项目,早就不主打"predict price"了。它们把 LLM 的定位改成两个务实角色:
- Reader(阅读理解器):读财报、读公告、读研报、读法规——任务是"从非结构化文本里榨出可核验的事实与条件"。
- Dispatcher(流水线调度员):把"拉数据→清洗→算指标→写摘要→推送你"串起来跑,最好还跑在定时任务里,不用你盯着。
一句话:GitHub 上能帮你赚钱的 AI + 股票项目,不是算命的,是"不知疲倦的初级研究员 + 自动化运维工程师"的合体。
二、这条主航道上的三个真货形态
形态 1:FinGPT 系——LLM 不当预言家,当"财报/研报蒸馏器"
AI4Finance 的FinGPT是整个开源金融 LLM 运动里最诚实的之一:它的主线不是"预测 close(t+1)",而是情绪分析 + 市场信息处理 + 基于股价的强化学习(RLSP,用价格变动当 reward,不靠人类偏好标注),并明确把你往"数据工程层 → 特征层 → 模型层"的分工上引。
FinGPT-Forecaster 的预测模块确实存在,但它真正的生产力在旁边:
- 你把一堆金融新闻 / 10-K / 研报段落喂进去
- 它给情绪标签、主题抽取、可读性结构化
- 你把这些当成"因子补充",喂给你的传统量化栈(Qlib / Backtrader / 自己的 pandas 管线)
为什么这比"直接问 AI 明天涨不涨"靠谱一百倍?
因为情绪/主题信号是可以回验、可审计、可控粒度的;而"明天的价格"一旦错了,你不知道是数据烂、prompt 飘、还是市场刚好随机——三者永远混在一起。
形态 2:RAGfolio 系——用 RAG 把"一堆 PDF"变成"可追问的知识库"
RAGfolio 这个项目名字听起来普通,但架构思路非常正:多流投资分析系统,把财报(10-K/10-Q)+ 新闻舆情 拆成三条并行流,上面架一层Qdrant 向量库 + 三级混合检索(Dense + BM25 + ColBERTv2 晚交互),然后让 LLM(走 Groq / Instructor 拿结构化输出)做综合研判。
它的价值不是"牛股推荐",是把 SEC filing 这种法律-会计-业务的混合泥浆,变成你能用自然语言追问的数据库:
- "这家公司最近两年资本开支口径变了几次?"
- "无形资产摊销政策在 10-K 的 Risk Factors 里怎么描述的?"
- "这三篇研报对同一块收入的口径一致吗?"
这才是 GitHub 开源 AI + 股票最值钱的用法:不是让它替你拍板,是让它替你翻档案。
形态 3:"零服务器"自动化:daily_stock_analysis 这种 GitHub Actions 跑法
这是 GitHub 上最近两年很有意思的分支:有人干脆不跟你争论"AI 准不准",而是把"准不准"降级成"每日信息面板"——跑在 GitHub Actions 上,免费额度内定时触发,拉 AkShare/Tushare/yFinance + 新闻搜索,喂给 Gemini 免费层/DeepSeek,出一份结构化简报,推到企微/飞书/Telegram。
你别用它当"交易信号",你用它当"每天早上 8:20 桌上躺着的预习作业":
- 持仓里谁出了公告?
- 行业里哪几条新闻是噪音,哪条是催化?
- 技术面到了哪个关键位?
- 然后你自己决定
这比"全自动化下单"安全,也比"只聊不跑"实用。它本质上是在用开源把华尔街 research desk 的"晨报流水线"个人化。
三、怎么在 GitHub 森林里分辨"真流水线"vs"展示品"
给你 5 个快速嗅探法(比看 Star 准):
- 它有没有"数据版本化"意识?真货会记下"这批数据拉于何时、哪个接口、原始哈希是多少"。没这个的,跑两次结果不一样你还以为是策略问题。
- 它敢不敢写 "This is not financial advice / experimental" 并有实质含义?go-stock 这种直接在 README 写"仅供娱乐/学习/投资有风险"的反而诚实;反而那些"月收益 90%"的截图最可疑。
- LLM 输出是否被约束为结构化校验(Pydantic / JSON Schema / Instructor)?纯自然语言当"决策依据"是灾难;能校验字段的才进下一步。
- "新闻情感"是不是裸 VADER 还是至少做了去重 + 时效窗口 + 源可信分级?很多开源项目的 sentiment score 本质是"标题情绪过拟合"。
- 它能不能"无网跑"(至少用落盘缓存 replay)?不能的就是拿你当 API 调用量换活体实验。
GitHub 上 AI + 股票这场戏,前半场卖的是"它算得准",后半场卖的一定是"它省你命、且不会偷你钱"。
真货长这样:本地优先(go-stock / Ollama 本地 embedding)、流水线化(Actions 定时 + 推送 + 落盘)、可审计(每一步有文件、有哈希、有版本)。它不让你暴富,但让你第一次拥有一个能翻档案、能按时汇报、不乱下单的私人研究部——而这,才是开源能给散户的、最不骗人的东西。
⚠️ 任何项目只要出现"稳赚/保本/全自动实盘"这三件套,直接关掉。GitHub 上能帮你做功课的很多,能替你承担亏损的为零。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.