如果我想比较一下去年收益率排名前10的基金年报,能发现什么有意思的东西呢?
上一篇文章里我提到,想要直接分析10份pdf容易突破对话框上下文的token限制。
昨天到今天,我花了8个小时来处理这些季报,最后用claude做了综合的分析。
虽然最后综合处理的结论不够特别惊艳,但是交叉对比给研究员可以省下来的时间以周来计。
突破上下文的限制
如果我把10份季报pdf全部丢到对话框,那么会显著超出上下文的限制。
一般来说,一份年报的页数在70-80页之间,因为pdf是以图片形式传入上下文的,所以每页大概就要消耗1000-2000tokens。
那么一份年报对上下文的消耗大概在75000-15000tokens之间。
如果上传10份的话,就是75-150万tokens,而我使用的sonnet 4.6上下文只有100万(1M)tokens。
而且上一篇文章我提到了,模型的上下文一般都有打折,说的是可以支持1M,实际上到70-80万就不太行了。
所以,想要分析10份pdf季报,首先需要解决的问题是如何把pdf里面的关键信息给提取出来,最好能够提取到txt文档里。
我尝试了一下,对关键信息进行提取到txt,大概可以压缩掉90%的tokens的使用量。
有了这个思路之后,我就想着是否可以分析一下去年偏股型基金里排名前10的基金去年年报里都有啥,再做个横向对比。
这里我直接使用了claude code,让它搜索了去年收益排名前十的偏股型基金,并且自己找位置下载了pdf年报。
![]()
上面的收益率大家忽略,这个是有问题的。
因为我是分开了两步操作的,第一步先试找出10只基金,我确认名单没问题后,第二步再下载相对应的季报pdf。
我看了它的思考链,它下载的地址一般都是大智慧、同花顺,反而没有去基金公司官网上看。
有意思的是,永赢科技智选没有自动下载下来,我claude code因为接的是claude模型,API太贵了就没有麻烦它再重新想办法下载了。
我自己随后下载后放在了文件夹。
搞个工作流
这次我使用AI来分析这10份年报,信息提取是我花费最多的时间。
之前我想的是本地化部署,那么可行的方式是使用dify+ol lama,但是研究了之后我决定先不给自己上难度。
计划就用云端来部署,直接用dify搞个工作流。
我最开始的想法是,是否可以直接走一个模块化的工作流,这样我只需要上传不同的季报,它就可以按照我的要求来做分析,最终输出结果。
信息提取只是其中的一个过程。
![]()
原理其实非常简单,主要分为两步——
第一步是先通过大模型来提取关键信息,第二步是再用大模型对这些数据做深度分析。
工作流我也做出来了,但是在实际操作过程中发现根本没法用。
为了省钱,我舍不得用claude的API,claude的API价格大家都明白有多贵。
所以,我最初的想法是全部用deepseek。
但是,我在做好之后上传,发现一直报错,输出的内容全部是空的。
时候看跟踪的情况,原因是季报里面有很多金融的敏感词汇,在提取信息的过程中,模型直接拒绝了。
然后我就把第一步的模型换成了智谱的glm-4-long,要说明的是这个模型并不聪明,但是它叫long则意味着有着很大的标记值。
因为信息提取不需要怎么思考,我也更希望提取的素材是原始素材不要加工,所以量大管饱就够。
第二步,在提取数据之后,再用deepseek的V3模型进行分析。
理想很丰满,现实一塌糊涂,信息提取部分就出了各种问题,因为 glm-4-long不够聪明,它提取的信息有很多都是无用的。
可能也怪我提示词没写太好。
还有个问题是,因为每份的pdf页数太多了,一般超过50页它就没办法一次性提取,所以它对pdf做了切割。
切割+图标的问题,导致又有很多的数据最终提取出来后问题很大。
那么可想而知的是,最终再通过deepseek来去分析就完蛋了,因为数据不全且有各种错误,最终deepseek给我的成果就几乎全是联想。
看上去像是那么回事,实际上跟我想要的东西一分钱没关系。
它跑去分析各种价值型基金经理和成长型基金经理的情况和观点去了,完全没看我给的资料。
![]()
信息提取
搞了半天之后,我决定放过自己,再给自己降低点难度,我只需要做好第一步,也就是把季报的关键信息提取出来就行。
至于后面的分析,我就再把提取出来的资料丢给claude。
上面我也说了,如果最终呈现的是txt文档,那么可以降低90%上下文tokens的消耗。
后面又整了一个小时,各种测试之后,发现虽然能提取,但是问题还是非常多,要么格式错误,要么信息不全。
后来我问了Gemini,为什么会出现这样的情况。
它说对话框模式:当你把 PDF 丢进Gemini或Claude的对话框时,后台通常有一套非常成熟的文档解析引擎。它会预先处理版式、表格和 OCR,并以一种模型最容易理解的格式喂给它。
API 模式:如果你只是通过API传字符串,缺乏了前端那种针对文档结构的优化。尤其是财经PDF往往包含大量的嵌套表格、多栏排版,API传过去的信息可能变成了“乱序堆砌”的文本,导致模型在提取时丢失逻辑关联。
得,一晚上白干。
我知道其实还有个更简单的办法,那就是使用claude code,但是年轻人偏偏不信邪想要自己折腾。
最后,我用claude code直接把关键信息给提取了出来保存成了txt文档。
虽然结果不美好,但是这个过程非常有意义。
在做信息提取的时候,我大概真的明白了国内模型的成本优势。
今后AI在做很多工作的时候,其实有些流程化和傻瓜化的操作并不需要模型多么聪明,够用、可靠就行了。
所以,在做Agent搭建的时候,往往不是所有流程中都用最好的模型是最优解,反而是跟觉这个流程选择最适合的模型是最优解。
我的claude code接的模型是claude,从性价比来看,用它做信息提取是很浪费的,因为claude的API很贵,而且充起来很麻烦。
我看有博主说,对于pdf的文件提取,Qwen是非常不错的,我因为没有充Qwen,所以也没试过。
这两天我准备继续尝试用工作流来提取试试。
还有个收获,就是我大概能明白一个最终呈现的结果,它大概分了哪几步。
所以在后面使用claude code提取pdf文档的时候我就能把提示词写的非常好了。
这里提示词的关键:
1、是需要让它分别阅读pdf文档,不要一起读;
2、在文件提取里,强调要提取哪些数据,以及哪些数据需要全部提取;
3、强调数据的核对和格式的对账。
这里面有我们金融狗专业方面的一些优势,那就是你需要知道哪些数据是需要提取的,哪些数据是归纳总结下就行、哪些数据是可以忽略的。
我这次想重点分析的是去年排名前十基金的持仓重合度情况,以及各个管理人对投资运作的说明和展望。
所以,管理人对报告期内基金的投资策略和业绩说明部分我让它全文给我提取了。
提示词撰写
提取完txt文档之后,我就把文档丢给了claude,让它根据我的要求对这10只基金进行分析。
这一步我也用了三个模块。
第一个模块是分析每一只基金的策略拆解,提示词是这样的——
针对10只基金,请逐一分析其2024年的投资运作情况,每只基金包含以下维度:
1. 核心投资策略:主要持仓方向(行业/主题/风格)
2. 关键操作节点:2024年内有无明显加仓/减仓/调仓动作,时间节点是什么
3. 超额收益来源:相对基准跑赢的主要驱动因素
4. 基金经理风格标签:如"景气度投资""困境反转""低估值价值"等
5. 年报/季报中基金经理的原话摘录(如有)
输出格式:每只基金单独一个模块,结构统一
第二个模块是对十个基金经理对后市展望的观点汇总,提示词是这样的——
请整理10位基金经理在2024年四季报或最新公开发言中对2025年市场的展望观点,要求:
1. 每位经理用3-5句话概括其核心判断(看多/看空/结构性机会)
2. 重点关注:
- 对A股整体估值的看法
- 看好的行业或主题(如AI、消费、出口、红利等)
- 主要风险提示
3. 提炼异同:哪些判断高度一致?哪些存在明显分歧?
4. 最后输出一张"观点对比速览表":行=基金经理,列=看多方向/风险关注/乐观程度(高/中/低)
第三个模块是对持仓情况进行分析,提示词是这样的——
请基于上述10只基金最新披露的季报持仓数据,进行持仓同质化分析:
【第一步:持仓重叠度计算】 - 找出同时出现在3只及以上基金前十大持仓中的股票 - 统计每只重叠股票被几只基金持有,及合计持仓比例区间
【第二步:行业集中度对比】 - 列出每只基金前五大行业及占比 - 识别哪些行业在多只基金中高度集中
【第三步:同质化评分】 - 为每对基金计算Jaccard相似系数(基于前十大持仓股票) - 输出一个10×10的相似度矩阵热力图描述(文字版)
【第四步:结论】 - 点名同质化最严重的基金组合 - 分析同质化的潜在风险(抱团瓦解、流动性冲击等) - 找出持仓差异化最大的"另类"基金并解释原因
其实,做到这里,大家大概就能明白我昨天说的,为什么同样的AI不同人使用的差别会非常大。
因为到了提示词部分就是考验行业专业功底的时候,你不需要了解所有细节信息,但是你需要知道AI应该帮你分析的方向。
比如,去年排名前十的基金收益率都爆炸了,那么它们的持仓情况就非常值得分析,看看是不是大量的同质化。
同时也需要看这些基金经理对后市的展望,毕竟动辄200%的收益,他们怎么看后市是需要重点关注的核心点。
报告结论
这样,最终claude给的结论就出来了。
![]()
![]()
![]()
这里我只截取的部分,claude分析还提到了兴证资管兴享和中欧数字经济在信息技术/互联网及医药生物方向保持了有意义的配置分散。
后面就这个结论我还可以跟claude做多轮对话。
包括因为之前提取数据的时候基金经理的名称没有提取出来,它很多都给标注错了,这些都可以慢慢修改。
而且上面第二个模块里,对不同基金它也有不同的分析,比如中欧数字经济,它提取出来的关键观点是。
关键操作节点年报披露了全年组合结构的动态优化方向:一是大幅加仓推理侧基础设施——
重点布局光模块及PCB等受益于海外算力需求持续攀升的标的,这些领域在推理侧算力扩张周期中展现了强劲业绩弹性;
二是阶段性减配智能驾驶板块(具体时间和比例未详细披露);
三是逐步增加国产AI产业链权重,受益于年初国产大模型在推理能力上的重大突破。
超额收益来源年报指出2025年市场呈现"资源+科技"双主线,通信(代表AI产业链)全年上涨85%,电子、电力设备等成长赛道均表现突出。
基金持续重仓这些方向,并通过组合结构优化(减配智能驾驶、加码推理算力)适时捕捉了行情主线的切换。
基金经理风格标签AI产业链深度研究型+多维度覆盖型。
对AI产业的认知体系最为完整,从基础设施到应用再到端侧均有覆盖,追求AI板块内部的均衡配置。
其实基金公司在做营销素材的时候,就可以跟觉这些分析的结论做延展和补充。
如果再灌一些产品资料和基金经理的内部观点,基本上一篇营销稿件就出来了。
好了,今天就聊到这,我去琢磨Qwen模型去了,看看用它提取pdf的效率和可操作性如何。
下一期我想试试把一位基金经理的10份季全部丢给AI,看看它能看出什么来。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.