“神秘东方力量”震撼硅谷！小扎坐不住了：2025年4000亿大计划曝光|openai|知名企业|人工智能|大模型|微软

分享至

　　DeepSeek-R1持续震撼硅谷：跻身竞技榜前三，创始人梁文锋采访被“拿放大镜”看

　　明敏发自凹非寺
量子位 | 公众号 QbitAI

　　“神秘东方力量”DeepSeek给硅谷带来的影响，还在不断泛起涟漪——

　　刚刚，DeepSeek-R1跻身大模型竞技榜前三。

　　以开源、便宜20倍的“身价”与ChatGPT-4o（2024.11.20）并列。

　　在复杂提示词/风格控制榜单上，R1位列第一。

　　目前结果来看，它在各个维度上都保持领先。

　　在衡量模型编程开发能力的WebDev分榜上，R1位列第二，与闭源的Claude 3.5 Sonnet相差不到40分。

　　网友实测体验表示，确实如此，R1在30场battle中只输了4、5次。

　　另一边，硅谷对DeepSeek的好奇不减。

　　毕竟，它可是一个“副业”。

　　创始人梁文锋的中文采访更是被翻译成英文，“拿着放大镜”逐字认真阅读。

　　他提出的观点也被总结成箴言，在互联网上流传。

真正的差距不是1年或2年，而在于是原创还是模仿。

　　图灵奖得主LeCun也为DeepSeek做出中肯评价：

它代表了开源的力量。这意味着，开源模型正在超越专有模型。

　　值得一提的是，同为开源领域代表的Meta刚刚公布了2025年在AI领域的布局计划：650亿美元，投算力、投人才。

　　有爆料称，Meta内部已经因为DeepSeek感到恐慌。

　　“他们让OpenAI一次又一次看清自己”

　　所以，在硅谷视角里，他们更关心DeepSeek的哪些信息？

　　最首要的莫过于，DeepSeek如何赚钱。

　　挖到的信息有点出乎意料，或许DeepSeek还没想赚钱的事。

控股DeepSeek的是幻方量化，他们有一批顶级科学家，有充裕的算力资源，DeepSeek其实是一个“副产物”。在2023年末我就听说他们在做DeepSeek。即使在当时的中国，还没有人把他们当回事。

　　其次，为何DeepSeek能成功。梁文锋在2023年5月2024年7月接受暗涌的两次采访，也被老外扒出来了。

　　他们最关心的五个方面分别是：

　　1、创新第一性原则：与其他致力于快速商业化的中国AI公司不同，DeepSeek专注于基础的AGI研究和创新。他们认为，中国必须从全球人工智能发展的“搭便车者”转变为“贡献者”。梁文锋说，创新不完全是商业驱动的，还需要好奇心和创造欲。

　　2、革命性架构：DeepSeek V2中采用的新型MLA（多头潜在注意力机制）架构，把显存占用降到了过去最常用的MHA架构的5%-13%，实现了成本大幅降低。它的推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。

　　这并不是为了挑起一场价格战——他们只是在“成本上稍微有点利润”来定价。这种创新架构继续应用于V3和R1模型中。

　　3、独特的公司文化和人才战略：DeepSeek保持着一个完全自下而上的组织结构，为研究人员提供无限的计算资源，优先看创造热情而不是证书。他们的突破性创新来自年轻的本土人才——中国本土的应届毕业生和年轻技术人才，而非海外招聘。

　　4、致力于开源：尽管行业开始趋向于闭源模型（OpenAI和Mistral），DeepSeek仍致力于开源，并认为开源对于建立一个强大的技术生态系统至关重要。梁文锋认为，在颠覆性技术面前，闭源形成的护城河是短暂的。

　　他们的真正价值在于建立一个具备创新能力的组织。

　　5、底层计算挑战：尽管拥有足够的资金和技术，DeepSeek也面临来自底层计算的挑战和压力。目前公司还没有新的融资计划。梁文锋认为，面临的主要制约因素不是资金，而是高端算力的使用权，这些芯片对于训练先进AI模型至关重要。

　　除此之外，采访中的诸多细节也被网友认真品味。

　　原文中，梁文锋被问道：怎么看待做量化同时做大量基础研发，不烧钱吗？

　　他回答：一件激动人心的事，或许不能单纯用钱衡量。就像家里买钢琴，一来买得起，二来是因为有一群急于在上面弹奏乐曲的人。

　　海外网友感慨：

这帮人是一群有点理想化的“技术狂”，他们坚信自己能搞出通用人工智能（AGI），而且他们确实有这个资源和天赋。我真是太喜欢他们了！

　　此外也避免不了一些对比：

梁文锋展现出一种完全不同的心态，他们的成功当之无愧，我也很期待看到他们一次又一次让“OpenAI”认清自己。

　　当然放眼AI领域的整体发展，能够看到DeepSeek，对于所有人而言或许都是兴奋的。

尽管我忍不住觉得他们有点天真，毕竟在商业化上他们有点“自断后路”。但看到一个团队坚持理想并取得成功，确实让人觉得很欣慰。

　　随着R1的惊艳亮相，DeepSeek正在兑现自己所说的一切。拓宽技术边界、坚持开源、专注于技术开发……

　　那么，DeepSeek是如何走到现在的呢？

　　用AI做量化，再回到AI

　　梁文锋本硕均就读于浙江大学信息与电子工程学专业。

　　2008年，梁文锋毕业，开始带领团队使用机器学习等技术探索全自动量化交易。

　　当时量化在国内还是个新鲜概念，能否赚钱是个未知数。2010年沪深300股指期货推出，量化投资迎来春天。据公开信息显示，梁文锋团队正是乘上这股东风，很快自营资金超过5亿元。

　　与此同时，深度学习浪潮的齿轮开始转动，人工智能率先在硅谷爆发。

　　2015年，梁文锋与校友共同创立幻方量化。仅仅1年后，他们就推出了旗下第一个AI模型，第一份由深度学习生成的交易仓位上线执行，使用GPU进行计算。

　　2017年，幻方量化宣称实现投资策略全面AI化。

　　2018年，幻方量化确立AI为公司的主要发展方向。

　　AI加持下，幻方量化旗下基金回报率远超同期沪深300指数。2019年，资金管理规模突破百亿元。

　　2019年，梁文锋在当年的金牛奖颁奖仪式上，发表主题演讲《一名程序员眼里中国量化投资的未来》，这是他少见的公开演讲。

　　演讲全文的确充满“程序员视角”：

量化公司是没有基金经理的，基金经理就是一堆服务器。人来做投资决策的时候，它是一种艺术，要凭感觉。程序来决策的时候，它是一种科学，它有最优解。

　　也是这一年，幻方量化开始大规模布局AI算力，搭建起“萤火一号”集群。2021年，“萤火二号”落成。这样的算力基建，成为如今DeepSeek快速奔跑的底层支撑。

　　2021年，幻方量化成为国内首家突破千亿规模的的量化私募大厂，被称为国内量化私募“四大天王”之一。

　　值得一提的是，在幻方量化的官网上，AI基础科学研究始终占据重要位置，包括在大模型浪潮前。

　　幻方量化曾表示，多年以来，该公司坚持把营收的大部分投入人工智能领域，建设领先的AI硬件基础设施，进行大规模的研究，探索人类未知的奥秘。

我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。

　　2023年，幻方量化将下场做大模型的独立新组织命名为深度求索，并强调将专注于做真正人类级别的人工智能。

　　目标不是复刻ChatGPT，而是研究和揭秘AGI的更多未知信息。

　　DeepSeek的故事也就开始于这一刻。

　　一个80后程序员在搅动中国量化市场后，完成资金积累，组建起年轻蓬勃的团队，似乎又回到了他原本的起点、回到AI，但产生的能量正在全球掀起骇浪。

　　One More Thing

　　值得一提的是，幻方量化还长期向慈善机构捐赠，官网披露公司员工“一只平凡的小猪”个人捐助 1.38 亿元，支持 15 家慈善机构的 23 个公益项目，在全国范围内帮助弱势群体，促进社会的公平和发展。

　　爆料消息称，这个员工就是梁文锋本人。

　　参考链接：
[1]https://www.reddit.com/r/LocalLLaMA/comments/1i6dlvj/inside_deepseeks_bold_mission_ceo_liang_wenfeng/
[2]https://www.threads.net/@yannlecun/post/DFNvN3euNEV?xmt=AQGzPcW8Rr7oXT6-rHIoKzBNL5x2PNnaprvJBL6uIhgoQA
[3]https://finance.eastmoney.com/a/202501223304127161.html
[4]

　　曝DeepSeek让Llama4未发布已落后！小扎坐不住了：2025预算4000亿起步，年底AI算力将达130万卡克雷西发自凹非寺
量子位 | 公众号 QbitAI

　　Meta这次真的坐不住了，计划在AI上继续加码！

　　匿名员工爆料，黑马DeepSeek的出现，让Llama 4还未发布就已经落后，Meta慌了。

　　就在这一消息沸沸扬扬时，小扎放出消息，2025年继续扩大AI投资。

　　初步规划两方面：算力和人才。

　　投入100亿建设一个2GW规模的数据中心

　　AI团队规模将继续扩张

　　整体支出将达到600-650亿美元（约4347-4709亿人民币）。

　　与此同时，Meta的内部也出现了人事调整，FAIR团队的大牛田渊栋博士转去了GenAI团队。

　　虽然还没有大张旗鼓的宣传，但目前田渊栋的X简介已经更新。

　　DeepSeek让Meta陷入恐慌

　　虽然小扎在推文中把今年的愿景描绘得一片前程大好，但却有匿名员工爆料，Meta内部已经陷入了恐慌。

　　在TeamBlind上，工程师爆料称这种恐慌由DeepSeek而起，并且在DeepSeek V3（24年12月末发布）的时候就已经产生。

　　爆料显示，当时DeepSeek V3就已经让还待字闺中的Llama 4在多个Benchmark当中落后。

　　这名工程师还补充说，DeepSeek此前名不见经传，训练资金也只有550万美元。

　　什么概念呢？Meta GenAI团队随便拉个高管，薪资都超过了DeepSeek的总训练成本。

　　V3上线后，Meta团队开始紧急拆解，试图“复制一切可以复制的东西”。

　　而这两天新上的推理模型R1进一步加剧了Meta的恐慌，但爆料者对此表示无法提供更多机密信息。

　　而在评论区，有人表示DeepSeek不仅让Meta感到恐慌，也正在点燃OpenAI、谷歌和Anthropic的战火。

　　小扎：今年是决定性的一年

　　在Facebook的推文中，小扎写到，对于人工智能来说，今年将是决定性的一年。

　　在恐慌的传闻之下，他期待今年META能打造出服务10亿人的领先级助手，还乐观地表示Llama 4有望成为SOTA模型。

　　同时还会构建一个会写代码的“AI工程师”。

　　而Meta今年计划的600-650亿美元资本投入，相当于比去年（预计380-400亿美元）增长了超过70%（以380→650计算）。

　　同时，这一数字也超过了伦敦证券交易所（LSEG）分析师的预测（约502.5亿美元）。

　　其中，数据中心的建设将占据很大一部分。

　　2024年，Meta一共建了6个数据中心，今年还计划在路易斯安那州花100亿美元建一个2GW规模、面积400万平方英尺（约合37万平方米/557亩）的新数据中心。

　　这个数据中心在上个月已经官宣，预计整个建设工程会持续到2030年，当时美国一家能源公司还提议，在Meta这个数据中心附近建立一座1.5GW的天然气发电厂。

　　按照小扎最新的说法，Meta今年的目标是拥有130万块GPU，实现1GW在线运算能力。

　　小扎的消息发布后，Meta的股价上涨了1%。

　　除了Meta，其他一些科技巨头今年也会在数据中心上投入大量资金。

　　微软总裁布拉德·史密斯（Brad Smith）本月就表示，该财政年度，微软计划在数据中心上花费800亿美元。

　　马斯克也在田纳西州建设了新的数据中心，并表示将把其规模提升到百万卡级别。

　　亚马逊也表示，2025年支出会高于2024年的750亿美元。

　　参考链接：
[1]https://www.reuters.com/technology/meta-invest-up-65-bln-capital-expenditure-this-year-2025-01-24/
[2]https://www.wsj.com/tech/ai/meta-spending-ai-facebook-data-centers-9452a88f
[3]https://www.teamblind.com/post/Meta-genai-org-in-panic-mode-KccnF41n/44121111

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.