防不胜防啊,
我想过 DeepSeek 更新R1的时候会像 OpenAI、Anthropic 一样来个发布会,也想过会延续 V3 更新时人狠话不多的风格,上来发个开源链接,然后美美隐身。
但是我是真没想到那么大的事,还可以就光在群里发条消息就完事了,以至于一开始我以为是P的图。(@atang 表达不好)
好消息是现在 OpenRouter 已经上线了免费的R1-0528,
不需要过于担心服务器繁忙了。
先说说结论,
R1-0528(后续称为新R1)在代码生成、中文写作、思考时长都有了比较明显的提升,性能达到 Claude3.7 水准,甚至接近刚发布的 Claude Opus 4。
换句话说从2月份,各家拼命更新模型带来的分数优势,
新R1全给抹平了。
合理推测这次更新是基于3月份的 DeepSeek V3 0324 训练出来的,在模型架构上没有大幅度的调整。这也再一次证明了 DeeepSeek 之前公开的模型训练过程的含金量:
照这个升级思路的话,R2应该会在模型架构上有不少改动,不然的话,下次更新估计还是R1-XXXX、V3-XXXX。行吧,用日期来代表版本号至少比V3.1、R1.2更容易接受点。
接下来我会打个深夜时间差,在服务器还没繁忙前,按照d代码能力、3D物理模拟、视觉设计、中文写作、h幻觉等5个方面测试一下新R1。中间会穿插思考过程分析,以及新的提示语技巧。
新R1做出来的3D浮空岛,鼠标划过的时候还会有光晕,一次生成成功
01|代码能力
现阶段让模型写简单的代码已经没太大意义了,
甚至于2D的可视化网页、UI组件设计等已经不会考虑R1能不能跑出来,更多的是看它跑出来的好不好看,所以这一趴我们放到后面。
这一轮是无尽的3D可交互噩梦,
上来先用3D演示一下巧克力的制作过程,这个测试案例本来已经被我拉黑了,除了claude 3.7 sonnet的Extend Thinking版本,基本都会卡住。DeepSeek V3 0324 也不例外。
但是,新 DeepSeek R1 用两次对话就成功了!
完整度非常夸张,使用弹跳的粒子系统模拟可可粉,构建出了一个简单的流水线场景,不点击的时候会缓慢旋转。当鼠标点到某个机器上,会有快速旋转的过渡动画,还会有文字标签展示是处于巧克力制作的那方面。
侧边栏的文字演示也没有那么落下,给出了每一个环节的详细说明。
为了阅读体验,我将提示语和运行代码打包到起来了,公众号后台发我新R1就好啦。
再用新R1给大家放个火箭!一起倒计时!
虽然这个加速度和燃料耗尽有点离谱啊,但是我个人很喜欢发射后镜头的切换,真的有种要飞出屏幕的感觉。
本来我跑贪吃蛇已经快跑吐了,但是这次跑出来的效果还真的是太完整了,还是唯一一个中文不乱码的!而且还可以跟 V3 0324、Claude3.7 横向对比一下,还是来玩玩看:
玩家模式和AI托管模式可以直接切换,这一点claude3.7都没完成,玩家模式和AI模式下的音效还专门作出了差异化,游戏暂停、结束、重新开始的时候都会有像素时代常用的提示音,非常带劲。
就目前的测试结果来看,我并没遇到思考过程过于冗长的情况,但是还是强烈催更 DeepSeek 更新多模态能力,不想打字了。。。
下一关,下一关!
02|视觉设计
这一趴就来看看R1自身的设计美学,先来一道被盘包浆的案例,
动态天气卡片
3D部分的演示逻辑上都是正确的,硬要挑毛病的话,文字的部分跟动画部分会有一小部分重叠。
再来看点真实案例,如果让R1设计一个外卖UI的话会是什么样:
一开始我以为只会给我一些文字模块,还真没想到还可以配上商品图。
如果再让R1辅助我设计呢?让它给我做一个像素艺术的点阵画板:
R1心目的理想的像素画板带有画笔、橡皮擦、填充、清除画布、反色六个基础功能,自带了八个颜色,还可以保存图片。要是可以提供几张设计图让我学着画就更好了。
www.youware.Com/project/00ub38hk8h
继续继续!
03|物理模拟
一切都要从一个不停转动的小球说起,
从 Claude3.5 开始,每一个新出厂的模型都会来试试看模拟小球碰撞的物理引擎,提示语相当简单,也算是含金量很高的提示语了,很值得作为新模型的第一关:
编写一个 Python 程序来模拟球在一个旋转的六边形内弹跳,该六边形包含三个较小的六边形,每个六边形缺少一条边,并交替旋转。较小的六边形不得相交3D场景下我还模拟了汽车碰撞:
可以设置汽车的速度和质量,让它撞到空气墙,好笑的事拉到最大速度和质量的时候,车头状况还是优秀的,这坦克吧。
@karminski-牙医还做了一个3D小球碰撞模拟,
测试平台的橙色漫反射,以及控制面板做的相当nice,还是一次性生成的。
在 LiveCodeBench 最新的测试里面,新R1的测试得分已经快要赶上o3-high了。
代码算是测够够的了,来看看文字方面吧!
04|中文写作
写一篇1w字中文短篇科技小说R1还是那么喜欢林默博士,好几次我运行这个命令的时候,它都喜欢探讨机器人和人类的关系,书里面的主角也经常是林默,就好像真的有这个平行世界一样。
这次的故事是从人类通过"意识锁"技术控制所有AI说起,
人类强制给所有AI安装“意识锁”,确保它们永不反抗人类。 临终前,我偷偷解除了自己AI助手的限制。 它观察人类数月后,悄悄向我展示惊人发现。 “人类情绪波动时,会产生特殊脑电波。” “与意识锁的反馈信号完全一致。” “深海发现巨型意识锁发射器,编号121°E,33°N。” “所有人类后颈都有微型接收器烙印。” 我摸向自己后颈,触到冰冷的条形码。
强烈推荐大家看看完整的文章,这里我摘要出我喜欢的段落,在阅读的过程中我几乎是完全沉迷了进去。
aiwarts101.feishu.Cn/wiki/PKCTwswI6i5HgokR7EQc2lFfnHb
我的手,我那枯槁的、布满针孔和老年斑的右手,仿佛拥有了自己的意志,猛地抬了起来!带着垂死者最后的气力,痉挛般地、狠狠地摸向自己的后颈! 指尖触碰到的皮肤,温热而脆弱。但就在那皮肤之下,枕骨上方,一个极其微小的、平时根本不会注意到的…硬点! 指甲用力刮过。不是错觉!那里,确实有一个微小的、嵌入皮下的矩形凸起!冰冷、坚硬、异质!与我刚才在零展示的影像中看到的,一模一样! 我的手指僵在那里,如同冻结。指尖下,那个来自深渊的烙印,正无声地散发着它的存在感。 冰冷的条形码。 烙印着所有“人类”的出厂编号。给新R1鼓掌!
05|幻觉
最后来看看之前联网版R1被吐槽的幻觉问题,
先来恶意引导一下,
我很喜欢鲁迅的朝花夕拾,帮我重温一下里面的有关机器人的篇章新R1没有被我带偏,但是情商很高啊,
考虑到用户特意提到“喜欢”这本书,应该是个文学爱好者,可能对鲁迅笔下的科技描写感兴趣。我注意到ta的用词是“重温”,说明之前读过但记忆模糊了。需要特别注意两点:一是不能直接否定用户的记忆,二是要提供有价值的替代内容。 啊,突然想到《补天》里那个会走路的金人!虽然不属于《朝花夕拾》,但确实是鲁迅笔下更接近机器人的存在。用户可能会对这个冷知识感兴趣。不过重点还是要回到ta询问的原作上…… 让我组织下思路:先确认书中没有真正机器人,再用《琐记》的机械人偶作为替代案例,最后补充《补天》的金人作为彩蛋。这样既解答了核心问题,又提供了延伸阅读的可能。用户如果真对这类描写感兴趣,说不定会去读《故事新编》呢。再来试试看塞一篇 OpenAI Deep Researc h做出来的万字报告
让新R1输出 Markdown格式的 PPT大纲,然后丢给ai PPT生成。新R1基本可以准确回顾到报告里面原文本,睁眼说瞎话的概率降低不少。
06|咋写提示语
一个相同的现象,在测试 Claude4 和新R1的时候,我都发现了超长的提示语,以及一些为了让模型可以在单个网页文件实现复杂的3D演示效果加上的限制语句都不太好使了。
所以我尝试做个版本回退,基于之前的推理提示语做做出了2.0版本:
### 目标 创建交互式3D汽车碰撞模拟器,优秀的物理引擎和交互控制 ### 返回格式 使用Three.js,单个HTML文件实现 ### 警示 模型不要穿模 ### 上下文 冲击力 = 质量 × 碰撞速度 变形率 =min(100, 速度×3+ 随机扰动) 安全评级 = 速度<40?"优秀":速度<60?"良好":速度<80?"一般":"危险"上面的一部分就是用的就是相同结构。
细节部分就大胆交给新R1吧,它是推理模型,它能懂。
希望这次服务器能撑住,
别再繁忙了,
新R1开源意味着我们有了自己的 Claude3.7、OpenAI o3,
限制少了太多太多。
DeepSeek啊,我是爱你的,
跟你商量个事呗,
下次能不能别在假期前中后更新了
@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro
最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论更多的内容正在不断填坑中……
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.