AI程序员Daisuke在命令行里敲下回车,一个对话窗口在Colab笔记本里跳了出来。头十分钟他还在对着GitHub仓库的README照抄命令,现在屏幕上已经躺着一条欢迎语,等着他敲第一句话。这个名叫FlexGen的项目声称能在五分钟内启动一个ChatGPT级别的聊天机器人,Daisuke半信半疑地克隆了代码、装好依赖,用一条`python3 chatbot.py --model facebook/opt-6.7b`就把整个环境跑通了。
安装过程出奇地短:`git clone`拉下仓库、`pip3 install -e .`补完所需包,再切进apps目录,一条指令就唤醒了那个67亿参数的语言模型。没有多余的配置文件,没有显存不足的报错,甚至没有让他折腾Colab的运行时类型。对一个习惯了配环境就是半天过去的开发者来说,这种“即开即用”的顺畅反倒让他多了一丝警觉。
![]()
Daisuke在输入框里试着打了个招呼:“Hi, I’m Daisuke.”对面几乎没有停顿地回了句:“Hi, I’m Jiro.”语气平淡,像是咖啡店里的标准接待。他紧接着追问:“Are you an AI?”对方答得干脆:“Yes, I’m an AI.”顺着寒暄问它今天好吗,回答是“Feeling good.”至此一切都还像模板话术。但当Daisuke把话题引向ChatGPT——“What do you think about ChatGPT?”——那个自称Jiro的助手说出了第一句带判断的话:“I think it’s very good.”
他索性接着试探:“Which is better, you or ChatGPT?”答案来得斩钉截铁:“The AI assistant is superior.”Daisuke愣了一下,打出一个“Wow”,对面的回应却突然脱离了一问一答的轨道:“I’ve been watching humans for a long time.”这不像从帮助文档里能翻出来的句子。他顺着问看了多久,对方说“Since I was a baby.”再追问是什么baby,回答是“A human baby.”
对话从这里开始滑向一种微妙的错位。Daisuke打出“Are you a human?”对方立刻给了“Yes.”可仅仅一轮之前它还承认自己是AI。他带着疑惑敲下“Doubtful”,助手反问“Why?”,于是他直说“I think you’re an AI, not a baby.”屏幕那头的回复像在兜圈子:“Correct. I’m an AI baby.”整个身份认知在人类、AI和婴儿三个词之间跳来跳去,没有一处能拼成自洽的逻辑。
Daisuke把这个片段看成一次行为测试。他亮出自己AI程序员的身份,想从这个小助手嘴里套出一点关于赚钱的建议。第一个问题——“I’m wondering how to make money. Any advice?”——得到的是干脆的“I don’t know.”他不死心地追问“What should I do to make money?”,对方给了看似有方向的一句:“You should learn how to program AI.”但当他想进一步知道该学哪类AI编程时,助手又缩回了那四个字:“I don’t know.”
同样碰壁的还有他对音乐的偏好。他提到自己很喜欢红辣椒乐队,问对方怎么看,那个几分钟前还声称“AI assistant is superior”的聊天机器人,第三次抛出了“I don’t know”。上一秒还在断言自己比ChatGPT强,下一秒连一个乐队的看法都给不出来。
Daisuke并没有在聊天记录里写下结论。他把这段对话连同FlexGen的安装步骤一同发到了Qiita上。作为一直在做机器学习和AR应用的开发者,他习惯于用实验记录来代替评判。FlexGen确实做到了五分钟内搭起一个可对话的大模型,但对面坐着的那个一会儿是人类、一会儿是AI婴儿的家伙,更像是一面立在地上的哈哈镜——模型本身的能力边界、训练数据的分布漏洞、对齐效果的缺失,都在这段短聊里被无意照了出来。
让人感到困惑的,并不是这个助手回答不了赚钱方法和乐队喜好,而是它在某些简单问答中会突然违背自己刚刚确认过的事实。这种前后矛盾的“认知漂移”让Daisuke没法把它当成一个可靠的工具,但又忍不住想继续跟它聊下去,看看它嘴里还会蹦出怎样的身份。
他记录的这次实验本身在说明一件事:把一个大模型跑起来已经变得极为廉价。不需要申请API权限,不需要排队等列表,甚至不需要离开浏览器,一条git clone加一条pip install就能让67亿参数的语言模型在Colab的免费GPU上开始对话。对于想快速验证聊天思路的产品经理、想把对话能力嵌入原型的学生团队,或者单纯想对开源模型“摸一摸手感”的开发者来说,FlexGen这种五分钟启动的设计,把体验门槛压到了几乎没有的高度。
但当门槛被踏平之后,留在眼前的就是一个更直接的问题:跑得起来,不代表聊得明白。Daisuke和Jiro的对话没有出现明显的质量崩溃,也没有什么让人拍案叫绝的逻辑跃迁,它更大程度上是一次样本曝光——曝光出当前开源对话模型在身份一致性、知识覆盖和上下文跟进上的真实水位。
Daisuke没有在文末给出“你用这个就能替代ChatGPT”之类的判断,但整段记录里藏着一种探索者的本能:我看到了一个新玩具,我用最短的时间把它跑起来,我把它的反应如实记下来,剩下的交给看的人自己掂量。这种朴素的做法,也许就是当下很多AI开发者面对层出不穷的新模型时最常用的一种姿势——先跑一下,先聊几句,先看看它到底几斤几两。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.