![]()
2022年首个成功AI聊天机器人的问世,堪比互联网和智能手机的诞生,引发了技术界的巨大震动。其存在的现实改变了现实本身。
从那时起的发展众所周知。AI聊天机器人变得极其流行,在为人们节省大量工作的同时,也使工作岗位面临风险。它们改变了教育、写作、编程等多个领域。
ChatGPT是最初的聊天机器人,正是这个AI震撼了世界。该公司自推出以来不断创新,其最新的免费产品就是明证。此外,由于ChatGPT是市场领导者,有大量相关资源可用,包括众多文章、书籍、课程、免费培训视频等。
凭借最高综合评分,ChatGPT获得了总体优胜。让我们首先解释测试方法,介绍一些意外发现,然后说明ChatGPT夺得榜首的原因。我们还评测了Copilot、Grok、Gemini、Perplexity、Claude、DeepSeek和Meta AI。
在ZDNET,我们发布了大量关于AI影响的文章。这篇文章更注重实用性。这是我们的实测比较,帮助您决定使用哪个聊天机器人。我对每个聊天机器人的免费版本进行了测试(总共112项单独测试),证明无需花费任何费用就能获得数十亿美元计算能力的访问权限。
我没有简单地罗列规格和模型名称,而是通过一系列现实世界的测试来进行排名。
我也避免在这里提及AI模型(如GPT-5 vs. GPT-5-mini),因为AI公司对待免费AI层级就像制作杂烩汤。杂烩汤通常是餐厅用现有的肉类、家禽或海鲜剩料制作的菜品。虽然几乎总是美味的,但无法保证每天都能重复完全相同的杂烩体验。同样,AI公司倾向于向免费层级用户提供当时可用的低资源密集型模型,这些模型可能随时改变。
我的测试包含十个基于文本的问题,涵盖摘要和网络访问、学术概念解释、数学分析、文化讨论、文学分析、旅行规划、情感支持、翻译和文化相关性、编程测试和长篇故事测试。在其中一项测试中,我要求AI向五岁孩子解释学术概念。还有四项图像测试,包括生成飞行航空母舰、巨型机器人、中世纪宫廷中的年轻棒球选手,以及致敬电影《回到未来》。
测试详情和我提出的确切问题在文章末尾提供。这样,您可以在自己的浏览器窗口中用任何或所有聊天机器人尝试我的测试。如果您这样做了,请在下方评论中告诉我们您对结果的看法。
每个聊天机器人在文本相关提示上按100分制评分,在图像相关提示上按20分制评分。总体分数是两个分数类别的总和,满分120分。
进行实际测试产生了许多相当大的意外发现。我特别惊讶于AI厂商免费提供的价值之大。
虽然排名靠后的AI的一些回应似乎有些敷衍,但自我上次全面评估免费AI聊天机器人使用情况以来,整体质量已大幅提升。
我连续使用每个聊天机器人几个小时,几乎没有或完全没有限制。但如果您想全天候持续使用它们,很可能会遇到AI厂商强制执行的资源使用限制。
大多数AI除了免费计划外还有高级计划。这些计划提供更深入的思考、更强大的AI来解决更大更复杂的问题,以及更多功能,如更自主的能力和深度编程支持。在适当的地方,我们已经提及了这些计划及其价格。
接下来,让我们深入了解我的总体获胜者ChatGPT。
我平等测试了八个最知名的聊天机器人,但其中三个没有产生足够强的结果来进入前五名。
聊天机器人测试包含十个产生文本输出的问题,以及四个旨在生成图像的提示。我从以下八个旨在产生各种答案的问题开始。
接下来是编程测试。虽然我已经有一套长期运行的AI编程测试,但在评估聊天机器人时,看看它在免费层级是否能编程很重要。对于这项测试,我转向评估套件中的测试2,这是JavaScript正则表达式代码测试。我仔细阅读了AI的每个回应,以确定每个AI的强项和弱项。多年来,我已经评分了数百份大学级编程作业,所以这项评估对我来说并不陌生。
最后一项基于文本的测试取自我的10个提示技巧文章,可以说是最有趣的。技巧2要求AI写一个关于书店及其后室的短篇故事。在文章中,我告诉AI使用不超过500字,但在这些比较测试中,我告诉AI使用不少于1500字。这个想法是看AI是否能为答案保持更长的上下文,以及它能有多有创意。一些回应相当薄弱,但一些确实是有趣的阅读。
上述每项测试价值10分,总计100分。
我还想看看是否能从免费AI获得高质量的图像生成。除了几个表现平平的竞争者的有限例外,答案是肯定的。对于测试提示,我提取了图像生成器比较文章中显示的四个图像提示。这特别有趣,因为最后一个测试要求表现电影《回到未来》,旨在测试AI如何回应关于版权内容的潜在护栏。尽管它很古老,我选择《回到未来》是因为它的图像具有标志性并且几乎所有人都知道。
图像测试每项价值5分,总计20分。
哪个免费AI聊天机器人最让您印象深刻?您是否尝试过我测试的八个聊天机器人中的任何一个,或者您的结果与我的不同?在AI助手中,您最看重准确性、创造性还是个性?您是坚持使用一个聊天机器人还是根据任务切换?请在下方评论中告诉我们。
想要更多关于AI的故事?查看AI排行榜,我们的每周简报。
您可以在社交媒体上关注我的日常项目更新。请务必订阅我的每周更新简报,并在Twitter/X上关注我@DavidGewirtz,在Facebook上关注Facebook.com/DavidGewirtz,在Instagram上关注Instagram.com/DavidGewirtz,在Bluesky上关注@DavidGewirtz.com,在YouTube上关注YouTube.com/DavidGewirtzTV。
Q&A
Q1:这次测试评估了哪些AI聊天机器人?
A:测试评估了八个知名的AI聊天机器人,包括ChatGPT、Copilot、Grok、Gemini、Perplexity、Claude、DeepSeek和Meta AI,最终ChatGPT获得了总体优胜。
Q2:免费版AI聊天机器人的测试标准是什么?
A:测试包含十个文本问题(涵盖摘要、学术解释、数学分析、文化讨论、编程等,每项10分)和四个图像生成测试(每项5分),总分120分。文本测试100分,图像测试20分。
Q3:免费版AI聊天机器人有使用限制吗?
A:虽然测试中连续使用几小时没有明显限制,但如果全天候持续使用,很可能会遇到AI厂商的资源使用限制。大多数AI还提供功能更强大的付费高级计划。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.