学术写作哪家强？比较DeepSeek、ChatGPT、通义千问等生成式AI在学术写作中的应用|论文

学术写作哪家强？比较DeepSeek、ChatGPT、通义千问等生成式AI在学术写作中的应用

2025-02-11 15:33:11　来源: 生物世界

上海举报

分享至

编辑丨王多鱼

排版丨水成文

随着人工智能（AI）技术的快速发展，尤其是大语言模型（LLM）的进步，生成式人工智能（Generative AI）在学术写作中的应用越来越广泛。

近日，滑铁卢大学等机构的研究人员发表了一篇题为：Generative AI in Academic Writing: A Comparison of DeepSeek, Qwen, ChatGPT, Gemini, Llama, Mistral, and Gemma 的预印本论文，该论文旨在评估几种主流大语言模型（包括 DeepSeek v3、Owen 2.5 Max、ChatGPT、Gemini、Llama、Mistral 和 Gemma）在学术写作中的表现，特别是它们在生成高质量学术内容方面的能力。

这篇论文为生成式人工智能（Generative AI）在学术写作中的应用提供了详细的评估和比较，为未来的研究提供了重要参考。

论文作者使用了 40 篇关于“数字孪生”和“医疗保健”主题的学术文章，通过生成式 AI 工具生成文本，并对生成的文本进行以下评估：

1、抄袭检测：使用 iThenticate 工具检测文本的抄袭率。

2、AI 检测：使用 StealthWriter.ai 和 Quillbot.com 检测文本是否由 AI 生成。

3、字数比较：比较不同大预言模型生成的文本字数。

4、语义相似性：使用 ChatGPT、DeepSeek v3 和 Owen 2.5 Max 工具评估生成文本与原文的语义相似性。

5、可读性评估：使用 Hemingway Editor、Grammarly 和 WebFX 工具评估文本的可读性。

结果显示：

从性价比来看，DeepSeek v3 的性价比最高。

在文本生成能力方面，Owen 2.5 Max 和 DeepSeek v3 生成的文本字数最多，内容较为详细，而 Mistral 7B 和 Deepseek-coder-v2 16B 生成的文本较为简洁。

在抄袭率方面，ChatGPT 4o mini 生成的文本的抄袭率最高（57%），而 Llama 3.1 8B 的抄袭率最低（9%）。

在 AI 检测方面，几乎所有的大模型生成的文本都能够被 AI 检测工具识别为 AI 生成，只是 AI 痕迹有多有少。

在可读性方面，所有大模型生成的文本在可读性方面表现都较差，尤其是 Hemingway Editor 给出的评分普遍较低。

在语义相似性方面，所有大模型生成的文本在语义上与原文保持了较高的相似性，尤其是 Owen 2.5 Max 和 DeepSeek v3 的表现最为一致。

研究表明，Owen 2.5 Max 和 DeepSeek v3 在学术写作任务中表现较好，尤其是在生成详细内容方面。然而，不同模型在不同场景下各有优势，例如 Llama 3.1 8B 在抄袭率和可读性方面表现较好。未来的研究可以进一步探讨如何优化这些模型，以提高生成文本的质量和可读性，并减少 AI 生成的痕迹。

论文作者进一步指出，未来可以从以下几个方面改进生成式人工智能在学术写作中的表现，包括扩展数据集，使用更大规模的数据集评估模型的泛化能力；通过人机协作，探索如何更有效地将 AI 工具与人类用户结合，以提高学术写作的质量；优化模型生成过程，减少 AI 生成的痕迹，使文本更加自然。此外，还需要进一步研究 AI 生成内容的伦理和法律问题（例如版权、引用规则等）。

论文链接：

https://www.researchgate.net/publication/388681921

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.