网易首页 > 网易号 > 正文 申请入驻

探索全球贸易密码:斯坦福团队如何教会AI破解神秘的商品分类编码

0
分享至


这项由Flexify.AI公司的Pritish Yuvraj和Siva Devarakonda领导的研究发表于2025年9月,论文编号为arXiv:2509.18400v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在全球贸易的庞大机器中,隐藏着一套极其复杂但又至关重要的密码系统。每当你在网上购买来自海外的商品时,无论是一件T恤、一台电脑还是一包咖啡豆,这些商品都必须被分配一个特殊的十位数字编码,就像每个人都有身份证号码一样。这套编码系统被称为协调关税表编码,简称HTS编码。

这套编码系统就像一本超级复杂的商品字典,收录了世界上几乎所有可以想象得到的商品。从最基础的农产品到最先进的半导体芯片,每一种商品都有其专属的数字身份。然而,这本"字典"厚达17000多页,即使是经验丰富的贸易专家也经常被其复杂性所困扰。

当商品分类出现错误时,后果往往十分严重。想象一下,如果你寄给美国朋友的礼物因为编码错误而被海关扣留,或者一批价值数百万美元的工业设备因为分类问题而无法通关。这并非危言耸听,而是经常发生的现实。2025年,包括德国、印度在内的超过30个国家的邮政服务暂停了向美国的包裹寄送,原因就是无法准确分配这些神秘的HTS编码。

研究团队意识到,如果能够训练人工智能来理解和掌握这套复杂的编码系统,就能极大地缓解全球贸易中的这一关键瓶颈。他们开发了一个名为ATLAS的AI模型,这个模型基于LLaMA-3.3-70B架构,专门用于解决HTS编码分类问题。

整个研究过程就像训练一位超级海关专家。研究团队首先从美国海关裁决在线搜索系统中收集了18731个真实的贸易争议案例。这些案例就像是海关专家们多年来积累的经验总结,每一个案例都详细记录了某种商品应该被分配什么样的编码,以及做出这种判断的理由。

在数据收集阶段,研究团队开发了一个自动化的网络爬虫程序,就像派遣一个不知疲倦的研究助手去翻阅所有的海关档案。这个程序系统性地扫描了海关裁决系统中的每一份文档,将原本散落在数千个网页中的信息整理成了一个结构化的数据库。经过筛选和清理后,最终的数据集涵盖了2992种不同的HTS编码,跨越了从农业产品到高科技设备的广泛商品类别。

为了让AI能够理解这些复杂的法律文档,研究团队需要将原始的海关裁决书转换成机器学习可以处理的格式。这些裁决书通常是冗长的官方信函,充满了法律术语和技术细节。研究团队使用GPT-4o-mini模型来完成这一转换工作,就像雇佣一位翻译将艰深的法律文档改写成清晰的指导手册。

每个原始案例都被重新组织成一个标准的问答格式。输入部分包含了商品的详细描述,输出部分则包含正确的HTS编码以及详细的推理过程。这种格式确保AI模型不仅要学会给出正确答案,还要能够解释其推理逻辑,就像一位合格的海关专家需要为自己的判断提供充分理由一样。

研究团队将收集到的数据分成了三个部分:18254个案例用于训练模型,200个案例用于验证模型性能,另外200个案例作为最终测试集。这种分割方式确保了模型评估的公正性,避免了"考试作弊"的情况。

在模型训练方面,研究团队选择了LLaMA-3.3-70B作为基础架构。这个选择主要基于两个考虑:首先是预算限制,训练多个大型模型需要巨大的计算资源投入;其次,相比于专家混合模型,密集架构更容易部署和维护,降低了后续研究者的技术门槛。

训练过程采用了监督微调方法,这就像是让一位有基础知识的学生专门学习海关分类这门特殊技能。模型需要根据输入的商品描述,预测正确的HTS编码并提供推理过程。训练使用了AdamW优化器,学习率设定为0.0000001,训练进行了5个周期,大约1400个训练步骤。

为了应对70亿参数模型的巨大内存需求,研究团队使用了16张A100-80GB显卡进行分布式训练,采用了bf16精度和梯度累积技术来模拟64个序列的批处理大小。训练损失曲线显示,模型在前200个步骤中快速改进,随后趋于稳定,没有出现过拟合现象。

在评估阶段,研究团队设计了一个层次化的评估体系来全面衡量模型性能。由于HTS编码具有层次结构的特点,前6位数字在全球范围内是统一的,而后4位数字是各国特有的扩展,因此评估也相应地分为不同层次。

完全正确分类要求所有10位数字都精确匹配,这意味着模型输出的编码可以直接用于美国海关通关。部分正确分类要求前6位数字匹配,这反映了模型对全球标准化部分的掌握程度。此外,还计算了平均数字级别准确率,即预测正确的数字位数的平均值,这能够捕捉到细粒度的改进。

ATLAS模型在测试集上的表现令人印象深刻。在完全正确分类方面,ATLAS达到了40%的准确率,这意味着200个测试样本中有80个获得了完全正确的10位编码。相比之下,GPT-5-Thinking的准确率为25%,Gemini-2.5-Pro-Thinking仅为13.5%,其他开源模型的表现更是不超过3%。

在部分正确分类方面,ATLAS达到了57.5%的准确率,略高于GPT-5-Thinking的55.5%,但明显优于其他所有模型。这表明ATLAS不仅在美国特定的分类上表现优异,在全球通用的分类标准上也有良好的泛化能力。

在平均数字级别准确率方面,ATLAS达到了6.3位正确,这意味着即使在无法完全正确分类的情况下,模型仍能提供有价值的部分信息。相比之下,GPT-5-Thinking为5.61位,其他模型普遍在3位左右。

除了准确性优势,ATLAS在成本效率方面也表现出色。使用闭源API模型如GPT-5-Thinking和Gemini-2.5-Pro-Thinking进行大规模分类会产生巨大的成本,特别是当需要处理数千个分类任务时。研究团队计算了分类1000个产品描述的成本,假设标准上下文长度约为1000个输入token和200个输出token。

GPT-5-Thinking的成本约为3.30美元,Gemini-2.5-Pro-Thinking约为5.50美元,而ATLAS通过自托管方式的成本仅约为0.70美元。这意味着ATLAS比GPT-5便宜近5倍,比Gemini-2.5-Pro便宜近8倍。这种成本优势在大规模商业应用中尤为重要。

更重要的是,ATLAS支持私有部署,这对于涉及敏感贸易数据的高风险行业至关重要。汽车、工业、半导体等行业的公司往往不愿意将其产品信息发送到第三方API,而自托管的ATLAS可以确保数据永远不离开安全环境。

研究团队也诚实地指出了当前工作的局限性。尽管ATLAS在现有模型中表现最佳,但40%的10位准确率仍然意味着有很大的改进空间。这个基准测试的设立本身就表明了HTS分类是一个极具挑战性的任务,需要更多的研究投入。

为了推动这一领域的发展,研究团队将数据集和模型都开源发布在Hugging Face平台上。这种开放态度有助于建立一个研究社区,共同解决这一重要的全球贸易问题。研究团队希望未来的工作能够在检索增强、推理优化和对齐方法等方向上取得突破。

检索增强是一个特别有前景的方向。考虑到HTS文档本身长达17000页,如果能够将相关的分类规则和案例实时检索出来作为模型的参考,可能会显著提高分类准确性。这就像给AI配备一个随时可查阅的专业图书馆。

对比学习也值得探索,特别是针对那些容易混淆的相似类别。例如,如何区分部分制造的半导体晶圆和完全制造的半导体芯片,这种细微差别往往决定了完全不同的关税税率。通过对比学习,模型可能会更好地掌握这些关键的决策边界。

直接偏好优化是另一个有趣的方向。目前的训练只是简单地模仿人类专家的分类决策,但如果能够让模型学会偏好正确的分类而主动避免错误的分类,可能会进一步提高性能。这需要构建结构化的偏好数据,比如正确的10位编码应该优于接近但错误的编码。

当我们放眼全球贸易的大图景时,ATLAS的意义就显得更加重要。每年有数万亿美元的商品在全球流通,而HTS分类是这个庞大系统的基础设施之一。分类错误不仅会导致通关延误,还可能引发贸易争端和供应链中断。

随着全球贸易规则的不断变化和新产品的持续涌现,对准确、高效的自动化分类系统的需求只会越来越大。ATLAS虽然只是这个方向上的第一步,但它证明了AI技术在解决复杂监管问题方面的潜力。

这项研究的发布时机也颇为重要。在当前全球贸易面临诸多挑战的背景下,任何能够简化和自动化贸易流程的技术都具有重要价值。特别是对于中小企业而言,昂贵的贸易咨询服务往往是难以承受的负担,而像ATLAS这样的开源工具可能会大大降低参与全球贸易的门槛。

从技术角度来看,这项研究也为领域特定的大语言模型应用提供了有价值的案例研究。它展示了如何将通用的预训练模型适应到特定的专业任务上,以及如何构建适合的数据集和评估体系。这些经验对于其他希望将AI应用到特定监管或合规领域的研究者和从业者都有参考价值。

尽管ATLAS取得了显著的性能提升,但研究团队也提到了几个值得进一步探索的方向。模型规模的研究是其中之一,评估更小的LLaMA变体可以帮助理解准确性、成本和可部署性之间的权衡。这对于资源有限的组织或边缘设备部署场景特别重要。

另一个有趣的方向是多语言扩展。虽然当前的研究集中在美国的HTS系统上,但其他国家也有类似的分类需求。如果能够扩展到支持多种语言和多个国家的分类系统,ATLAS的影响力将会更加广泛。

说到底,这项研究解决的是一个看似技术性但实际上关系到每个人日常生活的问题。当你在网上购买进口商品时,当企业向海外拓展市场时,当各国政府制定贸易政策时,准确的商品分类都是不可或缺的基础。ATLAS虽然还不完美,但它开创了一个新的研究方向,展示了AI技术在解决现实世界复杂问题方面的巨大潜力。

归根结底,这项研究的真正价值不仅在于它所取得的技术突破,更在于它为解决全球贸易中的一个关键痛点提供了新的思路。随着更多研究者加入这一领域,随着技术的不断改进,我们有理由相信,未来的全球贸易将会变得更加顺畅和高效。有兴趣深入了解这项开创性研究的读者,可以通过论文编号arXiv:2509.18400v1查阅完整的技术细节和实验结果。

Q&A

Q1:ATLAS模型是什么?它能解决什么问题?

A:ATLAS是由Flexify.AI开发的专门用于HTS关税编码分类的AI模型,基于LLaMA-3.3-70B架构。它能够自动为进出口商品分配正确的10位HTS编码,解决了全球贸易中商品分类困难、容易出错的关键问题。目前ATLAS在完全正确分类上达到40%准确率,比GPT-5高出15个百分点。

Q2:HTS编码分类为什么这么重要?分类错误会有什么后果?

A:HTS编码就像商品的身份证,每个进出口商品都必须有正确的10位编码才能通关。分类错误会导致货物被海关扣留、通关延误,甚至引发贸易争端。2025年就有超过30个国家因为无法准确分配HTS编码而暂停了向美国的邮政服务,影响了全球贸易流通。

Q3:ATLAS相比其他AI模型有什么优势?普通企业能使用吗?

A:ATLAS不仅准确率更高,成本也更低廉,比GPT-5便宜近5倍。更重要的是它支持私有部署,企业可以自己托管而不用担心敏感贸易数据泄露。研究团队已经将模型开源发布,这意味着企业可以免费获取并根据自己的需求进行定制化部署。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国管控20家日本实体后,日本什么反应?

我国管控20家日本实体后,日本什么反应?

天真无牙
2026-02-24 20:45:46
雨水成为常客,广东局部将有暴雨

雨水成为常客,广东局部将有暴雨

新快报新闻
2026-02-24 19:47:14
17岁高中生肝癌晚期,从不喝酒,医生询问后明白:常拿1物当夜宵

17岁高中生肝癌晚期,从不喝酒,医生询问后明白:常拿1物当夜宵

九哥聊军事
2026-02-08 22:40:30
A股:刚刚,大消息传来,释放一信号,明天将迎来大级别的行情!

A股:刚刚,大消息传来,释放一信号,明天将迎来大级别的行情!

云鹏叙事
2026-02-25 00:00:10
理发店爆发生存危机!没被电商围剿却纷纷倒闭,背后的水有多深?

理发店爆发生存危机!没被电商围剿却纷纷倒闭,背后的水有多深?

就像当初啊
2026-02-24 15:41:26
中戏的招生丑闻,彻底震惊了整个艺术圈!

中戏的招生丑闻,彻底震惊了整个艺术圈!

南权先生
2026-02-24 15:52:36
两性关系:65-75岁夫妻必看,真正惜命的是守住这7条底线!

两性关系:65-75岁夫妻必看,真正惜命的是守住这7条底线!

新时代的两性情感
2026-02-24 04:05:41
鲁豫霸气回应“每天只吃三粒米”谣言:老娘吃多少米你根本不知道

鲁豫霸气回应“每天只吃三粒米”谣言:老娘吃多少米你根本不知道

上观新闻
2026-02-24 15:49:49
42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

削桐作琴
2026-02-23 22:00:18
见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

现代小青青慕慕
2026-01-12 16:43:32
正月初九“天日”,提醒:初九3不吃,福气不进门,别忘提前准备

正月初九“天日”,提醒:初九3不吃,福气不进门,别忘提前准备

简食记工作号
2026-02-24 00:04:52
篮协即将换届,王治郅或成新掌门人?答案早已明确,姚明无可奈何

篮协即将换届,王治郅或成新掌门人?答案早已明确,姚明无可奈何

萌兰聊个球
2026-02-24 15:23:54
安徽省纪委监委通报:戴勇被查!

安徽省纪委监委通报:戴勇被查!

凤凰网安徽
2026-02-24 16:53:31
天天喝一杯,除了上瘾还会让你焦虑和抑郁,爱喝的人要避免了

天天喝一杯,除了上瘾还会让你焦虑和抑郁,爱喝的人要避免了

爆炸营养彭鑫蕊
2026-02-24 16:42:48
《镖人》五位美女颜值,都貌若天仙不分伯仲,但陈丽君排名无争议

《镖人》五位美女颜值,都貌若天仙不分伯仲,但陈丽君排名无争议

芬霏剧时光
2026-02-24 19:08:30
长和港口被全部没收,巴拿马终于下定决心,中美航运博弈拉开序幕

长和港口被全部没收,巴拿马终于下定决心,中美航运博弈拉开序幕

亿通电子游戏
2026-02-24 19:58:15
消息一出,日本军工圈彻底傻眼!中国这次精准掐住了它的军工命脉

消息一出,日本军工圈彻底傻眼!中国这次精准掐住了它的军工命脉

霁寒飘雪
2026-02-24 19:30:32
队报:姆巴佩中途退出皇马周二的训练,出战本菲卡存疑

队报:姆巴佩中途退出皇马周二的训练,出战本菲卡存疑

懂球帝
2026-02-25 03:23:03
G5京昆高速古家山隧道货车自燃,隧道现处于管制状态;亲历者:大家满脸是灰,来不及穿鞋穿外套,逃出隧道后听到爆炸声

G5京昆高速古家山隧道货车自燃,隧道现处于管制状态;亲历者:大家满脸是灰,来不及穿鞋穿外套,逃出隧道后听到爆炸声

大风新闻
2026-02-23 20:28:03
权志龙再三挑衅中国春节,女星邓家佳跟风,被网友骂后删博了事

权志龙再三挑衅中国春节,女星邓家佳跟风,被网友骂后删博了事

钱小刀娱乐
2026-02-22 21:54:09
2026-02-25 04:07:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7309文章数 551关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

游戏
教育
家居
旅游
公开课

LOL传奇选手公布恋情!发博晒照被夸夫妻相,女方身份曝光

教育要闻

马马马上上岸!!!TTS《大吉大利复试手册》+复试班:纸质笔记与1v1模拟面试堂堂上线!!

家居要闻

本真栖居 爱暖伴流年

旅游要闻

避寒+冰雪双爆!5.96亿人出游,解锁新春新玩法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版