网易首页 > 网易号 > 正文 申请入驻

加州大学伯克利分校将美国地方法律"解放"出来了

0
分享至


这项由加州大学伯克利分校信息学院领导的研究于2026年6月17日发布于arXiv预印本平台,论文编号为arXiv:2606.19334,研究团队成员分属加州大学伯克利分校信息学院与独立研究机构。

你有没有想过,如果你搬到一座新城市,想知道当地对养狗、开小吃摊、或者深夜放音乐有什么规定,你该去哪里查?可能你会打开政府网站,然后发现那是一个几百页的PDF文件,布满密密麻麻的法律条文,找一个简单问题的答案可能要花上一个下午。现在再把这个问题乘以全美国的城市和县——有超过九千个地方政府——你大概就能感受到这件事有多麻烦了。

这正是这项研究试图解决的核心问题。美国的法律体系分好几个层次,就像一栋楼有地基、一层、二层。联邦法律是地基,各州法律是一层,而地方法规——也就是城市和县政府制定的那些管理日常生活的规则——是离你最近的那一层。这一层的规则管着你家附近能不能开便利店,你租的房子要不要装烟雾报警器,街上的噪音到几点必须停。然而,这一层恰恰是最难被计算机"读懂"的,因为这些法规分散在各种商业平台上,格式五花八门,专门为人用浏览器翻页设计,而不是为计算机批量处理准备的。

研究团队将这个问题比作"解放法律"——法律本来是公共资源,属于每一个公民,但因为格式和访问方式的障碍,它实际上被锁在了一个只有耐心极好的人才能打开的抽屉里。于是,他们建立了LOCUS——全称是"美国地方法规语料库"(Local Ordinance Corpus for the United States)。这个数据集包含来自9239个城市和县的法规文本,经过整理后为美国3144个县中的2309个提供了可检索的覆盖,覆盖了美国大多数人口所在的地区。

一、那些被"锁起来"的公共法律

从乔治城大学法学院的一句话说起,他们曾坦言:"遗憾的是,目前没有任何一个地方能找到全面的市政法规合集。"这句话说出了研究团队面临的现实处境。

地方法规并不是秘密文件,在法律上它们是完全公开的。2020年美国最高法院在"乔治亚州诉Public.Resource.Org公司"一案中明确裁定,法律、法规和法院判决属于公共领域,不受版权保护。换句话说,任何人都有权使用这些内容。但"有权使用"和"能实际使用"之间,隔着一道巨大的技术鸿沟。

各地的法规被托管在不同的商业平台上,每个平台有自己的导航结构、打印流程和文件生成方式。有些法规是扫描的纸质文件,有些是程序动态生成的PDF,有些平台有反爬虫机制,有些则限制一次能下载多少页面。更头疼的是,不同地方可能有完全相同的名字,比如全美国有好几十个叫"Springfield"的城市,很难不搞混。研究团队在构建数据集的过程中遇到了服务器端PDF生成限制、文件名冲突、隐藏的界面阈值、每次爬取必须等待15秒的延迟、反机器人措施,以及一些城市跨越多个县导致行政区划难以对应等一系列具体问题。每一个问题都需要专门设计解决方案,而不是一套通用爬虫就能搞定的。

这一切障碍叠加在一起,使得地方法规虽然在法律上属于公共资源,在实践中却几乎是一座"无法进入的图书馆"——书就摆在那里,但你没有合适的梯子去拿它们。

二、把7百万页PDF变成可以分析的文字

研究团队的工作可以用一个图书馆整理员的故事来理解。假设你继承了一个堆满文件的仓库,这些文件有的是手写的,有的是打印的,有的是复印的,有的是斜着放的,字体大小各不相同,有的还有水印和页眉页脚干扰。你的任务是把所有内容整理成一套统一的、可以快速检索的档案系统。这就是LOCUS团队的核心工作。

整个处理流水线分几个环节。原始数据是超过9000个PDF文件,总计约7百万页,压缩后大约80GB。第一步是让计算机把这些文件中的图像转换成可编辑的文字,这个过程叫做光学字符识别(OCR,就是让计算机"看"图片上的字然后转录出来)。团队使用了一个叫LightOnOCR-2-1B的开源模型,这是一个基于图像理解能力的10亿参数语言模型,专门针对1600万页PDF进行过专项训练,能够处理单栏双栏排版、正式印刷、导出文件以及扫描文件等各种格式,并且会按照自然阅读顺序输出内容。整个OCR流程在一个叫Modal的云计算平台上运行,每处理1000页的成本大约是0.30美元。

OCR之后,文字并不能直接使用,因为每一页都是独立处理的,跨页的段落会被断开,重复出现的页眉页脚和页码会污染正文,表格也可能被分割。所以第二步是"缝合",把断开的段落重新连接,去除反复出现的格式残留,让原本因为换页而被打断的内容重新连贯起来。

第三步是"切割",把整理好的长文本按照法规条目的结构切分成独立的片段。法规文本通常有明确的条目编号和标题,比如"第10-215条:虚报紧急警报",研究团队的系统会识别这些条目边界,把整本法规切成一条一条独立的法规单元,就像把一本字典拆成一张张单独的词条卡片。

三、给每一条法律贴上标签

切分完成后,团队面对的是超过221万个独立法规片段。下一个问题是:这些片段到底在说什么?为了让这个庞大的数据集变得可分析,研究团队设计了一套分类体系。

分类分两个维度。第一个维度叫"功能",也就是这条法规的角色是什么。一条法规可能是在规定禁止事项("规则"类),可能是在描述如何执法("执法"类),可能是在定义某个概念的范围("背景"类),可能是在描述行政流程("程序"类),也可能只是一个标题或目录条目("结构性"类)。第二个维度是"主题",即这条规则管的是什么领域,包括建筑与安全、商业许可、分区规划、扰民行为,以及其他类别。

要给221万条法规打标签,人工是不可能的。研究团队采用了一种"大模型当初级标注员、更强大的模型当质检员"的两级体系。他们首先用OpenAI的GPT-5.4-nano(一个速度快、成本低的版本)对10万条随机抽取的法规进行零样本分类,也就是不给任何例子,直接让模型判断类别。然后,对于那5.5%被判定为最难分类的样本,再用更贵的GPT-5.4模型进行复核。在被复核的约10.9万条预测中,高级模型与初级模型有64977条一致,总体一致率约60%。复核模型的主要倾向是把初级模型判定为"规则"的内容重新归类为"程序"或"执法",但两个模型都毫不犹豫地识别出了结构性内容,这些内容随后被从最终发布的数据集中移除。

有了这10万条人工标注(实际上是GPT标注)的样本,团队训练了三个基于ModernBERT(一种约1亿参数的文本理解模型)的分类器,分别用于判断一条法规是否实质性、属于什么功能类别、属于什么主题类别。这些轻量级分类器可以高效地对剩余的两百多万条法规进行批量打标,不需要为每条都调用昂贵的大模型。训练数据中8万条用于训练,1万条用于调参,最后1万条用于评估。

四、为每个县选一个"代表性法规"

整理完原始数据后,研究团队还做了一个重要的设计决定:为美国每个县选出一个"代表性法规文本",形成一个可以直接按地理位置检索的访问层。

这个选择逻辑并不复杂,却有明确的理由。对于每个县,团队会查看两个候选项:这个县自身的法规文本,以及县内最大城市的法规文本。如果两者都存在,选页数更长的那个。页数长度与法规覆盖范围有一定相关性,也与辖区人口规模有关联。这个策略的结果是,最终的访问层覆盖了代表美国94%人口的县。

从图1中可以看到,东部地区大量使用城市法规(蓝色),而西部和中部则更多使用县级法规(绿色),还有一部分县因为没有收集到数据而没有覆盖(空白)。这幅地图本身就传达了一个信息:美国各地地方政府的权力分配格局并不一致,东北部的城镇和市政府历史上握有更多初级土地使用权,而西部和南部的县政府则更为强势。

研究团队坦承这是一个刻意的简化。这个"代表性法规"并不意味着它就是该县每一个具体法律问题的最终依据——在真实的法律实践中,州法律、县法规、市法规、宪章条款、优先权原则和具体领域的授权规定都可能相互影响,决定哪一条规则最终起效。LOCUS的这个访问层是一个便于检索、比较和研究的基础设施,而不是法律咨询工具。

五、给法规打"性格分":四个评分维度

这项研究的另一个有趣之处,是给每一条法规打了四个方向的分数,相当于给每条法规测了一次"性格"。

这四个维度分别是:执法自由裁量度(这条法规给执法人员留了多少选择空间)、不透明度(普通人理解这条规定的难度有多高)、家长式程度(这条法规是在保护当事人自己不受伤害,还是在保护其他人不受影响)、以及问题显著性(这条法规在语言上把所规范的事情渲染得多严重)。

这四个分数的产生方式颇为巧妙。研究团队没有直接让大模型给每条法规打分,而是让模型做"擂台赛式"的两两比较。对于10000条随机抽取的法规,团队进行了20万次两两对决:从10000条里随机选两条,然后问GPT-5.4-nano:在某个维度上,A和B哪个更突出?模型回答A、B或平局。为了抵消顺序带来的偏差(先看A再看B,和先看B再看A可能有不同判断),每对组合都会以两种顺序分别比较一次。

收集完所有比赛结果后,团队用了一套源自游戏领域的评分系统——TrueSkill(最初由微软研究院为Xbox游戏对战设计),通过贝叶斯统计推断每条法规在某个维度上的潜在"实力分"。这样得到的分数不是直接的数字评分,而是一个基于大量相对比较推断出来的排名体系。

接下来,团队用这10000条法规的TrueSkill分数,训练了四个基于ModernBERT的回归模型(可以预测连续数值的模型),让模型学会从法规文本本身预测分数。在1000条测试数据上,四个模型的皮尔逊相关系数(衡量预测准确度的指标,1.0是完美)分别为:家长式程度0.822、不透明度0.909、执法裁量度0.872、问题显著性0.936。这说明这些轻量级模型相当准确地捕捉到了大模型通过20万次比较建立起来的评分逻辑。

通过这套评分体系,一些有趣的发现浮出水面。以图2中的两个例子为证:巴黎市(位于田纳西州亨利县)的《关于虚报紧急警报》条款得分为执法裁量度+1.10,问题显著性+2.62,但家长式程度仅为+0.17——这条法律措辞强调公众危险,但并不是在保护违法者自己。而梅克伦堡县(弗吉尼亚州)的《未成年人出席限制》条款家长式程度高达+5.48,但问题显著性却接近零——它只是说16岁以下的人去节日必须有成年人陪同,语气平淡但管的是你自己的行为。

六、全国地图揭示的规律

把所有法规的不透明度和家长式程度汇总到地图上,图5展示了一些让人咀嚼的地理规律。

在不透明度上,县级法规整体上比城市法规更难读懂,而佛罗里达州的不透明程度是其他任何州的两倍以上。从地图的颜色深度来看,东部沿海和中西部的部分地区不透明度偏高(红色),而西北部和南部许多地区法律语言相对平易(蓝色)。在家长式程度上,分布更为分散,没有明显的地理集中趋势,但整体偏家长式的区域与偏不透明的区域并不完全重叠——两个维度之间的皮尔逊相关系数仅为0.11,说明它们测量的确实是法律的两个不同侧面。

更有趣的是,家长式程度高的法规往往与"possession"(持有)和"alcoholic"(含酒精)等词汇出现在同一条文中,而不透明度高的法规则更多出现在标题含"definitions"(定义)和"variances"(例外情形)的章节里。用家长式程度的分数来扫描整个数据库,还能方便地找到各地关于未成年人宵禁的法规,从而快速绘制出全美宵禁规定的分布图。

七、这套数据库能用来做什么

LOCUS的价值不仅在于数据本身,更在于它开启了哪些此前不可能的研究方向。

在信息检索层面,它支持对地方法律进行跨地区的文本搜索和问答,即便不同地方对同一事物的称谓可能完全不同。在结构提取层面,它使系统能够从法规文本中提取出被规范的活动、所需许可证、罚款金额、生效日期和交叉引用关系等结构化信息。在推理层面,它为未来的测试任务奠定了基础——测试AI系统能否在多层法律结构中找到正确的管辖层,识别城市与县之间的授权关系,并处理州法规与地方法规之间的冲突。

研究团队还计划把另外7000个额外收集的城市和县文件提供给研究人员,但需要签署数据使用协议(类似医学数据库MIMIC的做法),原因是他们担心这些数据被用来直接"喂给"现有大语言模型作为训练数据,从而在未来评估这些模型是否真正理解地方法律时产生数据污染。这个考量本身就说明了LOCUS数据在AI训练生态中的潜在价值。

从数据揭示的法律结构规律来看,城市法规和县法规在内容上并非可以互换。通观整个数据集,县级法规包含更多分区规划内容,而城市法规更多包含扰民和公共秩序相关规定。这与地方政府的功能分工相吻合:县通常管理土地利用、开发许可和未建设区域,而城市则更多处理密度、邻里关系和日常公共秩序。

此外,当法规按照在法典中的位置顺序排列时,各类主题往往以一种相当稳定的顺序出现:总则和政府架构在前,商业规范居中,扰民和公共秩序规则、分区规划和建筑规范在后。这说明地方法律并非一堆无序的规则集合,而是有着固定结构的文献形式,就像几乎所有菜谱书都会把调味料章节放在主菜章节前面一样。

归根结底,这项研究说明的不只是一个技术问题,而是一个"公开"与"可用"之间的差距问题。地方法律在LOCUS出现之前就是公开的,但它无法被机器系统性地阅读、比较和分析。一旦这个障碍被移除,这些法律就不再只是分散在各处的孤立规则堆,而成为一个有结构、有规律、可以系统研究的法律知识体系。这意味着未来的AI法律助手在帮你查找本地规定时,可能不再需要你自己去翻那本几百页的PDF了。

当然,LOCUS的创建者也坦诚地指出,这个数据集本身还有局限。它为每个县选出的"代表性法规"并不能告诉你在任何具体问题上哪条规定最终起效,要真正回答"我所在的地方这件事到底怎么规定",还需要在州法、县法、市法之间做复杂的层级判断,这是LOCUS未来版本和相关测试基准需要继续推进的方向。

有兴趣深入了解的读者可以通过论文编号arXiv:2606.19334查阅完整原文,数据集则公开发布在HuggingFace平台的LocalLaws/LOCUS-v1页面。

Q&A

Q1:LOCUS数据集包含哪些内容?

A:LOCUS包含来自美国9239个城市和县的地方法规文本,共超过221万个法规片段,涵盖建筑、商业许可、分区规划、扰民行为等主题,并为每条法规提供了功能分类、主题分类以及不透明度、家长式程度、执法裁量度、问题显著性四个维度的评分。

Q2:LOCUS用什么方法处理格式各异的地方法规PDF?

A:团队使用开源OCR模型LightOnOCR-2-1B将PDF页面图像转换为Markdown文本,再通过后处理流程拼接跨页段落、去除页眉页脚等格式残留,最后按照法规条目结构切分为独立片段。整个流程在云平台上运行,每1000页处理成本约0.30美元。

Q3:LOCUS的四个法规评分维度是怎么计算出来的?

A:研究团队对10000条随机法规进行20万次两两比较,让GPT-5.4-nano判断哪条法规在某个维度上更突出,再用TrueSkill贝叶斯评分系统推算每条法规的潜在分数,最终训练ModernBERT模型来预测这些分数,测试集上的皮尔逊相关系数在0.82到0.94之间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
115件俄军装备拆到最后一颗螺丝!乌克兰上线战利品数据库!

115件俄军装备拆到最后一颗螺丝!乌克兰上线战利品数据库!

凛若秋霜
2026-06-26 08:46:37
鸠山由纪夫:高市早苗应立即纠正涉台错误言论并道歉

鸠山由纪夫:高市早苗应立即纠正涉台错误言论并道歉

新华社
2026-06-25 13:52:06
伊朗赢了!美伊谈判落幕,以色列宣布撤军,美国媒体骂声一片

伊朗赢了!美伊谈判落幕,以色列宣布撤军,美国媒体骂声一片

刘拕说体坛
2026-06-24 22:28:53
这两种运动让甘油三酯下降27%,坏胆固醇直降16%!最新权威研究给出“运动处方”

这两种运动让甘油三酯下降27%,坏胆固醇直降16%!最新权威研究给出“运动处方”

新浪财经
2026-06-26 02:26:27
韩红“走个面儿”引发基金会月捐退订潮,为什么?

韩红“走个面儿”引发基金会月捐退订潮,为什么?

南山学脉
2026-06-25 16:13:44
委内瑞拉地震前后对比,两场间隔39秒大地震,破坏真的非常可怕

委内瑞拉地震前后对比,两场间隔39秒大地震,破坏真的非常可怕

三叔的装备空间
2026-06-25 23:28:21
出大事了!网传福耀科大校长王树国论文涉嫌抄袭被举报…

出大事了!网传福耀科大校长王树国论文涉嫌抄袭被举报…

慧翔百科
2026-06-23 08:29:42
女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

另子维爱读史
2026-03-10 22:56:08
北京40岁老板花3000万捡漏四合院,院子墙角莫名渗水,挖开后傻眼

北京40岁老板花3000万捡漏四合院,院子墙角莫名渗水,挖开后傻眼

白云故事
2025-06-17 08:35:23
6月还没过完,杨子家族再传噩耗,求婚真相曝光,被骗了这么多年

6月还没过完,杨子家族再传噩耗,求婚真相曝光,被骗了这么多年

素衣读史
2026-06-26 09:54:28
莫斯科拉响警报!泽连斯基触碰逆鳞,俄军战法大变,连炸两座大桥

莫斯科拉响警报!泽连斯基触碰逆鳞,俄军战法大变,连炸两座大桥

肖兹探秘说
2026-06-25 14:22:26
黄金回到“8”字头!实探金店:柜台被挤爆!请假、刷空卡也要买!有人现场聊起“金价跌到600元……”

黄金回到“8”字头!实探金店:柜台被挤爆!请假、刷空卡也要买!有人现场聊起“金价跌到600元……”

中新经纬
2026-06-25 18:36:04
撑不住了?日本经济界人士接连访华,前首相劝高市:快给中国道歉

撑不住了?日本经济界人士接连访华,前首相劝高市:快给中国道歉

梦想的现实
2026-06-26 09:51:39
当好高级“智囊团”!省委、省政府决定,这一委员会成立

当好高级“智囊团”!省委、省政府决定,这一委员会成立

政知新媒体
2026-06-26 01:13:20
荷兰3-1送突尼斯3连败 头名出线后1/16决赛战摩洛哥 开场7分钟2球

荷兰3-1送突尼斯3连败 头名出线后1/16决赛战摩洛哥 开场7分钟2球

我爱英超
2026-06-26 08:59:08
刘嘉玲最新爆料:梁朝伟,已快不能自理了!

刘嘉玲最新爆料:梁朝伟,已快不能自理了!

港港地
2026-06-25 10:52:59
韩国“黄金一代”濒临绝境,再胜德国完成救赎?

韩国“黄金一代”濒临绝境,再胜德国完成救赎?

何揎室内设计
2026-06-26 08:51:16
为什么今年没人提“消费降级”了?

为什么今年没人提“消费降级”了?

黯泉
2026-05-20 17:47:21
苏格兰出线命悬一线,麦克托米奈女友成看台焦点

苏格兰出线命悬一线,麦克托米奈女友成看台焦点

足球推文C
2026-06-25 19:59:36
陈赫带岳母阿那亚度假,182个头高又壮很惹眼,俩人处得像亲母子

陈赫带岳母阿那亚度假,182个头高又壮很惹眼,俩人处得像亲母子

八怪娱
2026-06-25 15:30:26
2026-06-26 10:35:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8927文章数 565关注度
往期回顾 全部

教育要闻

全国唯一!温州少年拿下高考数学满分,已被清华录取

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

悬在科技头上的达摩克利斯之剑

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

亲子
教育
手机
房产
游戏

亲子要闻

胆囊摘除后出现这五个后遗症

教育要闻

日本留学新趋势:国际学生政策正在“去英语化”?

手机要闻

iPhone18Pro或温和涨价,最贵iPhone来了?

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

《GTA6》优先级拉满!曝大镖客2次世代更新发布暂缓

无障碍浏览 进入关怀版