![]()
作者 | 黄小艺
邮箱 | huangxiaoyi@pingwest.com
扫街榜上线100天,高德决定再往前迈一步。
去年9月,高德扫街榜上线时,做了一个在本地生活行业看起来有些冒险的决定:跳出评分、不卖排名、不计算商家投了多少流——而是看导航数据,用户真正开着车、迈开腿去了哪家店,哪家店就排在前面。
这套“用脚投票”的评价体系,来自于高德二十年积累的时空数据和10亿用户的真实行为。100天后,逻辑被验证了:6.6亿用户、86万新商家入驻、商家订单量增长超过330%,营业额环比增长超270%,这些数字,宣告着高德扫街榜的胜利,也印证了真实自有万钧之力。
但高德显然不打算停在这里。
1月7日,高德扫街榜全新上线的“飞行街景”功能,主打让用户在出发前就能“飞”进店里看一眼。
这不是全景视频,也不是拼接图片,而是高德把自研的世界模型——在国际评测WorldScore中位列第一的前沿AI技术——第一次用到了本地生活场景。用户可以从街道上空俯瞰,一路穿过巷弄,最终穿门入室,看到一家店真实的内部环境。
高德飞行街景产品经理孙冲告诉硅星人,商家只需用手机拍几十秒视频、传几张门头照,就能生成专属飞行街景,并且这项能力将完全免费。
如果说,此前高德扫街榜“用脚投票”,解决的是信任问题——用户相信这份榜单是真的。那么信任之后还有一层不确定性:我信这家店好,但它到底适不适合我?包厢是什么氛围?门口好不好停车?这些藏在评分和评价缝隙里的答案,文字“说不清”,图片会“骗人”,现在飞行街景负责回答你。
对高德来说,飞行街景不是一次简单的功能迭代,它指向的是高德对地图这件事的新理解:从用数据让榜单可信,到用世界模型让真实可感——地图不再是一张静态的平面,而是一个活的、可供探索的数字孪生世界。
以下是我们与高德飞行街景产品经理孙冲的对话:
1
为什么做:从“信不信”到“真不真”
硅星人:扫街榜在2025年用户数量激增,为什么在2026年的升级中,你们选择把“飞行街景”作为一个核心发力点?是看到了用户在决策环节的什么新痛点?
孙冲:这也是我们此次升级的核心思考。之前扫街榜达到7000万日活,验证了一件事:当榜单回归真实,用“身体力行”的数据说话时,用户是愿意相信的。
但我们发现,用户的决策链条上,还存在“最后一公里”的鸿沟。当榜单告诉他这家店“值得去”之后,他还会有更具体、更感性的问题:“门头好找吗?”、“周边环境怎么样?”、“网上的图片是真的吗?”……这些是图文评价无法完全填补的真实感的缺失。
所以,扫街榜2026的发力点,从解决“信不信”的问题,升级到了解决“真不真”的问题。“飞行街景”不是一个炫技的功能,而是我们为用户搭建的一座桥梁,跨越从线上信息到线下体验之间的巨大鸿沟。
当用户能像一只鸟一样,从城市的街道,平滑地飞到一条巷子,再“穿墙”进入一家店的内部,亲眼“看”到它的环境和氛围时,那种决策的笃定感,是任何文字或图片都无法给予的。我们不是在给榜单增加一个功能,而是在重构用户与物理世界之间的“连接介质”。
硅星人:为什么要强调“沉浸式俯瞰”?这种视角的改变,对于用户判断一家店“好不好吃”、“值不值得去”有什么帮助?
孙冲:“沉浸式俯瞰”这个视角,是我们有意为之的设计,它改变了用户感知一个“地点”(POI)的方式。
过去,地图上的一个点,是孤立的,它与周边的世界是割裂的。但现实中,一家餐厅的价值,并不仅仅在于它本身,还在于它所处的“场域”——它是在一个安静的胡同里,还是在喧闹的商业街?旁边有没有停车场?晚上的街区氛围是否安全?
“俯瞰”视角,给用户提供了这种宝贵的宏观上下文。它让用户能够更直观的看到店铺与周围环境的真实关系,这是做“去不去”这个决策时非常重要的依据。而“沉浸式”,则解决了微观的真实感。当你从俯瞰无缝切换到街景,再进入室内,你看到的不再是经过商家精心挑选和美化的“卖家秀”,而是一个连续、无死角的“事实场”。
所以,这个视角改变,不是直接告诉用户“好不好吃”,扫街榜1.0已经用数据回答了这个问题。它是用一种超越图文的方式,帮助用户判断“值不值得我为它跑一趟”。它把决策从“阅读信息”,变成了“预演体验”。
硅星人: “飞行街景”这个名字听起来很有未来感。在产品定义阶段,你们是如何构想这种体验的?从决定做,到具体做的过程中,产品是如何梳理出来的?
孙冲:“飞行街景”并不是空中的飞行地图,这个名字背后,是我们对未来地图形态的构想。我们认为,未来的地图,不应该再是一张平面的、被动的,而应该是一个活的、可供探索的动态数字孪生世界。
构想的起点很简单:我们如何能让用户在出发前,就拥有“亲临其境”的感受?我们梳理了用户的决策路径,发现痛点非常清晰:从宏观的城市区域,到中观的街道环境,再到微观的店铺内部,用户的视线是不断聚焦的。所以我们的产品逻辑,也必须遵循这种由远及近、由外及内的自然探索逻辑。
“飞行”这个词,精准地描述了这种体验——它不是生硬的场景切换,而是一种连续、流畅、视角自由的探索。你可以像导演运镜一样,从高空视角,丝滑地降落到一条你感兴趣的街道,然后像一个熟客一样,推门而入。
这个过程,我们内部称之为“从描绘世界到理解世界”。高德过去花了二十年,用数据把物理世界“画”了下来;现在,我们要用AI,让每个人都能在这个数字世界里“飞翔”和“行走”。
硅星人:在项目推进时,技术是不是最大的挑战?
孙冲:很多人会认为技术是最大的挑战,毕竟构建一个如此规模的数字孪生世界,听起来像是科幻电影里的情节。但说实话,对高德而言,技术反而不是最难的部分。我们二十年来沉淀的,关于物理世界如何运转的动态认知,以及我们基于此构建的“空间智能”能力,是我们的护城河,也是我们敢于闯入这片“无人区”的底气。
我们遇到的最大挑战,其实来自于生态和认知。如何让数以百万计的商家,尤其是那些不擅长互联网运营的“烟火小店”,理解并拥抱这种全新的展示方式?
项目初期,我们接触一些商家,提出要为他们免费打造“飞行街景”时,很多人第一反应是拒绝和怀疑:“这么高科技的东西,怎么可能不收费?”“你们是不是想骗我们拍视频?”。这种不信任,就是我们需要攻克的最大难点。
直到我们真正为他们免费生成了可以身临其境的“实景店铺”,让他们亲眼看到自己的小店如何被真实、立体地呈在用户面前,他们才真正接受。这个过程让我们下定决心,必须用“免费”和“普惠”的方式,把这项技术能力开放给所有商家。最大的挑战不是技术本身,而是如何用技术去赋能、去改变一个生态的认知,让大家相信,科技的进步最终是为了让好的商家,无论大小,都能被公平地“看见”。
1
怎么做:如何用世界模型还原真实?
硅星人: 高德世界模型在WorldScore评测中拿了第一。具体到“飞行街景”,这个模型是如何工作的?
孙冲:可以把“高德世界模型“想象成一个AI,它学习的不是互联网上的文本和图片,而是物理世界的运转法则。它拿了第一,说明它在“理解和还原物理世界”这件事上,做到了业界领先。
在“飞行街景”里,它的工作方式可以概括为两步:“跨模态统一理解”和“几何一致性生成”。
第一步是理解。它能同时“看懂”各种不同来源的数据——街景车拍的图像、遥感影像图、视频、甚至用户上传的照片等。它不是简单地把这些素材拼起来,而是像人脑一样,把这些碎片化的信息,融合成一个对世界统一的、内在的认知。
第二步是还原。基于这个统一的认知,它开始“生成”世界。最关键的是“几何一致性”,这意味着它生成的视频和空间结构,天然共享同一套几何基础,构建一个结构上与现实世界完全一致的数字孪生体。
准确性如何保证?就来自于这种“忠于现实”的生成机制。它不是凭空想象,它的每一步生成,都有来自真实世界的多维度数据作为“事实基座”。所以我们称之为“事实的AI”,它的使命就是绝对忠于现实。
硅星人:传统的3D建模成本极高,很难规模化。高德是如何利用AI技术解决“规模化”与“精细度”这对矛盾的?我们在飞行街景看到的图像,有多少比例是AI生成的?
孙冲:您点出了行业里一个存在已久的“三角难题”。传统的3D建模像“手工作坊”,精美但昂贵,无法规模化。而高德的解法,是把这个过程变成了“AI驱动的智能工业化生产”。
我们解决这对矛盾的核心,就是极大地降低了数据采集的门槛,同时极大地提升了自动化生成的能力。过去,要建一个店的模,可能需要专业的设备和团队工作数天。现在,一个商家,只需要用手机拍一段几十秒的视频,再上传几张补充照片,我们的世界模型就能在后台自动完成从几何提取、纹理贴合到还原的全过程,最快几小时内就能生成一个可供“飞行”的实景店铺。
至于AI生成的比例,可以说,我们看到的整个连续、动态的场景,几乎100%都是由AI引擎实时渲染和生成的。但需要强调的是,这个生成过程,是严格受到商家提供的真实视频和照片这些“事实”约束的。AI在这里扮演的角色,不是一个自由创作的“画家”,而是一个技艺高超的“修复师”和“建筑师”,“事实AI”它是把真实世界的碎片,在数字空间里完美地还原起来。
硅星人:但世界是在实时变化的。你们怎么处理“静态建筑”与“动态信息”呢?比如一家店换了招牌,或者门口排起了长队,飞行街景能多快地映射出这种变化?
孙冲:我们的解法,是构建一个“动静结合”的“活地图”。
“静态”的部分,是城市的骨架,比如建筑、道路。这是我们通过街景车等重投入,构建起来的稳定底座。 “动态”的部分,则是城市鲜活的血肉,比如一家店新换的招牌、门口排队的人流、季节性的装饰。
处理这种融合,我们依赖一个强大的“变化感知与反馈飞轮”。这个飞轮由几部分驱动:首先是我们的高频数据,比如用户导航到某地后的大量“位置偏了”、“此路不通”的纠错反馈,这能帮我们发现大的变化。其次是海量的用户UGC内容,一个用户上传了带新招牌的照片,或者在评论里提到“排队2小时”,这些都会成为我们系统捕捉变化的信号。
一旦系统捕捉到“变化”的信号,就会触发更新机制。一家店换招牌,商家可以自己上传新视频快速更新;门口排队的情况,未来甚至可以结合实时交通热力、用户实时上传的笔记等信息,进行准实时的映射。
我们的目标不是实现绝对意义上的“零延迟”同步,而是建立一个与现实世界变化频率相匹配的、高效的迭代机制,确保用户看到的,是无限接近于“当下”的真实。
硅星人:在飞行街景中,AI除了负责渲染画面,后续是否还能配合对场景的理解?比如,AI能不能自动识别出这是一家“适合露营风”的咖啡馆?
孙冲:当然能,而且这正是空间智能从“看见世界”迈向“理解世界”的关键一步。渲染画面,只是我们空间智能的第一层能力,即“感知与还原”。
第二层能力,就是您提到的“认知与推理”。这也是我们为什么要自研世界模型的原因,如果缺少了世界模型这一“大脑”,空间智能也将变得不完整。
当我们的AI已经把物理世界高保真地还原出来之后,它就可以像人一样,去“看”和“理解”这个场景。它完全可以识别出场景里的元素——原木桌、帐篷、露营椅、绿植,然后给这家咖啡馆打上“露营风”的标签。
这会带来什么?它将彻底改变搜索和推荐的范式。未来,你的搜索将不再是“咖啡馆”,而是“找一个下午能晒到太阳的、安静的、适合带宠物一起去的露营风咖啡馆”。我们的AI会基于对空间场景的深度理解,为你精准地找到这样的地方。AI在这里,从一个“建筑师”,进化成了一个懂生活、懂你的“场景规划师”。
1
让“会做菜的”赢过“会拍照的”
硅星人:除了让用户看着爽,飞行街景是否带来了一种全新的“预消费”行为方式,比如出发前先云逛街?这给商家带来了哪些提升?
孙冲:“预消费”这个词非常准确。飞行街景带来的,正是一种全新的“所见即所得”的决策模式。用户不再是“读攻略”,而是“云勘景”。这种行为变化,对商家的价值是实实在在的:
第一,提升决策效率和到店转化率。当用户能身临其境地看到店铺环境、找到停车位、甚至提前看好心仪的包厢时,他的不确定性被降到了最低。这种确定性,会极大地促进他从“有兴趣”到“马上出发”的转化。
第二,降低期望错配和差评率。很多差评,并非源于服务不好,而是“图文不符”导致的期望落差。飞行街景用最真实的方式展示了自己,吸引来的,就是真正认同其环境和风格的顾客,这从源头上就过滤掉了期望错配的可能。
第三,让特色商家有了全新的表达。一家店的价值,可能是窗外的一片湖景,可能是别有洞天的庭院。这些“氛围价值”在传统图文中很难表达。飞行街景让这些独特真实的优势,第一次直观、完整地传递给用户。
硅星人:现在的用户很怕“照骗”,很多网红店照片精美但实地很糟。高德的“飞行街景”不会遇到“美化”的诱惑吗?
孙冲:这个问题问到了我们的生命线。扫街榜的根基就是“可信”,而飞行街景的使命就是“真实”。 我们对抗“美化”诱惑的方式,不是靠人的意志,而是靠技术的机制。
我们的世界模型,本质是一个“事实”引擎,而非一个“美颜”引擎。它生成和还原场景的依据,是商家上传的连续视频和多角度照片,必须使用高德提供的商家工具(有商家认证校准、位置校准、以及实时无滤镜川叔)。这种多维度的、动态的数据源,本身就极大地限制了“P图”和“美化”的空间。
更重要的是,我们的算法在设计上,会优先保证“几何一致性”和“结构真实性”,而不是“光影完美性”。我们追求的不是一张完美的宣传照,而是一个可信的、可供探索的空间。
可以说,我们的产品基因决定了,我们永远会站在“真实”这一边。因为一旦我们允许“美化”和“滤镜”,飞行街景就失去了它存在的根本价值,又变回了用户不信任的“照骗”。守护真实,就是守护我们自己。
硅星人:但是一些土菜馆门面并不好看。实景展示会不会反而暴露它们的“土”?
孙冲:这恰恰是飞行街景的魅力所在。我们相信,“真实”本身就拥有最强大的力量。
在传统的图文平台,“豪华”和“精美”往往更容易获得流量,这对于那些味道极好但环境朴实的“宝藏小店”是非常不公平的。而飞行街景,恰恰给了这些小店一个“说真话”的机会。
当用户通过飞行街景,看到“径乡缘”朴素的门头、简单的桌椅,但同时也能看到后厨忙碌的热气、食客们满足的表情,他感受到的不是“土”,而是扑面而来的“锅气”和“烟火气”。这种真实的氛围,本身就是一种极具吸引力的“卖点”。
我们的产品设计,不会去刻意美化或丑化,而是致力于“还原场景的叙事感”。让用户自己去感受,是相信一张过度修饰的网红照片,还是相信一个充满真实生活气息的场景。我们坚信,用户会做出聪明的选择。飞行街景,就是要把话语权,从“会拍照的”手里,还给“会做菜的”。
硅星人:某种程度来说,这是在帮不擅长互联网运营的老店,更公平获得流量。
孙冲:对。这绝对是一种“技术减负”,甚至可以说是一种“技术平权”。
过去,商家在本地生活平台的竞争,在某种程度上变成了营销内卷——谁更会拍图、修图、写文案,谁就更容易出头。这对于大量不擅长互联网营销的实体商家来说,门槛很高,成本也很高。
高德的做法,是把复杂的技术问题留给自己,把最简单的操作留给商家。我们不要求商家成为摄影师或设计师,他只需要做他最熟悉的事——用手机,像给朋友拍视频一样,把自己的店真实地拍下来。剩下的,从空间还原到线上展示的所有复杂工作,都由我们的云端自动完成。
我们用技术,抹平了商家在“线上表达能力”上的差距。让竞争回归本质——你的店好不好,你的环境真不真。这不仅是减负,更是让商家能把更多精力,放回到经营本身。
硅星人:用户在飞行街景中的浏览、点击和互动,会产生新的数据维度吗?会带来哪些新的影响?
孙冲:会的,这会形成一个价值巨大的“正向飞轮”。用户的每一次“停留”、每一次对某个包厢的“放大查看”,都是一种新的“身体力行”的数据。这是一种比“点击”和“收藏”维度更高、意图更明确的行为数据。
这些数据会从两个方面反哺我们的系统:
第一是,反哺扫街榜。我们可以知道哪些店铺的“真实环境”吸引了更多的用户“云探店”,哪些区域是用户在“云逛街”时的热门路线。这些都可以成为榜单排名和推荐的新因子,让榜单不光知道哪里“人气高”,还知道哪里“环境好”,推荐的维度会更丰富、更立体。
第二是,反哺世界模型。用户的互动行为,是我们验证和优化世界模型的最佳标尺。比如,大量用户在某个位置反复“迷路”,或者“穿模”,系统就能知道这个区域的还原可能存在问题,从而触发模型的迭代和优化。用户的每一次使用,都在帮助我们把这个数字孪生世界“打磨”得更真实。
硅星人:2023年,高德推出了基于3DGPT的奇境MAX,飞行街景的产品更新得益于高德的哪些数据、技术、产品经验的积累?
孙冲:飞行街景不是一个从0到1的突发奇想,它是高德在空间智能领域长期主义投入的必然结果。您提到的奇境MAX,就是我们在这个方向上重要的探索和积累。
我们的积累主要在三个层面:
一方面是数据基座。过去二十年,我们沉淀了全世界最稀缺、最庞大的时空数据。这些关于人、车、路、店在物理世界中如何运转的动态认知,是任何大模型都渴望,但无法速成的“事实土壤”。这是我们一切空间智能创新的起点。
其次是技术演进。从奇境MAX到今天的世界模型,我们在持续进化。我们在“跨模态理解”、“几何一致性生成”等核心技术上不断取得突破,使得还原世界的规模、细节和效率都实现了数量级的提升。
最后是产品认知。我们通过一次次的产品迭代,深刻地理解了用户在真实空间探索中的核心需求和痛点是什么。我们知道用户要的不是一个技术Demo,而是一个能解决实际问题的、流畅自然的体验。这些产品经验,指导我们把复杂的技术,封装成“飞行街景”这样简单、好用的产品。
可以说,飞行街景,是高德二十年数据积累、持续技术攻坚和深刻产品洞察三者融合的产物。
![]()
点个“爱心”,再走 吧
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.