网易首页 > 网易号 > 正文 申请入驻

字节与北交大联手:让视觉AI开口"说话",刷新多模态理解新纪录

0
分享至

来源:市场资讯

(来源:科技行者)


这项由字节跳动与北京交通大学、南洋理工大学联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.00809,感兴趣的读者可通过该编号在arXiv平台查阅完整内容。

**一、从"哑巴"到"会说话":一个关于AI视觉理解的故事**

假设你雇了一位助手,每天帮你看图片、回答问题。这位助手有两种培训方式:第一种,让他把看到的图片和对应的文字描述配对记忆,学会"这张图和这段话是一对";第二种,直接让他看图之后,张口把图里的内容说出来。哪种方式培养出来的助手,更容易被你后续的语言指令所理解?

这个问题,正是人工智能研究者近年来一直在思考的核心难题。现代的多模态大语言模型(也就是那种既能看图又能聊天的AI,比如GPT-4V这类产品)通常由三部分组成:一个负责"看"的视觉编码器、一个负责"翻译"的连接器、以及一个负责"想和说"的大语言模型。其中,视觉编码器就像AI的眼睛,它的好坏直接决定了整个系统能理解多少视觉信息。

长期以来,最流行的视觉编码器训练方式是"对比学习",以CLIP和SigLIP为代表。这种方式的核心思路是:给AI看大量的图片和对应文字,让它学会判断哪张图和哪段话是一对,哪张图和哪段话不是一对,就像做连连看。这种方法固然有效,但它本质上训练的是一种"判断配对"的能力,而不是"生成描述"的能力。问题在于,当这个视觉编码器被接入一个需要"逐字生成回答"的大语言模型时,两者的工作方式存在根本性的错位——就像你请了一位擅长做选择题的秘书,却让他去写议论文。

另一种思路是"生成式预训练",比如AIMv2和CapPa等方法。这类方法让视觉编码器和一个文字生成模块配合,学习根据图片生成描述。虽然方向对了,但这些方案的架构设计普遍比较复杂:视觉编码器本身并不直接"说话",而是把信息传给一个单独的文字解码器,再由解码器来生成文字。视觉编码器的训练信号要经过这个中间人才能传回来,就像你想训练厨师的刀工,却只通过品尝最终菜肴的口味来给反馈,中间隔了太多环节。

正是在这个背景下,字节跳动和北京交通大学的研究团队提出了GenLIP(Generative Language-Image Pre-training,生成式语言-图像预训练)。他们的核心主张极其简洁:**让视觉Transformer直接开口说话**,不需要对比配对,不需要额外的文字解码器,就用一个统一的Transformer,看完图直接生成描述文字。这个看似朴素的想法,却在多个评测基准上击败了使用数倍训练数据的竞争对手。

**二、GenLIP到底是怎么运作的?**

要理解GenLIP的工作原理,可以用一个"看图作文"的比喻来理解整个训练过程。

在传统的对比学习方法里,AI的任务是做连连看:给一堆图片和一堆句子,把正确的图文对连起来,把不匹配的分开。这培养了AI识别"图和文是否一致"的能力,但不直接培养"根据图写出文字"的能力。

GenLIP的训练任务则直接变成了看图作文:给AI看一张图,然后让它一个字一个字地把图的描述写出来。训练时用的数据是大量的图片-文字配对,文字来自对图片的详细描述。AI的目标很简单:在已知图片内容和前面已经写出的文字的情况下,预测下一个应该写什么字。这种训练方式在大语言模型领域被称为"自回归语言建模",是ChatGPT等模型的核心训练范式。

**架构设计:一个Transformer搞定一切**

GenLIP的架构设计遵循极简主义原则。整个系统只有一个Transformer(一种强大的神经网络结构,是现代AI的基础构件),负责同时处理图像和文字两种信息。

具体来说,一张输入图片首先被切割成若干个小方块(称为"图像块"),每个小方块被转换成一段数字表示。与此同时,配套的文字描述被分割成一个个词语单元(称为"词元")。这些图像块的表示和词语的表示被拼接成一个长序列,图像部分在前,文字部分在后,然后一起喂给这个统一的Transformer处理。

在注意力机制的设计上,研究团队做了一个重要的区分:图像块之间可以相互"看"彼此(双向注意力),毕竟图片里每个区域的理解都可能需要参考其他区域;而文字部分则只能"看"前面的内容(因果注意力),这符合生成文字时"只能看到已写出的部分"的自然规律。这种混合注意力机制被称为"前缀语言模型注意力",是处理"图像作为前缀条件、文字作为生成目标"这种结构的标准做法。

在位置编码方面,研究团队使用了多模态旋转位置编码(MRoPE),这是一种能同时处理图像空间位置和文字序列位置的编码方式,避免了图像和文字在位置信息上的混乱。

训练的损失函数(也就是AI评价自己表现好坏的标准)同样极其简洁:只看文字生成部分的准确度,即在给定前面所有图像块和已生成文字的条件下,正确预测下一个词语的概率有多高。不需要对比损失,不需要图像重建损失,就这一个目标。

**三、一个意外的麻烦:注意力"黑洞"问题**

在实际训练中,研究团队发现了一个棘手的问题。在图像和文字混合的序列中,序列开头的第一个图像块往往会变成一个"注意力黑洞"——其他大量位置的注意力权重都集中到这一个位置上,就好像整个序列的所有信息都被吸入了这个黑洞。

为什么会这样?原因在于文字生成的机制:文字部分的每个词只能看到前面的图像块(通过因果注意力),为了从图像中获取信息,文字生成模块会倾向于把图像信息"压缩"到少数几个容易访问的图像块里,特别是第一个图像块——因为它是所有位置都能访问的。这就像一个班级里,所有同学都倾向于把笔记借给坐在最前面的那位同学,而不是每个人都自己记笔记,时间一长,前排同学的笔记变得极其全面,但其他人却几乎什么都没记。

这个"注意力黑洞"(在学术界被称为"注意力汇聚"或"attention sink")带来了两个后果:训练过程中会出现明显的损失抖动(意味着训练不稳定),而且最终学到的图像特征在空间多样性上大打折扣——因为大量视觉信息都被压缩进了少数几个位置,其他图像块的特征变得冗余而无意义。

研究团队受到已有研究(特别是针对大语言模型注意力汇聚问题的研究)的启发,提出了"门控注意力"机制来解决这个问题。门控注意力的思路类似于给每个信息通道安装了一个可调节的阀门:在标准注意力计算完成后,再对每个位置的注意力输出乘以一个由输入动态计算的门控信号(一个0到1之间的数值)。门控信号由输入的隐藏状态通过一组可学习的参数计算得出,再经过sigmoid函数压缩到0到1之间。

这个设计的效果是:模型可以学会对某些位置降低信息汇聚的程度,防止文字生成模块过度依赖少数几个图像块,从而让整个图像的空间特征都得到充分利用。实验结果显示,加入门控注意力之后,第一个图像块的平均注意力得分从28.7大幅下降到6.0,训练更加稳定,收敛速度更快,最终性能也有明显提升。

**四、两阶段训练:从打基础到精雕细琢**

GenLIP的训练分为两个阶段,可以理解为先打基础再精修。

第一阶段在Recap-DataComp-1B数据集上进行,这是一个包含10亿张图片及其描述的大规模数据集,图片来自互联网。训练时统一把图片缩放到224×224像素的固定尺寸,以降低计算成本。整个第一阶段共处理了80亿个图片-文字样本(相当于把10亿张图片反复看了8遍),让模型建立起扎实的视觉和语言基础能力。

第二阶段则是精修阶段,使用了两个开源数据集:Infinity-MM的第一阶段字幕子集(约1000万样本)和BLIP3o-Long-Caption(约2700万样本),合计约3700万样本,但这些样本的特点是描述更长、更详细,图片质量更高。更重要的是,这个阶段不再强制把图片缩放到固定尺寸,而是按照图片的原始宽高比来处理,只调整大小使得图像块数量落在16到1024的范围内。这种"任意分辨率"的处理方式让模型能够保留图片中的细节信息,特别有利于文字识别(OCR)和图表理解这类需要看清细节的任务。

这一阶段只训练1个epoch(把数据集过一遍),但效果显著——尤其是对文档理解和OCR类任务的提升非常明显。

研究团队还使用了两种正则化技术:层缩放(layer scale)和随机深度(drop path),这两种技术主要用于稳定较深网络的训练,防止训练发散,但对最终性能的影响相对较小。

在工程实现上,研究团队使用了序列打包策略:把多个长度不同的样本拼接成最大长度为16384个词元的长序列,然后批量处理,以提高硬件利用率。前缀语言模型的注意力掩码通过PyTorch的flex-attention机制实现,支持每个样本独立的注意力模式。

**五、"让ViT开口说话":模型能做到什么?**

在展示正式的评测结果之前,研究团队做了两个非常直观的演示,证明GenLIP确实学会了"开口说话"。

第一个演示是直接让模型描述图片。给模型一张图(不连接任何外部大语言模型,纯粹用GenLIP本身),用一句"详细描述这张图片"作为提示,看看模型能说出什么。结果表明,GenLIP已经能够生成流畅、语义准确的图片描述。在一张老人带着小白狗滑雪的黑白照片前,小模型(GenLIP-L16)在第一阶段结束后描述为"一张复古照片,一个人在滑雪,穿着深色外套",而大模型(GenLIP-g16)则准确描述出"一个人背着一只小白狗在滑雪,狗似乎很享受这次旅程"。经过第二阶段训练后,同一张图的描述变得更加详细,包括帽子的花纹、滑雪杖的细节、背景的雪地等。在识别一只宝可梦的图片时,小模型错把Bulbasaur(妙蛙种子)认成了Charmander(小火龙),而大模型(GenLIP-g16)则正确识别出了这个角色,并给出了详细的外观描述。

第二个演示更加有趣:研究团队直接把图像块的特征向量"翻译"成文字——也就是说,不输入任何文字提示,而是直接对每个图像块的特征表示询问"你最像哪个词"。结果发现,在一张滑雪者背着狗的照片中,对准帽子区域的图像块输出了"hat、fur、cap、wool"这样的词语,对准狗的区域输出了"fluffy、puppy、curious",对准滑雪杖的区域输出了"ski、poles、trek"。这说明GenLIP在预训练过程中,自发地让每个图像块的特征与对应的语言概念产生了对齐,而且这种对齐能力在第二阶段训练后更加精准。大模型(GenLIP-g16)比小模型(GenLIP-So16和GenLIP-L16)表现出更稳定的语义对齐能力,且第二阶段的模型在语义准确性和相关性上均优于第一阶段。

**六、正式评测:用数字说话**

研究团队设计了一套严格的评测框架,核心思路是"冻结视觉编码器":把GenLIP或竞争对手的视觉编码器固定住(不允许在下游任务中继续训练),只训练连接它和大语言模型的中间层,以及大语言模型本身。这种评测方式能更纯粹地反映视觉编码器本身学到的特征质量,而不是靠下游微调来弥补。

评测基准覆盖了三大类任务。文档与OCR理解方面包括ChartQA(图表问答)、OCRBench(综合OCR评测)、InfoVQA(信息图表问答)、AI2D(科学图表问答)、TextVQA(图片文字问答)、DocVQA(文档问答)和SEED-Bench-2-Plus(文字丰富视觉理解),共7个基准。通用视觉理解方面包括MME(综合多模态评测)、GQA(视觉推理问答)、VQAv2(视觉问答)和ScienceQA(科学问答),共4个基准。图片描述生成方面包括NoCaps、COCO和TextCaps三个标准字幕数据集,均使用CIDEr分数衡量。最终汇报所有14个基准的平均分(ALL AVG)。

在使用较小语言模型(Qwen2.5-1.5B)的条件下,研究团队将GenLIP与多个竞争对手进行了对比,包括CLIP(使用12.8B训练数据)、AIMv2(12.0B)、OpenVision2(12.8B)、SigLIP(40.0B)和SigLIP2(40.0B)。GenLIP在L/16、So/16和g/16三个规模上,ALL AVG分别为61.5、62.6和65.2,均优于同规模的SigLIP2(分别为58.7、60.6、61.5),尽管后者使用了整整40B的训练数据。

在文档与OCR类任务上,GenLIP的优势尤为突出。以g/16规模为例,GenLIP在7个OCR/文档基准上的平均分为53.2,而SigLIP2仅为47.3,差距接近6分。这个差距在多个单项基准上更加明显:ChartQA上GenLIP得45.0对SigLIP2的35.3,DocVQA上得57.0对47.6,OCRBench上得55.6对47.3。

切换到更大的语言模型(Qwen2.5-7B)后,趋势保持一致。GenLIP-So/16以71.8的ALL AVG超越SigLIP2的69.4,GenLIP-g/16以73.6超越SigLIP2的68.9。文档与OCR类任务上的优势依然显著:GenLIP-g/16在DocVQA上得69.0,远超SigLIP2的56.3;在ChartQA上得57.1,同样大幅超过SigLIP2的47.2。

研究团队还在标准的LLaVA-NeXT评测框架下进行了测试,这次视觉编码器不再被冻结,而是和语言模型一起进行指令微调。结果表明,GenLIP-So/16在使用576个图像块时取得了68.5的ALL AVG,在使用729个图像块时取得了70.3的ALL AVG,分别超越了同类竞争对手,在Doc&OCR类任务上的优势依旧明显。

**七、越大越强:规模扩展的故事**

研究团队专门分析了GenLIP的扩展性,包括数据量和模型规模两个维度。

在数据量扩展方面,研究团队在相同的模型规模下,把训练数据从10亿增加到80亿,观察性能变化。结果显示,随着数据量增加,所有三类任务(OCR、VQA、图片描述)的平均分都持续提升。从10亿到40亿阶段,提升幅度较为陡峭;从40亿到80亿阶段,VQA和图片描述任务的提升趋于平缓,但OCR类任务仍有明显增益。值得注意的是,在整个扩展曲线上,加入门控注意力的版本始终优于未加入门控注意力的版本,在数据量较少时这种优势尤为明显。

在模型规模扩展方面,研究团队训练了三个规模的GenLIP:GenLIP-L(约3亿参数,24层,1024维)、GenLIP-So(约4亿参数,27层,1152维)和GenLIP-g(约11亿参数,40层,1536维)。两个训练阶段结束后,性能随模型规模单调递增,g/16始终优于So/16,后者优于L/16。有一个有趣的现象:在第一阶段(固定分辨率预训练)之后,L/16和So/16的差距比较明显,但So/16和g/16的差距相对较小;两个阶段都完成后,g/16的优势变得更加突出。对比之下,SigLIP2在模型规模扩大时的性能提升幅度明显小于GenLIP,这支持了研究团队的判断:更简洁的架构和目标函数有助于更高效的规模扩展。

**八、公平的较量:同等数据下谁更强?**

为了更公平地验证GenLIP的数据效率优势,研究团队设计了一个受控对比实验:让SigLIP(对比学习方法)、OpenVision2(编码器-解码器生成式方法)和GenLIP在完全相同的20亿训练样本上训练,并在统一的评测协议下比较。

为了保证公平性,SigLIP和OpenVision2在224×224的分辨率下训练,然后再用2亿样本进行384×384的高分辨率适应;GenLIP则只训练第一阶段,直接在384×384分辨率下评测(没有进行高分辨率适应阶段)。

结果显示,在相同数据预算下,GenLIP在大多数基准上仍然优于两种基线:GenLIP的OCR类平均分为40.2,OpenVision2为40.3(两者接近,但GenLIP没有进行专门的高分辨率适应),SigLIP仅为39.8。在通用VQA类任务上,GenLIP的GQA得45.4,OpenVision2得44.2,SigLIP得42.7。唯一的例外是OCRBench单项,GenLIP得36.9,低于OpenVision2的43.2,研究团队分析这可能是因为GenLIP在该对比中没有进行高分辨率适应,而密集文字识别任务对高分辨率特别敏感。

**九、不止于"聊天":判别能力也不差**

GenLIP的主要目标是服务于多模态大语言模型,但研究团队也测试了它在纯视觉判别任务上的表现,以验证它学到的是真实的视觉特征而非仅仅是"语言捷径"。

评测使用的是DINOv2(一个专门训练于视觉自监督的强大基准)设定的协议:冻结视觉编码器,在ImageNet-1K图片分类和ADE20K语义分割两个任务上探测特征质量。由于GenLIP没有传统视觉模型常用的CLS分类标记,研究团队使用了"注意力探针"(一种对所有图像块特征加权汇总的方法)进行分类,使用线性层进行分割。

结果显示,GenLIP在ImageNet-1K上的冻结特征分类准确率从L/16的83.9%提升到g/16的85.2%,在ADE20K语义分割上的mIoU从L/16的41.0提升到g/16的44.5。与基线相比,GenLIP超越了CLIP(85.1%和39.0)和SigLIP(86.7%和40.8)在ADE20K上的成绩,但不及SigLIP2(88.9%和45.4)——后者引入了密集的区域级监督信号。另一个关键发现是:没有加入门控注意力的版本(w/o GA)在ImageNet-1K上的准确率仅为76.2%,远低于加入门控注意力的版本的83.9%以上,直接证明了门控注意力对于抑制注意力汇聚、保护视觉特征质量的必要性。

**十、局限性:诚实的自我剖析**

研究团队在论文中坦诚地指出了GenLIP的几个局限性。首先,所有评测都是在LLaVA-NeXT这个学术级别的多模态框架下进行的,能否推广到更先进的工业级多模态系统尚未验证。其次,训练数据仅使用了10亿规模的数据集,更大规模数据(如100亿以上)的扩展行为尚未探索。第三,GenLIP依赖高质量的图片描述文字作为训练数据,而高质量描述的获取本身需要较高的成本(通常需要用大语言模型对网络图片进行重新描述,而非直接使用原始网页中的配对文字)。

Q&A

Q1:GenLIP和传统的CLIP视觉编码器有什么本质区别?

A:CLIP的训练方式类似于做连连看,让AI学会判断图片和文字是否配对,培养的是判断能力。GenLIP则让AI直接看图写文章,一个字一个字地生成图片描述,训练的是表达能力。这种训练方式更符合多模态大语言模型"逐词生成回答"的工作方式,因此作为视觉编码器时能更自然地配合语言模型。用8B训练数据,GenLIP在多个基准上超越了使用40B数据训练的SigLIP2。

Q2:GenLIP的"注意力黑洞"问题是什么,门控注意力是怎么解决的?

A:在图文混合的序列中,文字生成时需要从图像中提取信息,模型倾向于把大量视觉信息压缩进少数几个图像块(尤其是第一个),导致大多数图像块的特征变得冗余,空间多样性下降,训练也不稳定。门控注意力给每个位置的注意力输出加了一个可学习的阀门,让模型能够自动调节信息汇聚程度,迫使视觉特征保持空间多样性。加入门控注意力后,第一个图像块的平均注意力得分从28.7降至6.0,ImageNet分类准确率也从76.2%提升到84.3%以上。

Q3:GenLIP的第二阶段训练为什么能大幅提升OCR和文档理解能力?

A:第二阶段训练的两个关键变化是:使用了包含更长、更详细描述的高质量图片数据,以及按照图片原始宽高比处理图片而非统一缩放。前者让模型接触到更细粒度的图文对应关系,后者则保留了图片中的细节信息(如小字、表格结构等),这对于识别文字和理解文档至关重要。训练数据量虽然只有3700万(远少于第一阶段的80亿),但由于数据质量高且保留了图片细节,效果提升显著。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,比亚迪官宣:新车15.08万起!

刚刚,比亚迪官宣:新车15.08万起!

手机评测室
2026-05-09 11:50:48
朱元璋大封功臣,唯有一将军跪地不受,朱元璋:连富贵都不要吗!

朱元璋大封功臣,唯有一将军跪地不受,朱元璋:连富贵都不要吗!

纵古贯今
2026-05-08 18:43:53
中签号码超31万个,15亿王者级肉签上市,中签的股民嗨了!

中签号码超31万个,15亿王者级肉签上市,中签的股民嗨了!

数据挖掘分析
2026-05-09 09:14:39
41岁C罗遭暴击?沙特巨头2-1夺沙王冠+4年3冠 4天后与胜利大决战

41岁C罗遭暴击?沙特巨头2-1夺沙王冠+4年3冠 4天后与胜利大决战

风过乡
2026-05-09 05:56:30
欧阳娜娜光脚走红毯,脚丫太突出成为热议点

欧阳娜娜光脚走红毯,脚丫太突出成为热议点

小椰的奶奶
2026-05-08 12:17:22
随着菲律宾0-0,韩国0-3,女足亚洲杯八强对阵出炉:中国PK弱旅

随着菲律宾0-0,韩国0-3,女足亚洲杯八强对阵出炉:中国PK弱旅

侧身凌空斩
2026-05-08 21:27:26
末节16分!文班亚马打疯了!2比1!华子拉都拉不住啊...

末节16分!文班亚马打疯了!2比1!华子拉都拉不住啊...

左右为篮
2026-05-09 12:39:41
大唐订单破10万!比亚迪快把自己笑死了

大唐订单破10万!比亚迪快把自己笑死了

ZAKER新闻
2026-05-08 20:47:05
大S女儿直播出圈!笑起来酒窝超像妈妈,单眼皮完美复刻汪小菲

大S女儿直播出圈!笑起来酒窝超像妈妈,单眼皮完美复刻汪小菲

观鱼听雨
2026-05-07 23:24:19
打了多少“精修怪”的脸?佟丽娅43岁素颜状态,绝了

打了多少“精修怪”的脸?佟丽娅43岁素颜状态,绝了

木子娱你同行
2026-05-09 12:35:03
网购榴莲“仅退款”买家被行拘,商家曝光细节:对方是20多岁女生,骂哭客服,实在气不过

网购榴莲“仅退款”买家被行拘,商家曝光细节:对方是20多岁女生,骂哭客服,实在气不过

晋江电视台
2026-05-09 12:29:34
伊朗导弹猛砸美军基地,局势失控,美国陷入僵局,对华提大胆要求

伊朗导弹猛砸美军基地,局势失控,美国陷入僵局,对华提大胆要求

卷史
2026-05-09 11:36:13
北京协和医学院,迎来首位“80后”女副院校长

北京协和医学院,迎来首位“80后”女副院校长

医疗器械经销商联盟
2026-05-08 17:32:47
谢娜演唱会看提词器,现场简陋人挤人,反响不错黄牛价飙至5000元

谢娜演唱会看提词器,现场简陋人挤人,反响不错黄牛价飙至5000元

一盅情怀
2026-05-09 09:25:49
C罗最佳僚机爆发!菲利克斯44场独造44球,登顶生涯巅峰!

C罗最佳僚机爆发!菲利克斯44场独造44球,登顶生涯巅峰!

田先生篮球
2026-05-08 13:11:09
11中8砍26分!美媒建议火箭用杜兰特+首轮签换杰伦布朗

11中8砍26分!美媒建议火箭用杜兰特+首轮签换杰伦布朗

吴紒爱体育
2026-05-09 12:49:45
新花样!乌抢跑48小时率先停火,接下来大俄如何接招都讨不到便宜

新花样!乌抢跑48小时率先停火,接下来大俄如何接招都讨不到便宜

战刃
2026-05-06 10:39:54
撞见妻子进酒店,我把照片发给那个男人的老婆,妻子鼻青脸肿回家

撞见妻子进酒店,我把照片发给那个男人的老婆,妻子鼻青脸肿回家

千秋文化
2026-05-03 20:27:24
为什么华为和安卓的差距,越追反而越大了?

为什么华为和安卓的差距,越追反而越大了?

春雨说科技
2026-05-07 18:39:24
每体:皇马怀疑索拉里是内鬼,向媒体泄露引入体育总监的消息

每体:皇马怀疑索拉里是内鬼,向媒体泄露引入体育总监的消息

懂球帝
2026-05-09 13:33:06
2026-05-09 13:47:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3156339文章数 7262关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

牛弹琴:全世界十分意外 俄乌战场突然传来两个好消息

头条要闻

牛弹琴:全世界十分意外 俄乌战场突然传来两个好消息

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

张艺谋《印象刘三姐》全裸镜头引争议

财经要闻

Meta疯狂拥抱人工智能:员工苦不堪言

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
本地
旅游
房产
公开课

索尼PS商城优惠惊喜回归!还是进化版 马上见

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

5月15日至10月15日,东、西佘山园延长开放时间→

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版