TechBeat红人榜 | 2023年度热门技术工作，那些令人印象深刻的技术突破|算法|论文|大模型|techbeat

分享至

在昨天的推送中，我们盘点了过去一年中TechBeat社区上颇具人气的~与此同时，还有不少通过文章的形式来宣传自己工作的朋友286位作者为社区贡献了716篇自己最新的研究工作，我们同样根据其站内文章阅读数量，新媒体传播度等因素，精选出20篇备受大家关注的工作，以此感谢各位在学术、工业界尝试中带来的突出贡献。

工作亮点&主要贡献

1. DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

关键词：零样本，大语言模型，概率曲率

本文从大模型本身的运行机制出发设计了DetectGPT方法，DetectGPT通过一个简单的数据分布特点即可判断出文本的来源，此外作者还对本文方法进行了详尽的理论推导，这使得DetectGPT具有更高的可信度和可解释性。DetectGPT的zero-shot特性使它相比那些使用数百万数据样本定制训练的检测模型更具有竞争力。

论文解读：

2. DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for Multilingual Named Entity Recognition

关键词：实体识别，检索增强，知识增强

本研究提出了一个融入知识的多语言NER系统，能够在低语境的情况下有效识别实体信息。研究者基于维基百科构建了一个多语言知识库，给定一个输入句子，该系统有效地从知识库中检索相关上下文，然后对原始输入句子进行扩充，从而获取更好的上下文标记。研究表明， NER 模型可以使用检索知识来促进复杂的实体预测，显着提高域内和域外性能。多阶段微调可以帮助单语模型从所有语言的训练数据中学习，提高模型性能和训练效率。

论文解读：

3. PromptDet: Towards Open-vocabulary Detection using Uncurated Images

关键词：提示学习、自训练、开放词汇目标检测

本文提出了一个开放世界的目标检测器PromptDet，它能够在没有任何手动标注的情况下检测新类别，其中提出区域prompt学习方法调整预训练语言编码器的潜在空间，以更好地适应下游的目标检测任务；并提出目标图像检索和模型自训练的完整学习方案，用以精准检索和有效利用未经处理的线上资源，大大提升目标检测器的性能。与现有方法相比，PromptDet使用更少的额外训练图像和零手动标注，性能表现SOTA。

论文解读：

4. On the Learning of Non-Autoregressive Transformers

关键词：非自回归文本生成，高效文本生成

非自回归文本生成方法作为自然语言生成的新范式，其并行推理过程能够大幅提升生成速度，因此近年来获得了越来越多的关注。该工作从信息论角度，讨论了非自回归模型学习中存在的问题，并指出其中的主要挑战来自于数据集的条件总相关 (Conditional Total Correlation)所带来的信息损失。该工作进一步提出了统一视角 MPLE，为已有的模型训练方式提供理论解释，即：这些方法均通过构造代理分布来降低学习中的信息损失，因而带来了更好的生成质量。实验表明，文章所提出视角能够很好地解释非自回归模型训练中的各类反常现象，并引导了新训练方法的设计。

论文解读：

5. 2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds

关键词：自动驾驶、点云语义分割、跨模态学习

本文介绍了一个基于二维先验辅助的激光雷达点云语义分割算法2DPASS，其在模型训练阶段从多模态数据中获取更丰富的语义和结构信息将其提炼到点云分割网络中。该方法具有良好的通用性，且在推理时仅基于点云数据输入即可实现又快又准的三维语义分割。该方法在SemanticKITTI数据集单帧和多帧语义分割，以及Nuscenes数据集都达到了最先进的水平。

论文解读：

6. Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics

关键词：IMU运动学，自监督深度估计，单目尺度

基于深度学习的自监督单目深度估计神经网络近年已在主流数据集上取得了非常好的结果。但仅使用单目相机图像无法获得深度估计值的绝对尺度，从而限制了单目深度网络在实际中的应用。本文提出一个新的结合惯性测量数据的单目视觉深度估计框架，通过在训练阶段结合IMU（惯性测量单元）数据，可训练得到拥有绝对尺度感知能力的单目深度估计网络，使得在测试阶段针对给定的单目视频能够得到具有绝对尺度的深度估计值。并且，该方法相比于纯视觉方法，还具有更高的鲁棒性和泛化能力。

论文解读：

7. k-means Mask Transformer

关键词：k均值聚类、视觉Transformer

本文对视觉Transformer的内部运行机制进行了探索，分析了现有结构在图像识别任务上的弊端，并提出从聚类的角度重新思考像素特征与目标query之间的关系，结合k-means聚类提出了一种端到端的全景分割模型，称为k-means Mask Transformer（kMaX-DeepLab）。kMaX-DeepLab使用k-means解码器来替换原有Transformer模型中的多头交互注意力块来简化模型，同时也提升了模型的分割效果。本文也从侧面印证了传统经典算法的思想在今天仍然适用，稍加改造和借鉴完全可以提升现代模型的综合性能。

论文解读：

8. Text-to-Table: A New Way of Information Extraction

关键词：信息抽取，表格生成

本文提出了一种全新的信息抽取任务 Text-to-Table：使用表格来展示自然语言文本中的主要信息。表格具有清晰的结构，比纯文本更易读、更易理解，可以提高阅读者的阅读效率和阅读意愿。通过将表格进行序列化表示，我们便可以将常见的序列到序列模型用于表格的生成。为了更好地利用表格的结构化信息，研究中提出了两种改进方式来提升使用序列到序列模型生成表格的效果。

论文解读：

9. S-Prompts Learning with Pre-trained Transformers: An Occam's Razor for Domain Incremental Learning

关键词：连续学习，提示学习，多模态学习

在该工作中研究者提出一个针对域增量学习的简单高效的方法（S-Prompts）。所提出的方法可以让新旧知识互不干扰，并达到双赢的结果。最后，Prompt Tuning作为Efficient Finetuning技术的一种，未来可能会在增量学习中得到更深入的应用，特别是大规模预训练模型的兴起，会进一步推进对增量学习问题的研究。

论文解读：

10. In Defense of Online Models for Video Instance Segmentation

关键词：视频实例分割，目标跟踪

ECCV 2022的满分文章！该工作首先分析了在VIS任务中，offline算法往往领先同时期online算法达到 10AP 左右的现象，并深入分析了导致 online 模型和 offline 模型的巨大性能差距的原因，提出了一个基于contrastive learning的 online 算法：IDOL。该算法可以学习更具有区分度的instance embedding，并且充分利用了视频的历史信息来保证算法的稳定性，将online模型表现提高到一个与offline模型相当甚至更高的水平上。

论文解读：

11. Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models

关键词：小样本学习，视觉语言模型，多模态模型

本文中，研究者提出了一种简单而有效的基于多模态预训练模型CLIP的小样本微调算法，通过将跨模态信息（例如文字标签）作为训练样本加入cross-entropy loss进行微调，即可用一个简单的线性分类器在十一个图像识别训练集中取得SOTA效果。该方法（cross-modal adaptation）的训练速度和性能均大幅优于先前基于prompting、adapter或ensemble的算法。

论文解读：

12. DiffusionDet: Diffusion Model for Object Detection

关键词：目标检测，扩散模型

在这项工作中，作者通过将目标检测任务转换为从噪声框到对象框的去噪扩散过程，提出了一种新的检测范式DiffusionDet。DiffusionDet的noise-to-box过程有几个非常重要的特性，动态框设计和渐进细化机制，这使得模型可以使用相同的网络参数来获得在不同使用场景中所需的速度精度权衡，而无需重新训练模型。作者也通过实验证明，DiffusionDet与其他经典的成熟的检测器相比，可以得到更佳的性能。

论文解读：

13. High-Fidelity GAN Inversion for Image Attribute Editing

关键词：生成对抗网络，图像编辑，生成式模型

本文工作首先从信息压缩的视角，分析了高保真 GAN 反演问题存在的挑战。进一步地，研究者提出了一种新颖的高保真GAN反演框架，用以提升现有模型的图像重建质量，该框架能够在保留图像特定细节（例如背景、外观和照明）的情况下进行属性编辑。不仅处理速度能够达每张图 0.2s，还能保证编辑后图像的高保真度与高质量。

论文解读：

14. GPT-4 Technical Report

关键词：大语言模型，多模态模型

GPT-4是OpenAI在深度学习领域深耕的最新里程碑。OpenAI宣称：GPT-4虽然在许多现实世界场景中不如人类能力强，但在各种专业和学术基准上表现出人类水平。

如果总结一下GPT-4的主要能力：（1）可以更准确地解决难题，具有更广泛的常识和解决问题的能力：更具创造性和协作性；可以接受图像作为输入并生成说明文字、分类和分析；能够处理超过 25,000 个单词的文本，允许长文内容创建、扩展对话以及文档搜索和分析等用例。（2）在SAT等绝大多数专业测试以及相关学术基准评测中，GPT-4的分数高于ChatGPT。（3）GPT-4仍然有许多正在努力解决的已知局限性，例如社会偏见、幻觉和对抗性prompt。

论文解读：

15. Let Images Give You More:Point Cloud Cross-Modal Training for Shape Analysis

关键词：三维物体识别、点云分析、跨模态学习

本文提出了基于点云分析的跨模态知识蒸馏框架PointCMT作为点云多模态表征学习的新范式。PointCMT仅需要在训练阶段使用额外的图像数据，就能有效提升模型的表征能力，在测试阶段中被强化的模型可以单模态部署。在PointCMT的训练范式下，仅使用非常早期的基线模型PointNet++便可以在多个数据集上得到巨大提升。不仅如此，更强的基线模型（例如PointMLP等）依然可以被PointCMT有效提升。

论文解读：

16. On Multi-Domain Long-Tailed Recognition, Imbalanced Domain Generalization and Beyond

关键词：域泛化，多域长尾分布，数据不平衡

该工作提出了一个新的任务，称为多域长尾分布学习（MDLT），同时研究者系统性地研究了MDLT，并提出了有理论保障的新损失函数 BoDA，以解决多域的学习不平衡数据的问题，最后研究者建立了五个新的benchmark来方便未来在多域不平衡数据上的研究。本文有很直观的问题分析与解释，理论证明，以及用非常简洁并且通用的框架去提升多域下的不平衡学习任务。此外，研究者发现标签不平衡会影响 out-of-distribution generalization，而实用鲁棒的DG算法设计也需要整合标签不平衡的重要性。

论文解读：

17. Towards Robust Blind Face Restoration with Codebook Lookup Transformer

关键词：人脸复原、码本先验、VQGAN

本文提出了一种基于Transformer+VQGAN的人脸重建方案CodeFormer，它可以对低质人脸的组成与上下文信息进行建模，促进自然人脸挖掘以生成与目标人脸更相近的结果。受益于码本先验与全局建模能力，CodeFormer取得了SOTA人脸复原能力。

论文解读：

南洋理工大学 S-Lab 打出一套「还你漂漂拳」CodeFormer开源：SOTA人脸复原能力

https://www.techbeat.net/article-info?id=4019

18. TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun Distillation

关键词：基于动词的场景理解，可供性识别，知识蒸馏

现有的大规模预训练视觉-语言模型只能理解名词？为了解决这个问题，本文提出了TOIST，利用注意力机制自然地对多个可选物体之间的偏好关系进行建模，并提出了一种全新的名词-代词蒸馏框架。本方法将名词指称模型中的知识蒸馏到代词媒介上，从而取得更好的动词理解效果。研究者期望本文提出的思想和框架能够推进视觉-语言融合的指称理解领域的研究进展。如何有效实现对名词、代词、动词、形容词的一体化指称理解，将是一个值得继续探索的研究方向。

论文解读：

19. DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

关键词：自动驾驶，视觉3D检测

掀起在BEV视角下对相机做目标检测风潮的工作之一就是这篇来自MARS Lab与MIT，TRI还有理想汽车合作的论文——DETR3D。该模型将2D中的DETR目标检测架构应用到了3D目标检测中，通过reference points和相机参数的物理意义进行投影来获取图像features。BEV视角，对于自动驾驶是非常自然的，但是如何能够高效的融合LiDAR (3D) 和 Camera(2D) 或者其他传感器（如radar）来做感知，是值得探究的问题。

论文解读：

20. ByteTrack: Multi-Object Tracking by Associating Every Detection Box

关键词：多目标追踪，数据关联

沿着多目标跟踪（MOT）中tracking-by-detection的范式，研究者提出了一种简单高效的数据关联方法BYTE。利用检测框和跟踪轨迹之间的相似性，在保留高分检测结果的同时，从低分检测结果中去除背景，挖掘出真正的物体（遮挡、模糊等困难样本），从而降低漏检并提高轨迹的连贯性。BYTE能轻松应用到9种state-of-the-art的MOT方法中，并取得1-10个点不等的IDF1指标的提升。基于BYTE研究者提出了一个跟踪方法ByteTrack为如何最大程度利用检测结果来帮助MOT提供了启发。

论文解读：

如果你也想让自己的工作被更多人熟知~

欢迎你填写下方表单提交申请，或联系将门的工作人员（发送邮件到chenhongyuan@thejiangmen.com或添加工作人员微信chemn493），还可以在“将门创投”公众号后台回复“投稿”二字，获得投稿说明。我们会第一时间回复你！

收到稿件后，我们会立刻进行内部审核。筛选通过后，将第一时间发表在TechBeat社区网站（更优质内容将同步发表在“将门创投”公众号等新媒体渠道，让更多人看到！）
我们还将选择部分在研究分享及科研心得方向，对用户启发性更大的文章，做原创性内容奖励。

关于TechBeat红人榜

将门-TechBeat人工智能社区三周年特别策划“TechBeat红人榜”，内容包括“年度最受欢迎讲者”、“人气技术实验室"以及“年度热门技术工作”。

过去一年，社区共有128位讲者贡献105场talk，286位作者贡献了716篇文章，将其进行综合人气排位得出榜单结果，数据参考包括站内浏览量、新媒体传播量及互动量。

希望在未来的榜单中，看到更多AI华人青年学者的新鲜面孔！我“门”一起，TECH不停，BEAT不止！

「热门研究云际会」来啦！

别急，沉淀了这么多优质学习内容的TechBeat年度盘点当然不会就此结束！

紧跟【年度热门技术工作】热度，TechBeat技术社区与OpenMMLab为大家搜罗了四大热门技术方向#基础模型 #视觉感知 #文字识别 #扩散模型，邀请十几位热门工作研究者，组成四场「热门研究云际会」，邀请你来参加！

超越边界：视觉网络架构的创新设计与扩展

4.14（周五）10:00

迈向通用的视觉感知

4.18（周二）14:00

探索文字识别的前沿技术与应用

4.19（周三）10:00

融合视听：多模态扩散模型的革新应用

4.25（周二） 10:00

除此之外，还可以报名加入【热门研究云际会】主题交流群，近距离接触更多AI前线小伙伴！

满满当当的新鲜内容，扎扎实实的热门研究，等待你来交流！还有更多技术与生活碰撞的场景，也等待你来揭晓！TechBeat直播间，不见不散哦~

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

赶紧报名参加「热门研究云际会」吧

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.