网易首页 > 网易号 > 正文 申请入驻

GitHub 10k star!BERT-as-service 时隔三年突然更新,这次连名儿都改了

0
分享至

无需担心复杂的实现细节,只需简单调用 API,就可以为文本和图像创建 SOTA 表征向量。

本文转载自丨 Jina AI 公众号

1

从 BERT 到 BERT-as-service

2018 年 9 月,Google 一篇 BERT 模型相关论文引爆全网:该自然语言模型,在机器阅读理解顶级水平测试 SQuAD1.1 中,连破 11 项 NLP 测试记录,两个衡量指标全面超越人类。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://arxiv.org/pdf/1810.04805.pdf

这不仅开启了 NLP 的全新时代,也标志着迁移学习和预训练+微调的模式,开始进入人们的视野。

2018 年 10 月,BERT 发布仅一个月后,BERT-as-service 横空出世。用户可以使用一行代码,通过 C/S 架构的方式,连接到服务端,快速获得句向量

访问 BERT-as-service:

https://github.com/jina-ai/bert-as-service

BERT-as-service 2018 年发布时的架构

作为基于 BERT 的第一个微服务框架,BERT-as-service 通过对 BERT 的高度封装和深度优化,以方便易用的网络微服务 API 接口,赢得了 NLP 及机器学习技术社区的广泛关注。

它简洁的 API 交互方式、文档写作风格,甚至连 README 排版,都成为之后众多开源项目的模板。

BERT-as-service 可以通过几行代码轻松获得句向量

如果说 BERT 是迁移学习的里程碑,那么 BERT-as-service 的出现,可以称得上是迁移学习,在工程服务化的里程碑。

GitHub 上 BERT 模型的不少贡献者,也积极参与了 BERT-as-service 的代码贡献。火遍全球的 Hugging Face 在 2018 年 11 月推出的 Pytorch-transformers 初版,也受到了 BERT-as-service 的启发。

尽管 BERT-as-service 在 2019 年 2 月后的更新逐渐暂停,但 3 年来该项目在 GitHub 上积累了 10,000 个 Star, 2,000 多个 Fork 和堆积成山的 Issue,都显示出社区对 BERT-as-service 的极大兴趣和热情。

其中很多开发人员 Fork 了 BERT-as-service 并结合自身业务,开发出了一套自己的微服务系统。

2

BERT-as-service 升级版重磅来袭

时隔三年,BERT-as-service 再度更新,升级为全新的 CLIP-as-service,不仅保留了原有的高并发、微服务、简单易用等特性,更可以同时生成文本和图像的表征向量。

访问 CLIP-as-service GitHub:

https://github.com/jina-ai/clip-as-service

CLIP-as-service 的背后是由 OpenAI 在 2021 年 1 月发布的 CLIP (Contrastive Language-Image Pre-training) 模型,它可以基于文本对图像进行分类,打破了自然语言处理和计算机视觉两大门派「泾渭分明」的界限,实现了多模态 AI 系统。

CLIP-as-service 具有以下特点:

* 开箱即用:无需额外学习,只需调用客户端或服务端的 API,即可实时生成图像和文本的向量输出。

* 速度快:为大型数据集和长耗时任务量身定制,同时支持 ONNX 和 PyTorch 模型引擎,以提供快速推理服务。

* 高扩展:支持多核、单核 GPU 上并行扩展多个 CLIP 模型,并自动进行负载均衡。服务器端可以选择通过 gRPC、Websocket 或 HTTP 三种方式对外提供服务。

* 神经搜索全家桶:开发者可以短时间内,快速融合 CLIP-as-service 及 Jina、DocArray,搭建跨模态和多模态搜索行业解决方案。

3

CLIP-as-service 实操指南

安装 CLIP-as-service

同 BERT-as-service 的 C/S 架构一样,CLIP-as-service 也分为服务器端和客户端两个安装包。

开发者可通过 pip 在不同的机器上选择性地安装 CLIP 客户端或服务端。

注意:请确保使用 Python 3.7+

1、安装 CLIP 服务端(通常是 GPU 服务器)

pip install clip-server

2、安装 CLIP 客户端(比如在本地笔记本电脑上)

pip install clip-client

启动 CLIP 服务器

启动服务器意味着下载预训练模型,启动微服务框架,对外开放接口等一系列操作。所有这些操作都可以通过一句简单的命令完成。

启动服务器:

python -m clip_server

服务器启动后,将显示以下输出:

Protocol GRPC Local access 0.0.0.0:51000 Private network 192.168.3.62:51000 Public address 87.191.159.105:51000

这表示服务器已准备就绪,并以 gRPC 方式对外提供接口。

从客户端连接

服务端就绪后,即可通过 GRPC 客户端与之连接并发送请求。根据客户端和服务端的位置,可使用不同的 IP 地址。

更多详情,请查看 CLIP-as-service 文档:

https://clip-as-service.jina.ai/

运行 Python 脚本,验证客户端和服务端之间的连接状况:

from clip_client import Clientc = Client('grpc://0.0.0.0:51000')c.profile()

如果连接正常,你会看到如下所示的耗时树状图:

Roundtrip 16ms 100% ├── Client-server network 12ms 75% └── Server 4ms 25% ├── Gateway-CLIP network 0ms 0% └── CLIP model 4ms 100%

4

搭建一个跨模态搜索系统:文本到图片

在这个示例中,我们将使用 CLIP-as-service 搭建立一个简单的 text-to-image 搜索案例,用户只需输入文本,即可输出相匹配的图像。

本示例将借助 Totally-Looks-Like 数据集及 Jina AI 的 DocArray 来实现数据下载。

注意:DocArray 作为上游依赖,已包含在 clip-client 中,无需单独安装。

1、加载图像

from docarray import DocumentArrayda = DocumentArray.pull('ttl-original', show_progress=True, local_cache=True)

Totally-Looks-Like 数据集包含 12,032 张图像,可能需要一段时间下载。

2、加载完成后,使用 DocArray 内置功能 da.plot_image_sprites() 将其可视化,效果如下图所示:

3、通过命令 python -m clip_server 启动 CLIP 服务端,并对图像进行编码 (encode)

from clip_client import Clientc = Client(server='grpc://87.105.159.191:51000')da = c.encode(da, show_progress=True)

4、输入 "a happy potato",查看搜索结果

vec = c.encode(["a happy potato"])r = da.find(query=vec, limit=9)r.plot_image_sprites()

输出结果如下:

查询 "A happy potato" 后的输出结果

尝试输入 "professor cat is very serious",输出结果如下:

更多详细文档,请访问:

https://clip-as-service.jina.ai/

5

搭建一个跨模态搜索系统:图片文本

我们也可以将两个模态对调,实现图片到文字的搜索。

在下面这个例子中,我们使用《傲慢与偏见》整部小说的英文文本作为匹配目标。然后输入一张图片,就可以得到这张图片在《傲慢与偏见》中对应的文本。

开始之前,先运行本地托管且支持客户端访问的 CLIP-as-service 服务端。

运行 CLIP-as-service 服务端

https://github.com/alexcg1/neural-search-notebooks/blob/main/clip-as-service/server.ipynb

服务端启动并运行后,即可使用客户端向其发送请求并获得结果。

使用 CLIP-as-service 客户端,建立多模态搜索实例,请访问 notebook

https://github.com/alexcg1/neural-search-notebooks/blob/main/clip-as-service/client.ipynb

本文相关学习资料:

CLIP-as-service 文档

https://clip-as-service.jina.ai/

CLIP-as-service GitHub Repo

https://github.com/jina-ai/clip-as-service/

参与 Jina 学习,成为神经搜索专家

https://learn.jina.ai/

DocArray 文档

https://docarray.jina.ai/

Jina 文档

https://docs.jina.ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王楚钦为何逆转松岛夺冠!赛后说出大实话,邓亚萍点评一针见血

王楚钦为何逆转松岛夺冠!赛后说出大实话,邓亚萍点评一针见血

小徐讲八卦
2026-04-06 05:07:16
美论坛:为什么中国在明确我们不会偿还的情况下还要购买美债?

美论坛:为什么中国在明确我们不会偿还的情况下还要购买美债?

闻识
2026-04-05 23:12:22
美媒:中国应对中东危机展现惊人韧性

美媒:中国应对中东危机展现惊人韧性

参考消息
2026-04-06 16:28:04
阿根廷国脚、热刺队长合同泄密!亲爹爆料解约金:7000万美元!

阿根廷国脚、热刺队长合同泄密!亲爹爆料解约金:7000万美元!

仰卧撑FTUer
2026-04-06 20:19:04
恩爱剧本不演了?奚梦瑶提离婚,何猷君掀桌子私生子传闻真相大白

恩爱剧本不演了?奚梦瑶提离婚,何猷君掀桌子私生子传闻真相大白

秋姐居
2026-04-04 22:23:29
6岁女童走失后续:有新发现 奶茶店主做出回应,可疑人浮出水面!

6岁女童走失后续:有新发现 奶茶店主做出回应,可疑人浮出水面!

普陀动物世界
2026-04-06 18:42:33
火箭取得本季最长连胜!火记:6连胜是最佳表现 关键时刻终于赢球

火箭取得本季最长连胜!火记:6连胜是最佳表现 关键时刻终于赢球

Emily说个球
2026-04-06 14:10:41
大家一定要做好心理准备,周边的局势已经越来越紧张了

大家一定要做好心理准备,周边的局势已经越来越紧张了

安安说
2026-04-05 11:23:47
南京博物院事件真相来了:果然,那些人真狗啊!

南京博物院事件真相来了:果然,那些人真狗啊!

李月亮
2026-02-10 20:58:01
不装阔不套近乎!李亚鹏喊话张雪:钱现在掏不出,但兄弟我拉群

不装阔不套近乎!李亚鹏喊话张雪:钱现在掏不出,但兄弟我拉群

阿讯说天下
2026-04-06 10:56:01
美军跳伞飞行员身背“小金库”,步枪金条电台一应俱全,非常难捉

美军跳伞飞行员身背“小金库”,步枪金条电台一应俱全,非常难捉

利刃号
2026-04-05 23:38:07
潜伏在中国的反华家族,靠大陆收入上亿,今国家出手下场大快人心

潜伏在中国的反华家族,靠大陆收入上亿,今国家出手下场大快人心

混沌录
2026-04-05 16:33:20
1969年,教员为什么对贺帅不满?二人之间到底有何分歧?

1969年,教员为什么对贺帅不满?二人之间到底有何分歧?

阿胡
2025-02-23 13:09:21
新中国成立后,清政府遗留7.3亿两白银烂账,主席一招便成功化解

新中国成立后,清政府遗留7.3亿两白银烂账,主席一招便成功化解

唠叨说历史
2026-01-07 14:51:34
年度最佳,这部9分科幻美剧值得一看

年度最佳,这部9分科幻美剧值得一看

来看美剧
2026-04-06 19:56:20
突发!8.4万散户假期踩雷:两家财务造假公司下周被ST,两家直接退市

突发!8.4万散户假期踩雷:两家财务造假公司下周被ST,两家直接退市

股市皆大事
2026-04-06 10:47:12
2026年985大学排名变了:浙大并列第3,南大第7,哈工大跌至第10

2026年985大学排名变了:浙大并列第3,南大第7,哈工大跌至第10

Delete丨CC
2026-04-06 12:49:50
奇兵5记三分,山东男篮大胜广东,高诗岩15+6点名徐杰 争三占先机

奇兵5记三分,山东男篮大胜广东,高诗岩15+6点名徐杰 争三占先机

替补席看球
2026-04-06 21:35:55
法媒:海湾国家军事实力几何?

法媒:海湾国家军事实力几何?

参考消息
2026-04-05 20:04:08
国务院831号令:6月1日起统一执行!家家户户用水将迎7大变化

国务院831号令:6月1日起统一执行!家家户户用水将迎7大变化

小影的娱乐
2026-04-06 18:34:51
2026-04-06 22:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7172文章数 20743关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普咆哮式发帖威胁伊朗 美政界人士:他像精神错乱

头条要闻

特朗普咆哮式发帖威胁伊朗 美政界人士:他像精神错乱

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

房产
艺术
手机
健康
公开课

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

艺术要闻

725米,16亿美元!迪拜“世界第二高楼”,战火中推进

手机要闻

何刚公布华为折叠屏限时购机权益,含1年HUAWEI Care+等

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版