网易首页 > 网易号 > 正文 申请入驻

夸克“凶猛”:一场手机镜头背后的狂野冒险

0
分享至

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。

夸克“凶猛”:一场手机镜头背后的狂野冒险

文 | 史中

李逍遥出生的村子叫什么你知道吗?

我知道,叫盛渔村,地处杭州余杭县,位置偏僻,但风景秀丽。。。

我为啥记得这么清楚呢?

因为10岁那年我第一次玩《仙剑奇侠传》的时候,剧情刚刚展开,看着热情的村民,听着温情的 BGM,我突然有奇怪的想法:为啥我李逍遥不能一辈子怂在家乡耍木剑采野果,非得去外面被妖怪毒打呢?

但是转念一想,不遇到妖怪,也不会遇到赵灵儿。

想到这里,DNA 动了,明知山有虎偏向釜山行,我就这样走出了新手村。

好吧,咱们未必玩过一样的游戏,但咱们都过着同样操蛋的人生。你我都有(不得不)从新手村出发的那一天,面对天书一样的试卷时,面对老板“今晚就要”的死线时,都会幻想:如果天上能掉下来一把神刀,一刀999级,该有多好。。。

今天,中哥就给你讲一个“神刀”的故事。

(一)“战五渣”和扫描王

“放假前刚发的卷子,我家小孩就找不到了!我还得在家长群里求着同学妈妈把试卷拍给我,打印出来让孩子做。但人家孩子已经写了答案,我只能用纸条挡住答案去复印。。。”

这是一个两年前发在妈妈帮论坛上的帖子。

如此不能打的剧情,却引来了不合时宜的共鸣,上百个家长回复说:啊!我以为只有我家孩子是这样。。。

看来,身边潜伏的渣渣不止一个啊。

吃瓜群众中潜伏着一个人,戴着眼镜,自己就接近学生模样,按道理都不应该知道这世界上有妈妈帮这样“戾气深重”的网站。

这个人就是尹毅彬。

尹毅彬

尹毅彬是夸克App的产品经理,之所以要逛家长论坛,是因为他负责的正是当时大火的“学习版块”。

他同时也是个暖男。“怎么能让妈妈们受这样的苦呢?”于是赶紧把这个发现讲给伙伴。

一个月后,夸克App里添加了一个小功能——试卷去手写——拿一张卷子来,能自动把里面的手写字去掉;不仅如此,还能把卷子角度自动转正,把纸变白,把字变清晰,打印出来比原版的还原版,隔壁学霸都馋哭了。。。

就是这个效果⇩⇩⇩

别看就是这么一个不起眼的功能,受欢迎程度却难以言表,后台调用量像火箭直入云霄。

以防有的浅友不熟悉夸克,这里中哥强势插入一下,多介绍几句背景姿势:

很多人觉得夸克是个搜索 App,但是在年轻用户心里,搜索只是夸克“功能大餐”中的一道菜,他们还能用夸克看小说、看电影、拍图识万物、文档翻译、简历生成、自拍证件照、PDF转Word、截长图、转gif、挂号买药、学菜谱查快递。。。

我觉得,夸克的梦想是成为大家手机里的 “瑞士军刀” ——没车没房没女票这种大事解决不了,但遇到蹩脚的小困难,掏出来一准儿能搞定。

给你们看一下夸克工具的列表⇩⇩⇩

为了达成这个目标,不只是尹毅彬,夸克团队每个人都患上了“需求搜集癖”。。。

他们就像八爪鱼:产品经理做调研,技术老师傅看数据,运营小姐姐接客诉,反正有各种渠道和用户沟通。用户想要啥,分分钟就能传递到夸克团队,没准新功能几个星期就做出来了,有一种“被宠溺”的感觉。

讲真,在今天的世界,能够和用户混成这种好兄弟(好姐妹)的互联网产品都已经不多了呀。

不过这也好理解,因为夸克团队和他们的用户一样年轻,几乎一水的90后。其中最小的一位生于澳门回归的1999年。毕竟中国人不骗中国人,年轻人不坑年轻人嘛。

好,认识了这群头发尚且浓密的年轻人,我们回到主线剧情。

搞出“试卷去手写”,无数小朋友可以骂骂咧咧开开心心去写作业了,但这只是故事的《序章》。

夸克这群年轻人像胡八一那样提鼻子一闻,忽然感觉自己站在一座“尚未完全被开发”的宝藏大门前,这座宝藏就叫——扫描。

之所以说尚未完全开发,是因为扫描这座宝藏早已被人发现,市面上也早有一些扫描产品。

只是夸克这群人觉得前人挖掘得不细心,或者说勘探技术不到位,就拿“试卷去手写”这样的具体任务来说,在他们之前就没人做得这么精细嘛。。。

于是,一场内部讨论展开:如果做一个市面上最好的把“纸质文件”扫描成“数字文档”的扫描工具,谁赞成?谁反对?

团队那位99年的同学赶紧举手:

我上大学那时候,哦,也就是去年,就特别想要一个这样的工具。因为老师讲课的PPT翻得太快,我只能用相机一张张拍下来,再用 iPhone 的备忘录功能整理起来。虽然四舍五入能用,但是像我这么社恐的人,坐在教室最边上,拍出来的照片都是梯形。。。

话音未落,另一个同学插话:

我表哥在投资公司工作,我记得他吐槽,说每天都得把各种纸质文件、单据神马的扫描归档,扫描仪难用的一比。

恰在此时,探马回报,在北京、广州、秦皇岛等等城市的用户调研里,很多夸克的主力用户——老师和学生——也都吐了这个槽:学知识最好是举一反三,得把错题抄下来反复练嘛。但除非爱好书法,谁能耐下心来手抄那么多错题呢?

而且,人类都已经进入赛博朋克纪元了,把这么多时间用来物理抄题,也太 old school 了吧?能有个顺手且强大的手机扫描工具多好啊!

正所谓,工欲善其事必先利其器。你让哈利波特去削伏地魔,不得先给他个扫帚么?你让小智干翻全世界的宝可梦,不得先给他个精灵球吗?你让你家小孩考清华,不得先给他个“扫描王”么?

夸克扫描王产品负责人夏雅瞳小姐姐一拍桌子:决定了!咱们就帮大伙儿把“扫描王”做得更好用!

小智,你扪心自问,如果把精灵球改成三室一厅总统套房,皮卡丘能不愿意进来么?

(二)高清无码大图,get✓

说到扫描,咱们小时候见的扫描都是那样的:把纸质文件按在一个扫描仪上,然后“呲——”,电脑上就显示出了一模一样的图片。

那个操作叫“光学扫描”,实际上,那已经是老黄历了。

听中哥给你科普,现在的扫描比女生化妆还厉害:

第一步、 拍图片

用手机给文件拍一张素颜照,App会自动帮你裁剪,摆正角度,去掉无用信息,相当于打了个遮瑕粉底,然后把图片上传云端。

第二步、修图片

云端算力充沛,AI 能识别出文件上的瑕疵(例如纸上的脏点、水印、手写痕迹),把它们都去掉;再识别出有用的文字,把它们加深,变得更清晰。相当于眼线红唇化个全妆。

第三步、导图片

云端把这张图片传回给手机里的 App,App 帮你导出定妆照,也就是扫描结果的图片。

完美结束,撒花出街。

这样三步下来,比光学扫描的“素面朝天”那简直高到不知哪里去了。

不过,欲戴王冠必承其重,这个“美颜之旅”比大多数人想得难多了。

怎么个难法呢?咱们先请上夸克团队的第一位现身说法的选手,他就是王淮。王淮在夸克App的研发团队,负责我们刚才说的“第一步”。

王淮

王淮是个“强迫症”,一幅画挂歪1度都能看出来那种。但做 App 客户端恰恰需要这种细致的精神。

刚接到任务,一个不是问题的问题就挡在面前——该用什么拍照方式?

你肯定没有注意过,摄像头获取图片其实是有两种方式的:

一种是速度快但画质感人的——就是进入摄像模式,从流动的画面里截取一帧凑合能看的。 一种是画质好但速度感人的——就是进入拍照模式,老老实实对焦,调整光圈快门,拍一张照。

王淮玩得比较遛的是第一种“视频截图”。因为他们之前做的“万物识别”功能,就在用这种方式。

为啥呢?因为那些图片是用来做“分类”的——比如你拍了一只狗,即便是模糊的狗,相比于猫,AI 也会觉得它也更像狗——所以不用清楚,拍得快才是王道。

可是扫描就不同了,它的终极目标不是分类,而是清晰呈现这张照片里的每一个细节。

没办法,王淮只能老老实实选择“拍照模式”。可这样一来,体验就不太流畅,他又和一群强迫症事们做了10086个优化。

接下来可以拍照了吧!王淮把自己手机翻过来一看,卧槽?!怎么这么多摄像头?

第二个问题又迎面扑来——该用哪个摄像头?

废什么话?随便选一个不就行了吗?

“不行。我们试了一下,长焦镜头一般光圈大,拍出来的照片景深小,这样用户如果拍摄角度倾斜,就会造成一半清晰,一半虚焦。。。广角镜头一般光圈小,能拍清楚。但如果镜头视野太宽,纸张占画面的比例又比较小,有效像素不够多。。。”

王淮解释。

就像这样⇩⇩⇩

他们最后写了一套规则,让夸克 App 在手机里现场“唐伯虎点秋香”,找出最适合做扫描的那颗摄像头。

可实战中到底能不能选准秋香,王淮心里有点嘀咕。。。他又请测试团队的同学真的用不同型号手机拍了几千张照片,把每一个机型都调优了一遍才罢休。

这下可以拍照了吧?还不行。。。

夸克的用户数以亿计,你永远想象不到大家在拍照片的时候是在九天揽月还是在五洋捉鳖。

比如有的人手抖,拍出的照片就是帕金森模仿秀;有的人心不在焉,拍出的照片就是斜到怀疑人生;有的人是暗夜骑士,拍东西祖传不开灯。

于是第三个问题来了——怎么保证拍照清晰?

王淮他们在拍照界面加了提醒——探测到画面光线不足,就提示开灯;还加了网格线——眼残的可以参考网格拍得横平竖直;还做了一个实时对焦模块——哪怕用户冷不丁地按下拍照,也能保证尽量清晰。

看到这儿,有老哥可能会问:这都是什么鸡毛蒜皮的小事啊?

其实我是故意选择这些琐碎细节讲给你听的。因为你懂的,面对这些细节都能如此“强迫症”的人,是很难在图像裁剪、图像压缩、图片上传链路这类更严肃的事情上偷工减料的。

“咻——”,随着图片传上云端,沉甸甸的接力棒也交到了第二位选手,云端算法工程师黄锐华手上。

黄锐华

黄锐华是个技术控老司机。他的驾驶风格是:“我前面不能有车”。

凡是遇到什么技术困难,他不睡觉也得把全世界的解法都找来,然后不允许任何一个解法比自己更好。。。

开发过程中,看着手机端传上来的图片,黄锐华皱皱眉头:喂,这图片怎么有好多都是“S身材”啊??

你想想看,一张纸,如果能够平平展展让你拍照,那是烧高香的情况。大多数情况,咱们打开书拍某一页,书页肯定是弯折的,而且越靠近书脊,弯折程度越大,就像霍金的黑洞。。。

黄锐华当时就暴躁了,一张纸这么“性感”,很影响扫描效果的好不好?!

接下来的问题就是——怎么把S形书页给拉直?

其实方法就是借助人工智能,让 AI 对着弯折的书页“YY”它平展的时候应该是什么样。 可问题是,要想让人工智能学会这个技能,先得给它学习资料——同一张纸弯折时和平展时的“对比数据”。这个数据还不能只有一两组,得成千上万组才行。

黄锐华给我解释。

虽然但是,从哪去找这么多书页弯折的数据呢?这数据又不是可乐,街边随便找家店就有卖。。。而且也来不及自己一张张拍啊,等你拍完,等着扫描书页的大学生都该领退休金了。。。

一个平时喜欢玩游戏的同学若有所思:诶,3A游戏大作不都会用到物理引擎么?

一语点醒梦中人,黄锐华组织大家搞了好几本书的3D模型,然后用游戏物理引擎对它进行各种“蹂躏”,这不一下子就有了丰富的训练数据吗?

这么一搞,效果拔群。

看着 AI 书页拉直的效果越来越棒,黄锐华仰天长啸:果然,不会3D建模的AI工程师不是好司机啊!

搞完这些,已经是2021年春天。

丑媳妇总得见公婆,“夸克扫描王”终于发布了。

春江水暖鸭先知,夸克新功能铁杆粉丝先知——说时迟那时快,在夸克的粉丝群里,已经有眼尖的人发现了扫描王。

夸克团队搬好小板凳排排坐,等着夸奖砸来,不过,夸奖没等来,却等来了板儿砖。

“欸我这个扫描出来怎么是花的啊?”有粉丝问。

黄锐华一看粉丝发来的“证据”,居然是对着电脑屏幕拍的,上面都是摩尔纹。。。

“欸我这个卷子怎么扫描之后还能看出背面的字啊?”

黄锐华一问,才知道这哥们的卷子太薄,简直是蕾丝半透款,背面的字毫无压力地透了过来。。。

“欸我这扫描出来怎么还带手指头啊?”

黄锐华一看,原来这哥们是拿手举着一本书扫描的,手指头也拍进去了,AI 以为是书上的插图呢,给强势保留了。。。

“这好办,你告诉他们拍照的时候别用手扶着不就行了?”我提议。

“用户用手扶,一定有他不得不扶的道理。我们既然要做全世界最好的扫描工具,就不可能让用户来适应我们。”黄锐华一脸慷慨。

本着“做最牛X的扫描工具”的原则,老师傅们继续返工:优化了人工智能算法,让它更好地识别出背面透字;还教会了 AI 识别边缘乱入的手指头,自动擦除;还研究了去摩尔纹的滤镜。

注意,刚才提到的各种滤镜是一层层“叠buff”的。

比如,上一层去摩尔纹的输出结果是下一层去边缘手指的输入资料;去手指的输出结果又是下一层去背面透字的输入资料。

这很像杂技演员踩着高跷,头上顶着水缸,手里扔着12个鸡蛋,腰上还转着5个呼啦圈——但凡中间任何一个环节出问题,整个杂技都会垮掉。

做扫描难,就难在了这儿。

耿直的夸克用户是一面明镜,不满意会吐槽,满意会真夸。经过了几次改进,夸克粉丝群里逆风翻盘,变成夸夸群。

尹毅彬现在还记得,有一个用户专门跑来说:“我从来没用过这么好的扫描产品,扫出来真白,就跟新买的书一样!”

不过彼时沾沾自喜的扫描王团队,就像刚出长安的唐长老,还不知道有一群妖怪正围着餐巾等着他们呢。

那天,运营小姐姐找到尹毅彬,跟他提到了一个用户投诉。

那个用户留言说:“用夸克扫描出来的文件,我没法用!”

“扫得这么白,怎么没法用?”尹毅彬一边嘀咕,一边决定跟那个投诉用户直接打个电话。

他恍然大悟,原来这个用户在扫描一份鉴定报告,在报告的下面,专门铺了签发机构的防伪水印。可是在AI看来,水印这种脏东西不是要去掉的么?一秒钟擦得干干净净,对用户说:快夸我!

用户说:我谢谢你啊!

无独有偶,另一个用户反馈也前后脚进来:他想扫描一个发票,用于报销。可是夸克扫描王扫出来的发票过于白嫩,而且经过“清晰度补足”的滤镜,红章就会变得暗淡,打眼看上去就像是街角买的假票。。。那哥们都不敢提交报销了。。。

原来,“一白遮百丑”也不总是真理。

一个巨大的哲学问题摆在夸克扫描王团队面前:当“真”和“美”坐在跷跷板的两端,到底要怎么选?

就和生活一样,没有人永远需要真实,也没人永远需要漂亮。所以我们的结论是,你要去 了解 用户在扫描那一刻的真实意图,才能更准确地服务他。

尹毅彬解释。

于是,在随后的升级里,夸克扫描王加入了一道“自动识别逻辑”:判断这是个单据,就以“真实呈现”为主;判断这是个文件,就以“黑白分明”为主。

这个思考影响深远。

从这件事以后,夸克团队就像搞了个高音喇叭放在耳边,时刻在喊:“你们确定真的了解用户想干嘛吗?R U F**KING SURE?!”

“警钟长鸣”之下,他们有了惊奇的发现——当用户扫描的时候,有时并不想“扫描”。

(三)当你扫描的时候,你在“扫描”什么?

“在我们的一生中,遇到爱,遇到性,都不稀罕,稀罕的是遇到了解。”这是廖一梅在话剧《柔软》里写下的台词。

这句话恰好完美隐喻了互联网产品的难处。

在真实世界里,哪怕你和最要好的朋友对面长谈,都无法完全理解Ta的意图;更别提在赛博世界里,提供服务的系统和用户相隔万里,只能通过用户令人费解的行为碎片来“猜”。

我问你,当一个用户扫描了电脑屏幕上的一串快递单号,Ta 想干嘛?

我再问你,当一个用户没有调用摄像头,而是去相册里调取了一张写着名言警句的图片进入扫描王,Ta 想干嘛?

有没有一种可能,此时他们并不是想“扫描”,而是想把照片里的文字提取出来,复制到别的地方用?

有可能是,也可能不是。。。

2021年夏天,夸克这群年轻人就带着这种狐疑上线了“文字提取”功能。

这个操作效果炸裂。

从激增的后台调用量看,用户仿佛在说:这么牛X的功能,搞么子现在才上?

为啥大家对文字提取这么情有独钟?我还真琢磨了一下。

看看我们自己的大脑就知道了,人类的右脑负责形象思维,左脑负责逻辑思维。长期的进化让大脑产生了这样的左右分工,那必然是因为这样比“左右脑一团浆糊”更好。

好处是啥呢?省能量。

语言文字属于逻辑思维——可以用“抽象的信息”反应“具象的世界”——而抽象的信息真的很省地方。

你看,说“苹果”两个字只需要半秒,把这两个字写出来也只需要两秒,可画出一个苹果恐怕需要一分钟。遇到手笨的,画一个苹果恨不得消耗两个苹果的卡路里。。。

所以,“文字提取”功能的本质是把一张“图像”里的“逻辑信息”(而非视觉信息)提取出来,复制、粘贴、修改、搜索随你大小便——大大降低信息处理的成本。

在原有的视觉工具旁边直接加了一个逻辑工具,冲锋枪+迫击炮,买一送一,肯定受欢迎嘛!

(我替你们体验了一下文字提取,原谅我此时身处宾馆,能找到的纸不多。。。)

尝到“提取”功能的甜头之后,夸克这群“摸金校尉”如同找到了扫描领域的新一道暗门,向幽深的秘境又挺进一层。。。

尹毅彬回忆,那天产品团队在整理用户反馈时,又发现一个奇怪的案例。

这个用户反馈了一张手写的购物单,上面写着:菠菜XX元,买了XX斤;白菜XX元,买了XX斤,诸如此类。

用户的诉求是:我拍了这个购物单,你们能不能给我转成 Excel 表格?

原来,他是一个饭店的采购员,每天进货,月底盘点,得把30天的数据金额加总。过去手写数字加总,得鼓捣半小时,还不一定算对。如果能有工具把手账变成 Excel,那妥妥从石器时代直接进入工业革命啊!

尹毅彬一看,有道理!他去找技术老师傅,有点心虚地问:手写字,能提取出来么?

黄锐华呵了一下:可以试试。

其实,这个技术黄锐华团队并没那么陌生。在两年前夸克的“学习”模块里,就实现了一个小功能:把学生手写的答案转换为印刷体。

但注意,这两者的难度是不同的。

一个学生写题,他的目的是让判卷的老师看懂,潦草程度是有下限的。

比如这样:

一个人写采购单,就是为了记账给自己看,那潦草程度是没有下限的呀!

比如这样:

简而言之,之前给搜题做的那套手写识别技术根本拿不出手,必须加大数据剂量,重新训练。

不过,这次黄锐华遇到了强劲对手。越深入训练,技术团队就越抓狂——仿佛自己身处一个深不见底的巨坑里。。。

手写体的难度不只在于潦草,更在于你要理解手写信息的复杂含义。 比如访客登记的时候,上面那个人在性别那栏填了“男”,你填表的时候,就在下面打两个点,表示“同上”。人类很容易理解的事情,人工智能就想不通。 再比如我们写好了一段话,突然想在两句之间新插入一句,就会打一个插入符号,然后把新的字写在缝隙里。这种意思AI就很难理解。

黄锐华解释。

地狱级的情况还在后面——手写字和印刷字同时出现在一张纸上。。。

举几个栗子:

比如,我在一个填空题上写了“一”,但在人工智能看来,这个“一”是一横,下面的横杠也是一横,这不就是“二”么?

再比如,我在方格本里写了“女人”,人工智能肯定会质问你,这TM不是“囡囚”是什么?

乱世须用重典,难题得上狠活。为了解决这个问题,老师傅一股脑派了三个 AI 出战:

首先,训练一个AI,它不负责识别文字,只用来分辨哪一笔是手写的,哪一笔是印刷的。 然后,是正常的 AI 文字识别。由于刚才已经尽可能把两种笔画分开,此时识别准确率会大大提高。 最后,再派一个 AI 结合上下文读一读通不通顺。比如,“美好的一天“明显就比“美好的二天”更通顺;“她是个女人”,就比“她是个囡囚”更对嘛。。。

总之,两个月后,黄锐华在会上蛋定地展示手写文字提取 Demo 的时候,尹毅彬吓得一蹦:老哥,你还真弄出来了呀!

有了“印刷体”+“手写体”这两个文字提取,夸克扫描王才多少配得上“王”的称号。

想想看,无论是在书上看到语句,还是在街上看到标语,还是在插图里看到内嵌的文字,你都可以在朋友的注视下,从容地掏出手机,一秒钟把文字复制出来,“咻——”地发给他,优雅蛋定不脏手。

这感觉很酷。装X利器不一定是一个好的生产力工具,但一个好的生产力工具,一定是个装X利器。

手写文字识别准确率到了99%,手写识别率到了90%,扫描王团队以为事情已经做到八九不离十。然鹅,他们又错了。。。用户就像一盒巧克力糖,你永远不知道下一个是神马口味。

他们总能扫描“奇怪的东西”。。。

(四)去冒险吧!

你看这个:

一个公式,你猜夸克扫描王会扫出神马效果?

有了刚才的铺垫,你可能也成了半个专家:首先,夸克至少可以把公式当成一个图片来扫描(就像我现在把这个公式截图插入文章一样);但是,它有一个更优雅的选择——把公式像文字那样“提取”出来。

没错,这里遇到了一个比“文字提取”棘手一百倍的问题:“格式提取”。

而且,“公式”最多只是所有烦人格式里的一种。咱们随便看一张海报,上面有图片和文字混合排版,有各种字体,还有弯成虾一样的变形设计——这一切都是格式!

格式是魔鬼,反正我还记得大学时代被格式支配的恐惧。那时候写论文,“首行缩进”这么一个小问题,经常是删一格太左,加一格太右,纯纯能把人逼疯。

夸克这群人需要“降魔”。为了把一个图片上的格式完整“扒”下来,老师傅们专门去找其他文档团队取经,把一整套文字格式处理逻辑嵌入扫描王。

事情还没完,如果你把文字和图像混合在一起排版,噩梦直接翻十倍。

咱们还以扫描那张海报为例,灵魂拷问一个接一个:

难题一:哪里是图案,哪里是文字?

海报的排版是放飞自我的。各种颜色的装饰、斑点还有文字、字母、数字都掺杂在一起。

很多时候就连视力1.5的人都得仔细分辨哪个是“逗号”哪个是“底色里的装饰黑点”。

难题二:到底是海报斜,还是图案偏?

人眼有误差,很难把海报拍得周正,总会有多多少少的偏角。这个时候系统理应把海报转正。

可问题来了,假如海报上有一个艺术字,字体就是斜体的。那么,怎么判断是“因为海报 斜了这个字才斜了” 还是 “海报没那么斜这个字本来就是斜的” ?!

难题三:到底是图案还是瑕疵?

有些海报很大,展开之后会有折痕。那请问,如何判断一条线是海报上的图案设计,应该保留,还是无用的折痕,需要抹除?

难题四:背景如何补足?

海报扫描出来是带有格式的,这也就意味着你可以修改海报上的字。

可海报不再是 PS 文件,所有图层都已经融成一体。如果你删掉了一个字,它下面就会露出一片恐怖的空白啊!应该用什么颜色、图案来填充呢?

这里面随便一个问题都是业界难题,但黄锐华挽起袖子,劳资不上秋名山,你们真当我是卖豆腐的!

比如“折痕”和“图案”,从三米开外可能看起来一样,但是如果放大端详,一定能找出二者区别。算法需要做的改进就是“精细”。但做这么精细的微操,就代表云端 AI 要计算更多的数据,耗费更多的计算力。

比如“背景补足”,其实现在最先进的AI算法是可以根据周围的信息把中间的空白补充得以假乱真的。问题还在于“数据量”和“计算力”,只有在云端猛堆机器,才能把这个活儿干漂亮。

AI 的殿堂欢迎技术流,但更欢迎人民币玩家。

黄锐华告诉我,为了挑战极限,他们已经卷疯了,2022年整个夸克云端的AI计算力已经升级成最新一代的 GPU,上面跑的算法基本每个月都有升级更新。

此时此刻,虽然海报的扫描效果还没达到他心中的完美境界,但相比世界范围内的同类产品,他还是可以拍胸脯的。

我帮你试了一下⇩⇩⇩

我们的用户对排版接受很高的。从会员付费情况就能知道,大家愿意为好的效果买单。

黄锐华不客气。

说回我们的故事。从2022年开始,夸克扫描王突然进入了一个有趣的螺旋:能扫描的东西越奇怪,就有越多人用;越多人用,这群人就会去扫描更奇怪的东西。

正所谓,浪大了不知道催上来什么海鲜。

最近,通过各种渠道,老师傅开始看到有人拍歌单,有人拍乐谱,有人拍少数民族的文字,还有人拍一堆源代码。

‍虽然他们没说,但用户肯定不会做无意义的动作。

黄锐华说。

于是,扫描王团队开始思考一些疯狂的事情。比如,能不能内嵌一个音乐播放引擎,让扫描王看到五线谱就直接把音乐播放出来?比如,能不能加入一个模拟器,把看到的代码直接运行出来?

你看,从提取文字,到提取格式,现在到了“提取一切”。扫描这个坑比马里亚纳海沟还深。。。

当然,这些只是一小部分例子,各种有趣的功能每天都在讨论中,受限于各种因素最终未必都做出来。但老师傅敢讨论这些东西,前提是扫描的核心技术已经到了足够“支撑花活儿”的地步。

“就拿代码来说,它对格式极其敏感。同样一个位置,放两个空格和三个空格,意义就不相同了。如果扫描不对,肯定执行不对!”黄锐华解释。

聊到这里,我颇有一点感慨。

用户在拍这些奇怪的东西时,肯定没想这么多。但实际上,远在千里之外,他们所有靠谱不靠谱的尝试都没有被责怪,更没有被忽视,而是被思考,被念念不忘,被必有回响。

如果说存在“互联网精神”的话,恐怕这就是互联网精神的重要部分。

我在2020年曾经和夸克的小伙伴们聊过一次(参考 ),那个时候,我感觉夸克的用户中学生比例极高——就是那些整日做题、搜题,纯纯的人生新手。

但如今看夸克扫描王的用户,已经大有不同。

他们之中可能有公司的人事经理,需要经常整理人员信息,备份合同;可能有工程师,需要扫描图纸增改设计;可能有“包租婆”,需要扫描一份旧的租房合同,修改一下信息重新打印。

这张图里有房屋租赁交割单、企业询证函和材料计划表。

这些用户显然已经走出了人生的新手村,正在各自的战场跟怪兽搏斗。

在我看来这是一个有爱的变化。

我试着想象这件事是怎么发生的:也许是在学生时代就用夸克的人长大了,他们进入了五花八门的工作岗位,仍然习惯依靠夸克解决问题;也许是一些“老人”被年轻人安利“夸克yyds”,然后入坑。也有可能是两种情况兼而有之。

但这一切之所以发生,恐怕是因为在一段不短的日子里,夸克没让他们失望。

大多数时候,“维护信任”比“建立信任”更难。因为你要在漫长的岁月里时时审视自己——不仅审视自己的善,更要审视自己可能的恶。

(五)兄弟,信我!

在夸克日常收到的反馈里,有律师说他用夸克扫描裁判文书,也有公司财务说她会扫描经营数据。

看到这,你也许会有点隐隐的不舒服。

没错,大胆说出来——这些数据涉及隐私,用夸克扫描王时,数据经过云端会不会有问题?

这件事儿引发的大讨论,居然没有首先发生在夸克的用户群里,而是在夸克团队内部。

为了使后面的讨论基于事实,这里必须得强调,夸克团队的任何人都不能查看用户上传的图片,也不能以任何形式泄漏用户上传的数据,约束他们的不只有自我道德,更有法律条文。

但你吃了几碗粉,不是你说了算。世界的运行,也不能靠赌咒发誓。

比如,有很多公司,在规章制度里就写明,禁止内部数据上传互联网,不管会不会引发问题,反正不允许上传;还有很多特殊的工作环境,本身就带有信号屏蔽,这种情况下,就算让你用都没办法用。

意识到这些问题以后,夸克这群人决定紧急上线一个“补丁”——离线扫描

你还记得一开始我们说的扫描三步走吗?1、本地裁剪;2、云端处理;3、发回本地导出文件。

所谓离线扫描,就是把第2步本该在云端完成的一切(去瑕疵、去手写、文字提取、格式提取等等)统统都塞在手机里完成。数据从头到尾都不出手机,自然不会有隐私泄露的问题。

这种“不出手机”是可验证的——你可以关掉网络,拔掉手机卡,进入信号屏蔽室,whatever,只要手机有电,夸克扫描王就能工作。

可是,这个目标会引发一个巨大的技术问题:

算法团队刚刚使出吃奶的劲儿,把云端的计算力飙到最高,把算法卷到最新,才把扫描效果做到极致。现在你端着手机告诉他,忘掉你们那可爱性感一望无际的小云朵吧,这个小盒才是算法的家啊。。。

然而,暴躁老师傅黄锐华没有掀桌子。相反,他非常支持。

他支持到了从本就人手不富裕的团队里分出一个小分队,专门做“离线算法”的程度。

把算法塞进手机,难度堪比把大象装冰箱,严格来说比把大象装冰箱更难,因为云端算法比手机里的算法大100倍。而世界上没有任何一个东西压缩100倍之后还能保持原有的功能——这意味着大多数算法必须重写。

老师傅没日没夜地飙车,终于,2020年8月“离线扫描”重磅上线,用1%的模型大小,实现了云端90%的水平。

从一个角度看,离线扫描的水平非常惊艳,但从另一个角度看,它却是一个“性价比非常差”的功能。

比如,它上线之后,被调用的数量并不多——因为绝大多数情况下用户扫描的都不是敏感信息,不会开启离线模式。

比如,派一个专门的团队来持续维护离线算法非常不经济——相当于一辆车同时有两部引擎运转,开销巨大。

而且,还有一个非常难受的问题:在大多数用户的注意力没有放在隐私风险的时候,主动推出离线扫描,反而让他们觉得怪异,有引火上身的风险。就像我忽然对你说:你猜我的裤子拉链有没有拉上?哈哈,拉上啦!

但尹毅彬说,他们不这样看问题。

“一个功能好不好,不能纯粹用数据来衡量。说得不客气一些,数据是会骗人的,有时你必须更相信自己的脑袋。”他说。

“但成本上总会有压力吧?”我问。

“当然有压力。压力归压力,正确的事归正确的事。”他说,“况且,正确的事情早晚会带来数据的回报啊!不用担心,长期来看我们并不亏。”

讲真,每个年轻人长大的过程中,生活都会或早或晚给他上一堂必修课,那就是:当越来越多人依赖你的时候,你身上就凭空出现了一种叫做责任的东西。而责任就是责任,它不会因为你不想负责任而变成别人的责任。

这是一个既简单又难的道理。简单到人人都能理解,却难到极少有人能够做到。

话说回来,性价比很高的事情,总共就那么三五件,智商正常的人都在做。真正把人和人、产品和产品区别开的,不就是谁做了更多性价比不那么高,但正确的事情么?

倒不能说夸克已经是楷模,我的意思是他们努力的方向还挺性感的。

(六)我们各自还有一生的奇迹

王淮是一个对未来充满想象的人。他具体在做的事情虽然只是一个夸克客户端,但他却相信,手机背后这几颗小小的摄像头里有关于未来的隐喻。

我们基于摄像头做了很多不同的事情,但这背后有一条主线任务—— “理解世界” 。 比如我们最早做的万物识别,是理解镜头里的物品;现在我们做的扫描王,是理解一个平面上的信息。 如果向未来看,我们可以让镜头对准一切,比如你的视野里是街景,屏幕上就会把这个建筑的名字标注出来;比如你的视野里是一本书,就会把作者年代书评等等信息显示出来,英文书也可以实时翻译成中文。 在我的个人观点里,基于相机的工具的终极形态,应该是一个AR(增强现实)助手。

他说。

我在网上找到了一些AR未来应用的片段 ⇩⇩⇩

我回味了一下他的描述,脑海里突然出现了一个奇怪的场景:

我是一个上班第一天的战五渣,紧张到脸盲,连隔壁同事叫什么都忘了,这个时候,打开AR眼镜上的扫描王,对方的名片,还有我们认识的时间地点,曾经交谈过的内容,都出现在眼球几厘米开外的小屏幕上,简直是社恐救星。

就在我盯着屏幕认真研究对面这个人是谁的时候,惊奇地发现他也在斜眼看自己的屏幕,奋力找出我是谁。。。

这个场景等同于:一个游戏新手,正瑟瑟发抖站在旷野上,突然从天上掉下来一把满级神刀,拿起来刚想大杀四方,发现身边所有的对手也都瞬间添置了一模一样的刀。。。

如今每个人都能坐在铁鸟的肚子里飞到全世界任何一个地方,每个人能用带芯片的板砖跟天边的朋友通话,你并不会惊奇。因为当每个人都有神刀的时候,每个人就都没有了神刀。

科技让我们平等地进步,平等到没人大惊小怪。

如果真有什么是神奇的,在我看来,是夸克团队和他们的用户,这两群年轻人一直在隔空“陪伴”。

当年轻人上路,口袋里揣着一个精灵球,虽然牛鬼蛇神在前路夹道欢迎,但他们无比确信,在云端有一群和自己一样逗比又好奇又不愿轻易认输的强迫症、老司机、好哥们,在没日没夜地绞尽脑汁帮自己改进精灵球,心里也许会稍稍安慰。

相信老哥我,以我三十多年对这个操蛋的世界的理解,哪怕是这种稍稍的安慰,都是人生中不可多得的珍贵情感。

能带着情谊和一群朋友一起变大,变老,从战五渣变成“老战五渣”,反复吐槽那些只有你们之间才懂的烂梗,恐怕无需远求,人间至味是此清欢。

虽然你我终将老去,但总有人正年轻。

有一件事我们无比确信:在世界的角落里,永远有18岁的少年,他们在新手村口最后回望,然后扶一扶剑柄,决绝地走向荒野。

也许这时,BGM还会响起那首老歌:你要去哪里,我去哪里,我也不在意。以后我们各自还有一生的奇迹。

干翻宝可梦

先有精灵球

再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax

哦对了,如果喜欢文章,请别吝惜你的“在看”“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。

Thx with in Beijing

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6月13日俄乌最新:俄罗斯海军最强战队杀入美国后院

6月13日俄乌最新:俄罗斯海军最强战队杀入美国后院

西楼饮月
2024-06-13 15:12:33
河南考生高考分数627成335,四位家长一起举报,结果惊呆了

河南考生高考分数627成335,四位家长一起举报,结果惊呆了

纸鸢奇谭
2024-03-24 14:17:20
这次轮到张凌赫翻车了?和赵今麦恋爱引争议,网友:像爸爸和女儿

这次轮到张凌赫翻车了?和赵今麦恋爱引争议,网友:像爸爸和女儿

一娱三分地
2024-06-14 23:48:24
惊呆!这里房价暴跌70%,真应了马云说的白菜价

惊呆!这里房价暴跌70%,真应了马云说的白菜价

山丘楼评
2024-06-14 23:55:48
吴艳妮人气堪比奥运冠军!长发披肩没化大浓妆 网友称赞:格局大

吴艳妮人气堪比奥运冠军!长发披肩没化大浓妆 网友称赞:格局大

念洲
2024-05-29 11:59:28
出嫁前一天在全小区丢人

出嫁前一天在全小区丢人

悠闲葡萄
2024-06-09 09:57:44
马斯克说到做到:4000亿工资到手后,将特斯拉迁走

马斯克说到做到:4000亿工资到手后,将特斯拉迁走

互联网.乱侃秀
2024-06-14 10:28:34
1968年,张大千的四姨太徐雯波,正恭敬地跪在地上拜师

1968年,张大千的四姨太徐雯波,正恭敬地跪在地上拜师

视点历史
2024-06-15 17:59:58
都是花言巧语,别再“尬吹”毛东东了

都是花言巧语,别再“尬吹”毛东东了

一枚小吏
2024-06-13 09:44:46
为什么“父亲节”变得如此低调呢?

为什么“父亲节”变得如此低调呢?

叒女紫121
2024-06-15 17:02:11
真相大白!原来离婚是大S设好的局,现在事态不受控,官方提醒大S

真相大白!原来离婚是大S设好的局,现在事态不受控,官方提醒大S

八卦王者
2024-06-15 21:20:26
英媒:中国正加速成长为“科学巨人”

英媒:中国正加速成长为“科学巨人”

参考消息
2024-06-15 09:14:11
不交吃亏!7月1日起2024年城乡居民医保缴费要多交670元

不交吃亏!7月1日起2024年城乡居民医保缴费要多交670元

映射生活的身影
2024-06-15 12:49:19
第三艘航母建造计划失败,损失上百亿元,军方承认失去第一宝座

第三艘航母建造计划失败,损失上百亿元,军方承认失去第一宝座

星辰故事屋
2024-06-15 17:40:47
三只羊集体参加快乐向前冲,女主播身材满分,嘴哥一人拿两台冰箱

三只羊集体参加快乐向前冲,女主播身材满分,嘴哥一人拿两台冰箱

新游戏大妹子
2024-06-13 11:46:12
“南涝北旱”之下:有河南农户一个人浇地60亩,有广东居民一周没见到太阳

“南涝北旱”之下:有河南农户一个人浇地60亩,有广东居民一周没见到太阳

红星新闻
2024-06-15 17:47:11
不是周琦,不是张镇麟,中国男篮最新队长曝光,辽宁队球迷破防了

不是周琦,不是张镇麟,中国男篮最新队长曝光,辽宁队球迷破防了

宗介说体育
2024-06-15 14:03:02
此地已接诊16例!警惕这种病

此地已接诊16例!警惕这种病

北青网-北京青年报
2024-06-16 08:25:35
16年,136场,西班牙恐怖纪录终结,换了活法:克罗地亚无言的痛

16年,136场,西班牙恐怖纪录终结,换了活法:克罗地亚无言的痛

风过乡
2024-06-16 07:00:43
最新积分榜!一场3-2爆冷让中国女排获大分,日本女排无缘亚洲第1

最新积分榜!一场3-2爆冷让中国女排获大分,日本女排无缘亚洲第1

小马哥谈体育
2024-06-16 06:02:56
2024-06-16 10:06:44
浅黑科技官方
浅黑科技官方
科技有温情
223文章数 22933关注度
往期回顾 全部

游戏要闻

M站92分!《命运2:终焉之形》是今年最高分游戏之一

头条要闻

媒体:G7联合公报29次提到中国 对涉华议题大放厥词

头条要闻

媒体:G7联合公报29次提到中国 对涉华议题大放厥词

体育要闻

超燃欧洲杯!16岁巨星起飞 6秒狂奔40米

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

科技要闻

iPhone 16会杀死大模型APP吗?

汽车要闻

东风奕派eπ008售21.66万元 冰箱彩电都配齐

态度原创

教育
手机
家居
健康
公开课

教育要闻

AMC、学科词汇、纽伯瑞金奖.. 外滩小程序打卡,全场6折!

手机要闻

泄露的渲染图显示三星Galaxy S24 FE采用了更薄的边框和平面屏幕

家居要闻

空谷来音 朴素留白的侘寂之美

晚餐不吃or吃七分饱,哪种更减肥?

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版