网易首页 > 网易数码 > 正文

谷歌上马神经网络 百名PhD人工处理数据

0
分享至

(原标题:谷歌上马神经网络 百名PhD人工处理数据)

摘要:搜索“世界上最快的鸟是什么?”谷歌会告诉你:“游隼。根据 YouTube,游隼被记录下最高 389 km/h 的时速。”这的确是正确答案,但它并非来自于谷歌的数据库。当你输入这个问题的时候,谷歌搜索引擎找出了一个描述世界上五种最快鸟儿的 Youtube 视频。然后它只把最快的“一种”鸟儿的信息提取出来,不提及另外四种。

这是谷歌搜索最新的技术进展。为了回答这些问题,谷歌需要借助深度神经网络作为 AI 技术之一,它不仅正在重塑谷歌搜索引擎,还在革新谷歌全套人工智能服务。其它互联网巨头当然也受到波及,例如 Facebook 和微软。

深度神经网络是一种模式识别系统。它能通过分析海量数据,学习如何处理特定任务。这个例子中,它学会了怎么在网络上的长篇文字中找出相关的一句或一段话,然后提取其中的要点呈现给你。

移动端谷歌搜索刚刚上线这种“句子压缩算法”(sentence compression algorithms)。这个对人类来说很简单,但对传统的机器来说很难的任务,终于能被 AI 系统完成。这说明,深度学习正在促进自然语言理解这门艺术(理解并回应人类语言)的发展。

谷歌研发产品经理 David Orr 说:“对于“句子压缩”,你不得不使用神经网络算法,因为这是目前我们发现的唯一方法。”

为了训练神经网络算法,谷歌在全世界聘用了约百名语言学博士处理数据,对它们人工筛选。事实上,谷歌的系统是从人类那里学习,怎么在大段文字中提取有用信息。而这过程需要一遍遍地重复——这是深度学习一个很大的限制。雇佣大批语言学家不停地筛选数据既麻烦又极其昂贵,但短期内谷歌没有别的办法。

“黄金数据”和“白银数据”

谷歌也使用过期的新闻来训练 AI 问答系统。这使 AI 逐渐理解,新闻标题是如何对文章主体进行归纳的。但这并不意味着谷歌不需要成批语言学家了。他们不仅示范句子压缩,还要对语句的不同部分做标记,以帮助神经网络理解人类语言是如何工作的。David Orr 把谷歌语言学家团队处理的数据称为“黄金数据”,过期新闻则是“白银数据”。“白银数据”作用不小,因为它的体量很大。但价值最大的还是“黄金数据”,它们是 AI 训练的核心。语言学家团队的负责人 Linne Ha 透露,在可见的将来,语言学家队伍仍会继续扩大。

这类需要人工辅助的 AI 学习便是“监督学习”(supervised learning),目前,神经网络都是这么运作的。有时候公司会把这个业务进行众包,有时候它会自发地进行。比方说,全世界的网民已经为数百万的猫咪照片添加了“猫咪”标签,这会让神经网络学习识别猫咪变得很简单——训练数据已经处理好了。但很多情况下,研究人员们别无选择,只能自己一次次为数据添加标签。

深度学习初创公司Skymind 的创始人 Chris Nicholson 认为,长远来看,人工标注数据是不可行的。他说:“将来一定不会是这样。这是极度枯燥的活儿。我想不出比这更无聊的 PhD 工作了。”

监督学习的缺陷远不止如此:除非谷歌聘请所有语言的语言学家,否则这个系统无法在其他语言中运转。现在,语言学家团队的工作横跨了 20 至 30 种语言。谷歌必须在将来的某一天,采取更自动化的 AI 训练方式,即“无监督学习”(unsupervised learning)。

到了那时,机器将能够从未经人工标注的数据中学习。互联网上海量的数字信息可以被直接用于神经网络学习。 Google、Facebook 和 OpenAI这样的巨头们已经开始这个领域的研究,但它的实际应用仍然非常遥远。现在,AI 学习仍然需要幕后的大批语言学家队伍。

via wired

相关推荐
热点推荐
“她”来了!GPT-4o让AI陪伴创业公司无路可走?

“她”来了!GPT-4o让AI陪伴创业公司无路可走?

创业邦
2024-05-14 12:57:01
我来说个有意思的冷知识:这波人民币兑美元从6.2起贬值了15%

我来说个有意思的冷知识:这波人民币兑美元从6.2起贬值了15%

Mon巧的时尚品味
2024-05-07 17:41:07
绝了!大巴黎冲突爆发,心疼姆巴佩!球迷:你感谢过梅西内马尔吗

绝了!大巴黎冲突爆发,心疼姆巴佩!球迷:你感谢过梅西内马尔吗

贝塔说体育
2024-05-14 09:20:53
OpenAI一夜之间革了Siri和同传的命,GPT-4o五大核心能力炸场!

OpenAI一夜之间革了Siri和同传的命,GPT-4o五大核心能力炸场!

头号AI玩家
2024-05-14 06:38:27
华为nova12 Ultra星耀版官宣!5月17日即将开售

华为nova12 Ultra星耀版官宣!5月17日即将开售

手机中国
2024-05-14 14:33:07
李亚鹏道歉了!承认拖欠员工工资,忘记赔偿总额,承诺今天一定还

李亚鹏道歉了!承认拖欠员工工资,忘记赔偿总额,承诺今天一定还

娱小小新
2024-05-14 11:46:40
闹大了!20多艘对100多艘,中菲南海对峙或将上演,美国紧急关注

闹大了!20多艘对100多艘,中菲南海对峙或将上演,美国紧急关注

千里持剑
2024-05-13 16:05:13
他出身黑道,曾是高官的司机和白手套,迎娶小燕子,后花十年洗白

他出身黑道,曾是高官的司机和白手套,迎娶小燕子,后花十年洗白

阿胡
2024-04-29 11:49:43
两性趣事:男生到底有多喜欢胸大的妹妹?

两性趣事:男生到底有多喜欢胸大的妹妹?

坟头长草
2024-05-14 11:42:22
西安科技大学通报教师更改考试成绩:更改成绩无效,多人被给予处分

西安科技大学通报教师更改考试成绩:更改成绩无效,多人被给予处分

界面新闻
2024-05-14 15:03:41
41岁单枪匹马来深圳,做眼袋手术,手术长达40分钟,术后变这样

41岁单枪匹马来深圳,做眼袋手术,手术长达40分钟,术后变这样

白宸侃片
2024-05-14 08:18:27
回顾:“天才奶兔”被针对,穿裸色吊带被骂不自爱

回顾:“天才奶兔”被针对,穿裸色吊带被骂不自爱

沫姐美食记
2024-05-14 14:26:58
刘谦首度回应龙年春晚小尼牌没对上:本来就不可能都成功

刘谦首度回应龙年春晚小尼牌没对上:本来就不可能都成功

阿芒娱乐说
2024-05-13 23:57:53
5月12日,胡律师还原大S刷汪小菲卡198万真相!

5月12日,胡律师还原大S刷汪小菲卡198万真相!

元气少女侃娱乐
2024-05-12 15:26:30
婆婆来家伺候俺月子,走后宝宝却直哆嗦,调出监控,我把宝宝遗弃

婆婆来家伺候俺月子,走后宝宝却直哆嗦,调出监控,我把宝宝遗弃

寄予的情话
2024-05-13 12:12:23
用了十年的苹果手机,突然打开了新世界的大门!

用了十年的苹果手机,突然打开了新世界的大门!

灵感磁场
2024-05-04 11:16:57
电车报废后,电池要运回生产国:欧盟对中国电车的一记重拳

电车报废后,电池要运回生产国:欧盟对中国电车的一记重拳

咖啡店的老板娘
2024-05-13 15:33:55
“2.88万下车礼”后续:婚宴变家宴,新娘肠子悔青,被闺蜜害惨了

“2.88万下车礼”后续:婚宴变家宴,新娘肠子悔青,被闺蜜害惨了

子芫伴你成长
2024-05-12 20:05:08
小米SU7工厂曾一度停工

小米SU7工厂曾一度停工

电动知家
2024-05-14 15:02:58
李亚鹏就欠薪道歉:下班前解决

李亚鹏就欠薪道歉:下班前解决

鞭牛士
2024-05-14 10:26:07
2024-05-14 17:54:44

头条要闻

外交部回应“中方对普京总统访华有何期待”

头条要闻

外交部回应“中方对普京总统访华有何期待”

体育要闻

"全世界最美球场"的主人 时隔21年重回意甲

娱乐要闻

《歌手》引爆全网,众多歌手请战!

财经要闻

多位百亿富豪信息遭泄露 980元包年可查

科技要闻

OpenAI再压谷歌,最强模型GPT-4o免费发布

汽车要闻

不到十万纯电SUV 比亚迪元UP主打一个卷

态度原创

亲子
时尚
教育
本地
健康

亲子要闻

一岁多宝宝能自己爬上高架

50岁女人穿裙子别太素!这样搭配一个比一个美,立马年轻十岁

教育要闻

临近高考,家长如何做,不增加孩子的焦虑和压力

本地新闻

云游中国|哪吒小镇,潮玩新地标!

在中国,到底哪些人在吃“伟哥”?

无障碍浏览 进入关怀版
×