Meta AI实验室宣布将开源语言大模型OPT

发表于 3年以前  | 总阅读数:1094 次

Meta AI 实验室高调宣布,将开放自己的语言大模型 OPT(Open Pretrained Transformer,预训练变换模型),毫无保留地贡献出所有代码。

不夸张地说,在人工智能圈,这算得上是一个里程碑事件。

这个被称为OPT的大规模语言模型,自建立以来,各项参数与能力便精准对标OpenAI 的GPT3,甚至连缺点都是。后者在全球学术界建立的赫赫声望和随处可见的网络小说续写作品,想必已不必再过多赘述。

简而言之,这是一种利用巨量网络文本与书籍进行训练,可以将单词和短语串在一起组成精彩文本的深度学习算法模型。

它能生成复杂句子,有时候甚至读起来与人类撰写毫无无异(想粗浅了解GPT,可以看这篇《让00后疯狂的超级算法》)。某种程度上,它所具备的神奇人工文本模仿能力,被视为人类通往真正机器智能道路上的一个巨大突破口。

GPT3生成的文本

GPT3生成的文本

然而,“培育”大模型的代价,是昂贵的人力成本与成千上万块显卡。因此,许多学者都认为,把这种大模型开放出来,几乎不可能发生在“游走在垄断边缘”的大型科技公司身上。

譬如,OpenAI 的GPT3曾被专家粗略估算过,至少投入了1000万美元。他们后来为了摆脱入不敷出的现状,将GPT3作为一项付费服务来推广——只提供API,但不会开放模型本身和底层代码。

然而,Meta表示,会把不同参数规模的训练模型以及“OPT如何建造和训练”的详细信息分发给研究人员。

其中,也包括一份超过100页的算法训练日志——实验室记录下的每一个错误与崩溃现象,训练和添加数据的过程,以及有效与无效策略。

“考虑到计算成本,如果没有大量资金,这些模型很难复制。对于少数通过api可调用的模型(这里暗指GPT3),如果不能获得完整的模型权重,就难以进行研究。”他们在OPT的论文摘要里鲜明表达了态度,

“因此,我们推出了OPT(这是一个只有解码器的预训练变换模型),参数范围从125M到175B,目标是全面且负责任地分享给感兴趣的研究人员。”

“是真的开放。”

一位“正准备去看看他们实现情况”的中国开发者查阅了Meta AI网站后,告诉虎嗅,这的确是一个好消息。“从现有数据来看,整个训练代码都被贴出来了。Meta很了不起。”

擅用集体力量

这一次开源,毫无意外受到了学术界的高度认可,甚至有科学家称其是一个伟大的举动。

究其原因,一方面,一项强大技术,如何在一个封闭的企业精英团队中诞生,一直是包括学界在内大众好奇的焦点;

另一方面,“开源”的优势在于利用集体力量来解决问题,因此长期被硅谷的有识之士所倡导——更多人参与进来,技术突破便来得越快,漏洞便填得越快。

尽管大部分人几乎只记住了GPT3(因为它是迄今为止最好的“通才”),实际上,除了Meta,Google、微软都曾在2020年都推出过相似的大模型,但由于都是“关起家门”做私密研究,因此在“透明度”方面饱受诟病。

譬如,2021年的“Google人工智能伦理学科学家辞退事件”便引发了长达一年的“批判海啸”,而这一切都是因一篇探讨“语言大模型暗藏重大隐患”的论文而起。

被Google无理辞退的人工智能伦理科学家Timnit Gebru

没错,GPT3们不仅缺陷多多,而且非常致命。尽管多数责任应归咎背后的人类文本。

创业公司 Latitude 曾在2019年推出过一款基于GPT3开发的半开放冒险游戏 AI Dungeon。但没想到,随着用户增多,OpenAI监测到,有玩家竟然利用这项高阶技术,自发生成儿童性爱场景。

虽然用户利用GPT3生成的污言秽语也曾遭遇过广泛抨击,但这件事仍然让大众哗然。这也是外界第一次意识到,GPT3这类大模型更为深刻的阴暗面。因此,Latitude增加了审核系统,但却引发了与用户体验相关的一系列麻烦。

然而,“越是危险,越不能回避危险”。这也是Facebook自称选择开放的关键原因之一。

Meta AI 负责人Joelle Pineau承认,团队解决不了所有问题,包括文本生成过程中的伦理偏见和恶毒词句。因此,他们诚邀天下豪杰,共同学习;而实际上,这也是一种彼此监督。

“我认为,建立信任的唯一途径是极端透明。”

我们查看了Meta提供的下载通道,发现实验室根据每个模型的参数规模设立了不同的下载条件:300亿参数以下可随意;而1750亿参数值模型,也就是与GPT3大小相同的OPT,则需要填写申请表证明用于非商业用途,获得批准后方可下载。

翻过大山,仍然是山

当然,理论上这个做法是可圈可点的,但一个更大的问题出现了:如果你要使用这个1750亿参数值的大模型,就意味着你的计算机要带得动它。

换句话说,你需要拥有足够的算力,这里可以直接换算成“财力”。

“一个参数如果是FP32,也就是4个字节大小。而1750亿参数值则相当于7000亿字节,大约700G显存空间。而现在一张普通显卡是20GB。” 一个开发者向虎嗅称赞了Meta的做法,但他认为,对于普通开发者群体,该模型仍然是不可承受之重。

“虽然可以把不同参数放在不同显卡里的框架里,但据个人体验,目前仍然欠缺开源成熟的框架。”

因此,截至目前,这个开源大模型,仍然是属于大型科技公司、拥有充足资金的大型实验室与学术机构的“内部游戏”。

曾有家尝试做中国版GPT3的创业公司叹息说,他们也在想方设法实现GPT3可以实现的文字能力,但的确掣肘于有限算力。

事实上,除了巨头,GPT3一直难以解决的商业化难题,是让绝大部分企业呈观望之势的根本原因。尽管大型语言模型已成为过去几年来人工智能领域最热门的趋势之一。但至少目前来看,除了品牌营销优势,OpenAI 的投入产出比,很不尽如人意。

图片来自MIT

图片来自MIT

此外,在西方社会普遍认知中,比起技术突破,它们带来的巨量能源消耗更是一种原罪。

科学家Emma Strubell与合作者在2019年发表的论文,就揭露了大型语言模型在碳排放上超乎想象的环境破坏力(上图)。

他们发现,用一种神经结构搜索方法(NAS)训练出的特定语言模型,可产生284吨(626155磅),上图)二氧化碳,这大约是5辆小轿车长达5年的排放总量;

而Google搜索引擎的基础——BERT语言模型训练,则产生了0.65吨二氧化碳,Strubell提醒,这相当于一个乘客从纽约到旧金山往返航班的碳排放量。

更需要注意的是,这些数字都应被视为“最保守数值”:只是在一次性训练中的模型成本。

因此,考虑到能源效率与环境成本,西方不少科学家与开发者认为,某种程度上,大模型的训练开发也是在允许大型企业掠夺着环境资源,而这些成本,将会平摊在所有人身上。因此,他们并不希望企业加入到大模型队列中。

“尽管是无意识的,但这只会加大对边缘人群的打击。”

开源商业回报,巨大且无形

很多时候,人们会对开源模式发出这样的质疑:

有什么能比“两个来自竞争对手公司的员工,可以为同一个目标协作,还免费送出自己成果”更不可思议的事情?

譬如,可能连小学生都清楚的Android系统,就是基于开源的Linux操作系统。这意味着,任何人都可以查看绝大多数Android手机的核心代码,修改并分享它。

事实上,“开源”正是为不同利益群体,提供一种“利远大于弊”的长期技术合作方式——你增加的独特元素我能使用,那么我迭代的版本你也不会错过。

这种“互利”态度,让看似不可思议的“协作”成为可能,经过100多年来的反复修正,早已成为一种常态。如今,Linux 就是由全世界超过15000名程序员共同开发和维护。

而在人工智能领域内,最有名的案例则是Google的深度学习开源框架Tensorflow。它已是开发人工智能应用程序的标准框架之一。非常有趣,当Tensorflow在2015年开源时,外界也是发出了跟这次Meta开源大模型同样的疑问:

作为开放者,Google为什么要放弃对自己搜索业务如此重要的东西?

一部分原因上面讲过——外部开发人员把软件做的更好,该软件就能适应Google未来商业化的很多需要。就像当下,大模型商业化还尚不明朗,那么前期工作的开放性与主导性,就变得至关重要。

根据Google自己公布的数据,已有超过1300名外部人员在TensorFlow上帮助升级迭代。而完善后的Tensorflow,则为Google云上的相关付费服务输送了强力支持。

另外,我们永远不要小看开源软件为企业带来的巨大营销价值。

它最一流的“带货效果”,便是吸引和留住一众顶尖人才,不知道为大厂省下多少高昂的人力资本。这也与当下Meta开始收缩招聘规模的现状,做了完美呼应。

当然,优秀开源软件打的时间差和聚拢效应,将会使后来者很难在短时间内形成气候,Tensorflow与一众国产深度学习开源框架的往事就是最好的例子。

因此,Meta这一决定,将会让OpenAI陷入一个尴尬的境地——虽然名声很大,但它毕竟是一家创业公司。从另一个角度看,在寻找商业落地的过程中,大厂通过开放、免费等手段遏制对手,取得胜利,这种事情似乎永远都在发生。

但好处在于,这会让一家公司意识到,在商业世界,没有一分钟时间可用来顿足,绝不能停下创新的狂奔步伐——近期他们发布的达利系统第二代,也许是以GPT3为跳板,向文字与视觉融合方向跃升的最好标志。

作者| 宇多田

出品| 虎嗅科技组

 相关推荐

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

发布于:1年以前  |  808次阅读  |  详细内容 »

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于:1年以前  |  770次阅读  |  详细内容 »

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于:1年以前  |  756次阅读  |  详细内容 »

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

发布于:1年以前  |  648次阅读  |  详细内容 »

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

发布于:1年以前  |  589次阅读  |  详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

发布于:1年以前  |  449次阅读  |  详细内容 »

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

发布于:1年以前  |  446次阅读  |  详细内容 »

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

发布于:1年以前  |  445次阅读  |  详细内容 »

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

发布于:1年以前  |  444次阅读  |  详细内容 »

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

发布于:1年以前  |  442次阅读  |  详细内容 »

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

发布于:1年以前  |  441次阅读  |  详细内容 »

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

发布于:1年以前  |  437次阅读  |  详细内容 »

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

发布于:1年以前  |  430次阅读  |  详细内容 »

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

发布于:1年以前  |  428次阅读  |  详细内容 »

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

发布于:1年以前  |  420次阅读  |  详细内容 »

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

发布于:1年以前  |  411次阅读  |  详细内容 »

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

发布于:1年以前  |  406次阅读  |  详细内容 »

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

发布于:1年以前  |  398次阅读  |  详细内容 »