科技公司史上第一次:Meta开源GPT3参数大小的AI模型
澎湃新闻记者 邵文
在生成文本段落、科技开源模拟人类对话及解决数学问题表现惊人的公司大型语言模型,显然是史上数这几年AI发展最热门的领域之一。但这样的第次大型语言模型不仅能够自行生成有害内容,还可以将这样的模型内容通过在其上构建的下游应用程序传播开来。
理论上,科技开源更多人的公司参与对问题的解决应该会有所帮助。然而,史上数由于语言模型的第次训练需要大量的数据和计算能力,迄今为止,模型它们仍然只是科技开源大型科技公司的特有项目。而在更广泛的公司群体如学界,以及担心人工智能滥用的史上数伦理学家和社会科学家中,只有旁观的第次选项。
“我相信建立信任的模型唯一方法是极度透明。”Meta AI 的常务董事乔尔·皮诺(Joelle Pineau)说。当地时间5月3日,Meta AI开放了拥有1750亿参数的大语言模型OPT-175B(Open Pretrained Transformer,OPT)。
对于大型科技公司来说,这是一个前所未有的举动。即使是在大语言模型历史上,这也是第一次毫无保留,把预训练模型、训练代码以及使用代码全部公开。
“我们中的很多人都是大学的研究人员,”皮诺说,“我们知道大学和行业在建立这些模式的能力方面存在明显的差距。让研究人员共同讨论这一技术的好处是显而易见的。”她希望其他人能仔细研究他们的工作,对其进行拆解分析,或者在此基础上构建。她认为,当更多的人参与进来时,突破就会更快实现。
OPT语言模型中约有1750亿个参数(这些参数是神经网络在训练过程中可以被调整的参数),与OpenAI开创性的神经网络GPT-3规模基本相同,同时具有付费服务GPT-3的非凡能力和不可避免的缺陷。
皮诺不讳言,“这是经过精心设计的”,该团队在建立OPT时就考虑在语言任务的准确性和有害性方面与GPT-3相匹配。OPT是为了给研究人员提供一个类似的语言模型来进行研究。
OpenAI拒绝了对Meta的声明发表评论。
OpenAI的母公司正在探索在其搜索产品中使用大型语言模型,但也因为缺乏透明度而受到批评。谷歌在这方面受到诸多争议,其曾在人工智能伦理研究员Timnit Gebru想要发表一篇有关谷歌在当时的语言系统可能会从网站上学习包含偏见和仇恨言论的论文后辞退他,最近又解雇一位对已发表研究提出异议的员工。
那么,Meta为什么要这样做呢?毕竟Meta也是一家很少提及脸书和Instagram背后算法工作原理的科技公司,还曾以让其内部研究团队隐瞒对其不利的问题而闻名。
《麻省理工科技评论》认为,Meta采取不同方法的一个重要原因是皮诺本人,她多年来一直在推动人工智能研发过程中的透明度。
在核心学术会议发表研究的方式上,皮诺要求研究人员必须将包括代码和有关如何进行实验的详细信息与结果一起提交。她自2017年加入 Meta(当时的)以来,一直在其人工智能实验室倡导这种文化。
“Meta对开放科学的承诺是我在这里的原因,”皮诺说,“我不会因为其他条件来到这里工作。”
除了代码外,Meta也公布了开发日志。日志包含团队成员对于数据训练的每日更新:如何将其添加到模型中,以及何时、哪些有效、哪些无效。在100 多页的笔记中,研究人员记录了从2021年10月到2022年1月不间断运行的三个月训练过程中的每个错误、崩溃和重启。
斯坦福大学基础模型研究中心主任Percy Liang将大模型的开放程度总结成4个层次:
第一层论文开放,证明一些设想的可行性,并提供构建思路;第二层API开放,允许研究人员探索和评估现有模型的能力(如推理能力)和限制(如偏见);第三层模型权重开放和训练数据开放,允许研究人员逐步改进现有模型,开发更深入的可解释性技术和更有效的微调方法,让研究人员更好地理解训练数据在模型行为中的作用;第四层计算能力开放,允许研究人员尝试新的体系结构、训练目标和过程、进行数据融合,并在不同的领域开发全新的模型。
“更高层次的开放能让研究者专注于更深的问题,也同时会带来更多风险。”Percy Liang明确指出这一点。
Meta此次以这样的程度开源其大型语言模型是一个非常大胆的举措,可能会产生当下想象不到的风险。这也是OpenAI对于不发布GPT-3的前身GPT-2给出的原因。
“我不能告诉你,这种模型不会产生其他可怕的风险。”皮诺驳斥了“仅仅是因为它太危险”,所以不应该发布模型的想法。她说道,“我理解这些模型的弱点,但这不是一种研究心态。”
据《麻省理工科技评论》,曾在被谷歌因“违反了其行为准则”辞退的人工智能伦理研究员玛格丽特·米切尔(Margaret Mitchell)认为,OPT的发布是一个积极的举措。但她认为透明度是有限度的。她提问道,“语言模型是否经过了足够严格的测试?可预见的好处是否超过了其可预见的危害?在这个过程中如何避免错误信息的产生,或种族主义和厌恶女性的语言?“
华盛顿大学的计算语言学家艾米丽·M·本德(Emily M. Bender)曾在谷歌中心与米切尔共同合作过相关研究,她也担心着如何处理潜在的危害。“降低任何机器学习技术风险的真正关键是要在特定用例中进行评估和探索,例如这个系统是用来做什么的?谁将使用它?系统输出将如何呈现给他们?”
对于皮诺来说,这些担忧应该通过更多的公开讨论来解决,而不是减少沟通。“世界各地的人们对于什么样的对话是合适的有不同的看法,而人工智能是对话的一部分,”皮诺并不是希望语言模型能说出令每个人都同意的话,“但我们该如何应对呢?那就是在讨论过程中多去听却他人的声音”。
(责任编辑:休闲)
-
高途Q3财报:收入6.062亿元,宣布5000万美元回购计划
11月22日,高途NYSE:GOTU)发布2022财年第三季度未经审计财务报告,同时宣布新的回购计划。据财报,截止到2022年9月30日,高途实现收入6.062亿元,环比增速12.7%,其中可比业务学 ...[详细]
-
据陕西省卫健委网站消息,10月6日0-24时,陕西全省报告新增新冠病毒感染者50例。其中,咸阳市报告的18例省外输入感染者中,有15例均在10月5日被一外省牌号的双层大巴途经陕西省咸阳市永寿县域内福银 ...[详细]
-
大户型开始走俏!改善型客户进场,中介:忙到没时间吃饭,5天成交量赶上平时1个月
“国庆钜惠,超便宜的价格,现在还有令人振奋的利好购房政策,咱国庆期间有时间出来看看房子吗?车接车送。”2022年10月1日,青岛中介小蕾开始给曾经向她咨询过的意向客户群发微信。小蕾口中所说的“利好购房 ...[详细]
-
新华社华盛顿10月6日电记者熊茂伶)国际货币基金组织IMF)总裁格奥尔基耶娃6日表示,世界经济遭受了多重冲击,正经历一场根本性转变。为应对当前局势,她呼吁相关国家遏制通胀,共同支持新兴市场和发展中经济 ...[详细]
-
炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!继并购、争“鲜”后,的下一步棋瞄准了生态布局?|拆解半年报来源:野马财经 不走寻常路的新乳业,一马当“鲜”。近年来低温奶实现爆发式增长。欧睿数据 ...[详细]
-
三季报行情来临,17家公司业绩将亮相!近百家公司预告抢先看,六成预增,次新股密集上榜
节后三季报披露拉开序幕,首周17家公司三季报将亮相,业绩预告也将迎来密集公布期,目前有近百家提前发布业绩预告。节后首周17家公司三季报亮相三季报集中在节后的三周内披露,根据交易所定期报告预约披露时间表 ...[详细]
-
国庆经济|假期旅游:本地、周边游占65%,人均消费同比增30%
根据携程、同程、途牛、驴妈妈、飞猪、去哪儿、马蜂窝、途家和春秋旅游等统计显示,假日7天,本地、周边旅游订单占比达65%,本地周边人均旅游花费较去年同期增长近30%。国庆假期接近尾声,各地提倡就地过节之 ...[详细]
-
当地时间8日,塔斯社援引俄罗斯反恐委员会消息称,当天早上,克里米亚大桥上一辆货运汽车发生爆炸,导致公路桥部分路段受损坍塌,同时导致铁路桥的油罐车起火。克里米亚当局称,目前克里米亚大桥公路和铁路运输已暂 ...[详细]
-
经合组织预测2023年全球经济增长将从3.1%放缓至2.2%
【经合组织预测2023年全球经济增长将从3.1%放缓至2.2%】财联社11月22日电,经合组织预测2023年全球经济增长将放缓至2.2%。预计美国2022年经济增长1.8%,2023年增长0.5%,2 ...[详细]
-
北京日报客户端记者 刘苏雅 实习记者 何蕊10月8日,在北京市新型冠状病毒肺炎疫情防控工作第405场新闻发布会上,市疾控中心副主任刘晓峰介绍,10月7日0时至24时,本市新增本土新冠肺炎病毒感染者3例 ...[详细]