微软和英伟达推出迄今为止训练最大最强的语言模型MT-NLG
2022-02-25 11:51:30 来源:
10 月 12 日消息 语言模型(Language Model)简单来说就是一串词序列的概率分布,主要作用是为一个长度为 m 的文本确定一个概率分布 P,表示这段文本存在的可能性。
大家之前可能或多或少听说过 GPT-3,OpenAI 最新的语言模型,堪称地表最强语言模型,也被认为是革命性的人工智能模型。除此之外还有 BERT、Switch Transformer 等重量级产品,而且业内其他企业也在努力推出自家的模型。
微软和英伟达今天宣布了由 DeepSpeed 和 Megatron 驱动的 Megatron-Turing 自然语言生成模型(MT-NLG),这是迄今为止训练的最大和最强大的解码语言模型。
作为 Turing NLG 17B 和 Megatron-LM 的继任者,这个模型包括 5300 亿个参数,而且 MT-NLG 的参数数量是同类现有最大模型 GPT-3 的 3 倍,并在一系列广泛的自然语言任务中展示了无与伦比的准确性,例如:
完成预测
阅读理解
常识推理
自然语言推理
词义消歧
105 层、基于转换器的 MT-NLG 在零、单和少样本设置中改进了先前最先进的模型,并为两个模型规模的大规模语言模型设定了新标准和质量。
据悉,模型训练是在基于 NVIDIA DGX SuperPOD 的 Selene 超级计算机上以混合精度完成的,该超级计算机由 560 个 DGX A100 服务器提供支持,这些服务器以完整的胖树(FatTree)配置与 HDR InfiniBand 联网。每个 DGX A100 有 8 个 NVIDIA A100 80GB Tensor Core GPU,通过 NVLink 和 NVSwitch 相互完全连接。微软 Azure NDv4 云超级计算机使用了类似的参考架构。
-
人类首次登月50周年重返月球之日何时到来?
(原标题:人类首次登月50周年 重返月球之日何时到来?) 中新网7月20日电(刘丹忆)休斯顿,这里是静海基地,‘鹰’舱已经着
2022-11-06 09:49
-
美股周五:三大股指终止四连阴,热门中概股普遍大涨,B站涨超22%
美国时间周五,美股收盘主要股指全线上涨,结束了连续四天的下跌,但本周累计仍然均为下跌,其中纳指创下今年2月以来最大单周百分比跌
2022-11-05 10:38
-
探寻人类智慧“最先一公里”密码打造世界级的新时代重大前沿科学
10月27日,中建二局投资建造的上海临港世界顶尖科学家社区项目全面冲出正负零,进入主体结构施工阶段。 该项目位于中国(上海)自由贸易
2022-11-03 14:39
-
华为全新小折叠机华为PocketS发布售价5988元起
11月2日消息,在华为Pocket S及全场景新品发布会上,华为推出了全新小折叠——华为Pocket S。搭载RYYB超感知影像系统,采用业界首创多维
2022-11-02 20:29
-
小熊电器榜上有名,电热水瓶稳坐抖音电商口碑榜TOP1
一年一度的双11 进入首轮爆发期,各大品牌交出亮眼成绩单,小熊电器迎来开门红,仅仅两小时销售额便破亿,多款热门单品表现亮眼,强势领
2022-11-02 17:51
-
小米12SUltra概念机发布配备两颗1英寸传感器
11月2日,小米手机今天正式通过微博发布小米12S Ultra 概念机,从官宣图上可以看出,其将配备两颗1英寸的传感器。 小米创办人、董事
2022-11-02 15:49