新的Nvidia Paper加速了大规模语言建模

Nvidia的论文《 大规模语言建模:在四个小时内融合40GB的文本》介绍了一种模型,该模型使用混合精度算法和32k​​批处理大小分布在128个Nvidia Tesla V100 GPU上,以提高自然语言在递归神经网络(RNN)中的可伸缩性和传输能力任务。

该模型仅用了四个小时就对40GB Amazon评论数据集的三个纪元进行了可乘的长短期记忆(mLSTM)的无监督重构。 以前,训练数据集的单个时期大约需要一个月的时间。 该模型通过使单个GPU处理明显更多的训练数据来减少训练时间。

该团队还训练了8192个神经元mLSTM,该神经元能够在Amazon评论语言建模中击败最新技术,每位字符(BPC)率为1.038,SST分类精度为93.8%。

本文分析了具有较大模型的分布式数据并行度标度,递归神经网络(RNN)训练的常见问题以及数据集大小,批处理大小和学习率之间的关系。

该工作可以作为面向深度学习研究人员和商业应用的大规模无监督NLP处理预训练模型。

该论文于8月3日发布,可在arVix上找到:https://arxiv.org/pdf/1808.01371v1.pdf


作者:罗伯特·田| 编辑:迈克尔·萨拉森(Michael Sarazen)


在Twitter @Synced_Global 上关注我们以 获取更多AI更新!


订阅Synced Global AI Weekly,获取有见地的技术新闻,评论和分析! 点击 这里