ZPY博客

GPT-2论文完整翻译与解析:Language Models are Unsupervised Multitask Learners

GPT-2论文完整翻译与深度解析:Language Models are Unsupervised Multitask Learners

#

论文基本信息
  • 标题:Language Models are Unsupervised Multitask Learners
    • 作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever
      • 机构:OpenAI
        • 发表年份:2019
          • 引用数:超过3万次

            #

            摘要

            英文摘要:
            We demonstrate that language models begin to learn these tasks without any explicit supervision, when trained on a diverse corpus with sufficient size.

            中文翻译:
            我们证明,当在足够大的多样化语料库上训练时,语言模型可以在没有任何明确监督的情况下学习这些任务。

            #

            1. 导言

            英文原文:
            The most general approach to NLP is end-to-end training of a neural network on a large corpus of unlabeled text, without any explicit supervision.

            中文翻译:
            最通用的NLP方法是在大型无标注文本语料库上对神经网络进行端到端训练,没有任何明确监督。

            英文原文:
            We find that larger models can be more sample efficient, in terms of task performance, than previously believed.

            中文翻译:
            我们发现,在任务性能方面,更大的模型可能比之前想象的更具样本效率。

            #

            2. 方法

            英文原文:
            Given a large enough dataset, even simple language models can learn many natural language processing tasks without any explicit supervision.

            中文翻译:
            给定足够大的数据集,即使简单的语言模型也可以学习许多自然语言处理任务,而无需任何明确监督。

            #

            3. 核心技术名词总结

            1. Zero-shot Learning(零样本学习):无需任何示例即可完成任务
            2. Few-shot Learning(少样本学习):仅需少量示例
            3. Language Modeling(语言建模):预测下一个词的概率
            4. Transformer Decoder:仅使用解码器的Transformer
            5. WebText数据集:高质量网络文本数据集
            6. Scaling Laws:模型规模与性能的幂律关系

            #

            4. 总结

            GPT-2展示了大规模语言模型的零样本学习能力,证明扩大模型规模可以涌现出新能力。