GPT-2论文完整翻译与解析：Language Models are Unsupervised Multitask Learners

ZPY

10小时 ago

GPT-2论文完整翻译与深度解析：Language Models are Unsupervised Multitask Learners

#

论文基本信息

标题：Language Models are Unsupervised Multitask Learners

作者：Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever

机构：OpenAI

发表年份：2019

引用数：超过3万次
#

摘要
英文摘要：
We demonstrate that language models begin to learn these tasks without any explicit supervision, when trained on a diverse corpus with sufficient size.

中文翻译：
我们证明，当在足够大的多样化语料库上训练时，语言模型可以在没有任何明确监督的情况下学习这些任务。

#

1. 导言
英文原文：
The most general approach to NLP is end-to-end training of a neural network on a large corpus of unlabeled text, without any explicit supervision.

中文翻译：
最通用的NLP方法是在大型无标注文本语料库上对神经网络进行端到端训练，没有任何明确监督。

英文原文：
We find that larger models can be more sample efficient, in terms of task performance, than previously believed.

中文翻译：
我们发现，在任务性能方面，更大的模型可能比之前想象的更具样本效率。

#

2. 方法
英文原文：
Given a large enough dataset, even simple language models can learn many natural language processing tasks without any explicit supervision.

中文翻译：
给定足够大的数据集，即使简单的语言模型也可以学习许多自然语言处理任务，而无需任何明确监督。

#

3. 核心技术名词总结
1. Zero-shot Learning（零样本学习）：无需任何示例即可完成任务
2. Few-shot Learning（少样本学习）：仅需少量示例
3. Language Modeling（语言建模）：预测下一个词的概率
4. Transformer Decoder：仅使用解码器的Transformer
5. WebText数据集：高质量网络文本数据集
6. Scaling Laws：模型规模与性能的幂律关系

#

4. 总结
GPT-2展示了大规模语言模型的零样本学习能力，证明扩大模型规模可以涌现出新能力。