GPT-2论文完整翻译与深度解析:Language Models are Unsupervised Multitask Learners
#
论文基本信息
- 标题:Language Models are Unsupervised Multitask Learners
- 作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever
- 机构:OpenAI
- 发表年份:2019
- 引用数:超过3万次
#
摘要
英文摘要:
We demonstrate that language models begin to learn these tasks without any explicit supervision, when trained on a diverse corpus with sufficient size.
中文翻译:
我们证明,当在足够大的多样化语料库上训练时,语言模型可以在没有任何明确监督的情况下学习这些任务。
#
1. 导言
英文原文:
The most general approach to NLP is end-to-end training of a neural network on a large corpus of unlabeled text, without any explicit supervision.
中文翻译:
最通用的NLP方法是在大型无标注文本语料库上对神经网络进行端到端训练,没有任何明确监督。
英文原文:
We find that larger models can be more sample efficient, in terms of task performance, than previously believed.
中文翻译:
我们发现,在任务性能方面,更大的模型可能比之前想象的更具样本效率。
#
2. 方法
英文原文:
Given a large enough dataset, even simple language models can learn many natural language processing tasks without any explicit supervision.
中文翻译:
给定足够大的数据集,即使简单的语言模型也可以学习许多自然语言处理任务,而无需任何明确监督。
#
3. 核心技术名词总结
1. Zero-shot Learning(零样本学习):无需任何示例即可完成任务
2. Few-shot Learning(少样本学习):仅需少量示例
3. Language Modeling(语言建模):预测下一个词的概率
4. Transformer Decoder:仅使用解码器的Transformer
5. WebText数据集:高质量网络文本数据集
6. Scaling Laws:模型规模与性能的幂律关系
#
4. 总结
GPT-2展示了大规模语言模型的零样本学习能力,证明扩大模型规模可以涌现出新能力。
- 作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever
- 机构:OpenAI
- 发表年份:2019
- 引用数:超过3万次
#
摘要
英文摘要:
We demonstrate that language models begin to learn these tasks without any explicit supervision, when trained on a diverse corpus with sufficient size.中文翻译:
我们证明,当在足够大的多样化语料库上训练时,语言模型可以在没有任何明确监督的情况下学习这些任务。#
1. 导言
英文原文:
The most general approach to NLP is end-to-end training of a neural network on a large corpus of unlabeled text, without any explicit supervision.中文翻译:
最通用的NLP方法是在大型无标注文本语料库上对神经网络进行端到端训练,没有任何明确监督。英文原文:
We find that larger models can be more sample efficient, in terms of task performance, than previously believed.中文翻译:
我们发现,在任务性能方面,更大的模型可能比之前想象的更具样本效率。#
2. 方法
英文原文:
Given a large enough dataset, even simple language models can learn many natural language processing tasks without any explicit supervision.中文翻译:
给定足够大的数据集,即使简单的语言模型也可以学习许多自然语言处理任务,而无需任何明确监督。#
3. 核心技术名词总结
1. Zero-shot Learning(零样本学习):无需任何示例即可完成任务
2. Few-shot Learning(少样本学习):仅需少量示例
3. Language Modeling(语言建模):预测下一个词的概率
4. Transformer Decoder:仅使用解码器的Transformer
5. WebText数据集:高质量网络文本数据集
6. Scaling Laws:模型规模与性能的幂律关系#
4. 总结
GPT-2展示了大规模语言模型的零样本学习能力,证明扩大模型规模可以涌现出新能力。
- 引用数:超过3万次
- 发表年份:2019
- 机构:OpenAI