有多重要?研究员长文详解前沿模型的后训练秘籍
-
有多重要?研究员长文详解前沿模型的后训练秘籍
新智元报道编辑:乔杨【新智元导读】越来越多研究发现,后训练对模型性能同样重要。AllenAI的机器学习研究员NathanLambert最近发表了一篇技术博文,总结了科技巨头们所使用的模型后训练配方。随着LLM学界和工业界日新月异的发展,不仅预训练所用的算力和数据正在疯狂内卷,后训练(post-training)的对齐和微调方法也在不断更新。InstructGPT、WebGPT等较早发布的模型使用标准RLHF方法,其中的数据管理风格和规模似乎已经过时。从这些披露的信息中,我们可以看到后训练方法的一些前沿变化趋势。Al...