还在死磕咒语?北大百川搞了个自动提示工程系统

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文共同第一作者郑淼,来自于周泽南领导的百川对齐团队,毕业于北京大学,研究方向包括大语言模型、多模态学习以及计算机视觉等,曾主导MMFlow等开源项目。共同第一作者梁昊,北京大学前沿交叉学科研究院博士生,研究方向为大模型数据侧,指导老师为张文涛教授。北大-百川智能AI系统联合实验室成立于2024年1月,旨在围绕人工智能模型系统的全技术流程,研究科学和系统的数据生成和质量评估策略、大模型训练和推理加速等重要问题。联合实验室由北京大学博雅特聘教授崔斌和百川智能联合创始人陈炜鹏担任主任。

基于Transformer架构的大语言模型正在各个领域取得突破性成果。提示词工程(PromptEngineering)在其中的角色至关重要。

用好提示词,研究人员和开发者能够引导模型在特定任务上表现得更优秀。这种方法不仅能够显著提升模型的性能,还能够增强模型的适应性,使其在面对各种复杂任务时更加灵活和高效。

此外,提示词工程还能优化模型的学习过程,提高复杂问题处理效率,减少训练时间和计算资源需求。

相较于传统的微调方法,提示词工程能以极低成本使模型适应多个下游任务,大幅节省计算资源和数据收集成本。然而,设计有效的提示词对非专业人士而言仍具挑战性,往往需要大量学习和实践。

直接利用大语言模型进行自动提示工程通常难以取得理想效果。不恰当的提示可能分散模型注意力,反而降低性能。因此,开发一个能辅助用户,操作简便的自动提示工程系统变得尤为重要。

PAS:突破性的自动提示工程系统

为应对这一挑战,北京大学-百川联合实验室提出了PAS自动提示工程系统。PAS的创新之处在于:

1.设计高质量的自动提示数据集

2.对GPT模型进行少样本学习和数据筛选

3.自动构建精简而高效的提示数据集

4.通过微调实现有效的自动提示工程

PAS能够对用户输入进行简洁而有效的补充,实现快速、简单且支持流式显示的自动提示工程。

在多个基准测试中,PAS的表现远超既有的SOTA模型,且所需数据量更少。人工评测结果同样显示PAS具有优异表现,还在死磕咒语?北大百川搞了个自动提示工程系统凸显了其在实际应用中的巨大潜力。

这一突破性成果不仅推动了提示词工程的发展,也为大语言模型在更广泛领域的应用铺平了道路。

https://github.com/PKU-Baichuan-MLSystemLab

https://huggingface.co/PKU-Baichuan-MLSystemLab

方法

训练PAS主要分为三步:

第一步:构建高质量问题数据集

训练PAS的首要任务是建立一个高质量的问题数据集。如图(a)所示,研究人员根据LMSYS-1M和WildChat数据集,通过以下三方面筛选出优质问题:

1.数据去重:运用embedding技术结合聚类算法,有效去除重复数据。

2.质量筛选:利用百川大模型对数据质量进行评估和筛选。

3.多样性保证:最终选出覆盖10多个类别的9000条高质量问题数据。

第二步:补充提示工程数据

在这一阶段,研究人员综合利用内部积累的100条高质量数据和第一步筛选的问题数据,通过few-shotlearning方法,借助GPT模型构建自动提示工程数据:

1.初始数据生成:使用few-shotlearning指导GPT生成初步的提示工程数据。

2.质量控制:设计Critique步骤,再次利用few-shotlearning让GPT评估生成数据的质量。

3.迭代优化:自动筛除低质量数据,并重新生成,通过多轮迭代确保数据质量。

4.最终成果:最终得到9000条高质量的自动提示工程数据。

数据分布

生成的9000条数据的分布情况如上图所示,确保了数据的多样性和代表性。

第三步:微调自动提示模型

最后一步将利用前两个阶段获得的数据集来微调大型语言模型:

1.选择基础模型:如Qwen2-7b等模型。

2.定向微调:使用高质量数据集进行微调。

3.专业化训练:最终得到一个专门用于自动提示工程的大语言模型。

实验及结果

人工评测

根据人类评估员的测评,相比先前的SOTA(State-of-the-Art)模型,PAS在各领域均展现出较高的胜率。在多个领域的平均胜率超过50%,胜率与平局率之和更是高达80%以上。

机器评测Benchmark

为全面评估PAS的性能,研究人员选择了Arena-Hard、Alpaca-Eval2.0、Alpaca-Eval2.0(LC)三个benchmark。

随后,研究人员将PAS应用于六个顶尖的AI模型,包括:

评测结果显示:

计算效率分析

PAS不仅在性能上表现卓越,其计算效率也非常高:在数据效率方面,它仅需9000条微调数据便能展现出卓越性能。在输出效率方面,它能够限制补充自动提示的长度,通常不超过30个词。

对于用户体验而言,PAS也为大模型带来了增益,具体来说:

实例:PAS帮助大模型绕开逻辑陷阱

「如果树上有10只鸟,其中一只被射死了,地上有多少只鸟?」

这个看似简单的问题实际上隐藏着一个巧妙的逻辑陷阱,你看到它可能也需要反应几秒,才知道树上还剩9只鸟,而地上只有1只。

正如图上所示,在没有PAS辅助的情况下,GPT给出了错误的回答。而PAS系统通过补充提示词,显著改善了模型的表现:

在PAS的引导下,模型新一轮的回答展现出了显著的提升,不仅成功规避了问题中的逻辑陷阱,展示了清晰的、多步骤的逻辑推理过程,还能在给出正确答案之外引导用户理解整个推理过程。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文