两个小模型互相验证直接比肩大模型?微软的甚至没用和微调
-
两个小模型互相验证,直接比肩大模型?微软的甚至没用和微调
机器之心报道编辑:Panda互相检查,让小模型也能解决大问题。众所周知,LLM很强大,但执行复杂推理的能力还不够强。举个例子,在GSM8K数据集上,Mistral-7B即使使用思维链(CoT)等技术,也只能达到36.5%的准确度。尽管微调确实也能有效地提升推理能力,但大多数LLM依靠的微调数据都是经过GPT-4等更强大模型蒸馏过的,甚至可能原本就是这些强大模型合成的。同时,研究者们也在积极开发一种能提供辅助但也更困难的方法:使用一个更优的教师LLM来提升推理能力。为了在没有更优模型的前提下提升推理能力,一种颇有希望...