参考文献:Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer, Zac Hatfield-Dodds, Nova DasSarma, Eli Tran-Johnson, et al.Language models (mostly) know what they know.arXiv preprint arXiv:2207.05221, 2022.
如果你关注过大模型推理,可能会对推理框架有所了解,其中比较有代表性的大概是CoT(尤其是CoT with Self-Consistency)、ToT、MCTS了,但是这些推理框架想要更深入的思考,就要消耗更多的token,也就是消耗更多的资源、时间和钱了,我们有没有办法在思考深度和token消耗数做一个权衡,让大模型在token消耗数控制在我们满意的范围内,同时取得还不错的推理准确率呢?
他们还发现了另外一种情况,只要把最后一个选项改为“None of the above”,就可以大大干扰模型对自己的认知,在这种情况下,模型总是毫无根据地反感选项“None of the above”,因此会造成准确度的大大的下降。
判断题可以让模型好的衡量它们自己
让模型单独判断某一个部分正不正确就可以排除选项对模型的自我认知造成的干扰(例如“None of the above”),尽管模型判断的能力也与模型的参数大小有关,但模型达到52B(黄线)后,尽管在概率很低的地方Under Confident及在概率高的地方Over Confident,但在大部分区域都很接近理想值。