PanelGPT

PanelGPT 项目介绍

背景介绍

PanelGPT项目的灵感源于我们在会议和讲座中常见的"小组讨论"场景。在这些讨论中，专家们就特定主题交换意见，能够更好地理解新概念、改变思维视角，从而到达对热点话题更全面的理解。正如中国古语所言："三个臭皮匠，顶个诸葛亮"，通过多人讨论可以充分发挥集体智慧。这种"小组讨论"的方法被应用于自然语言处理的提示词上，大大提升了语言模型的推理能力。

主要内容和实验结果

PanelGPT采用一种创意的"小组讨论"提示法，在GSM8K数据集上进行了评估，其结果显示，这种方法能有效提高语言模型的推理能力。使用gpt-3.5-turbo API进行实验，每千个数据的测试成本不到2美元。PanelGPT提示法取得了最佳表现，实验通过消融分析显示了每个元素的重要性。

无提示：准确率为0.789
零次链式推理（Zero-Shot CoT）：准确率为0.854
APE改进链式推理：准确率为0.845
思维树（ToT）提示：准确率为0.842
PanelGPT：准确率达到了0.899，是所有方法中表现最佳的

该项目发现在多位专家通过"小组讨论"形式解决问题，并确保结果正确，可以有效提高模型的推理能力。

自动化提示生成的扩展

PanelGPT还探讨了通过离线逆强化学习自动化提示生成的方法，例如Prompt-OIRL。该方法在算术推理任务中能将不同大型语言模型的性能提高多达24%。

引用

如果您使用我们的代码和提示方法，请引用我们的相关论文：

@inproceedings{sun2023query,
  title={Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL},
  author={Sun, Hao and H{\"u}y{\"u}k, Alihan and van der Schaar, Mihaela},
  booktitle={The Twelfth International Conference on Learning Representations},
  year={2023}
}

@article{sun2023reinforcement,
  title={Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond},
  author={Sun, Hao},
  journal={arXiv preprint arXiv:2310.06147},
  year={2023}
}