promptbase

promptbase是一个不断发展的资源集合，包含最佳实践和示例脚本，旨在从GPT-4等基础模型中获得最佳性能。我们目前提供了演示Medprompt方法的脚本，包括我们如何将这套提示技术（"Medprompt+"）进一步扩展到非医疗领域的示例：

基准测试	GPT-4提示方法	GPT-4结果	Gemini Ultra结果
MMLU	Medprompt+	90.10%	90.04%
GSM8K	零样本	95.3%	94.4%
MATH	零样本	68.4%	53.2%
HumanEval	零样本	87.8%	74.4%
BIG-Bench-Hard	少样本 + CoT	89.0%	83.6%
DROP	零样本 + CoT	83.7%	82.4%
HellaSwag	10样本	95.3%	87.8%

在不久的将来，promptbase还将提供更多关于我们在提示工程背后采用的科学过程的案例研究和结构化访谈。我们还将深入探讨能够增强提示工程过程的专门工具。敬请期待！

`Medprompt`和提示的力量

（论文引用信息略）

在最近的一项研究中，我们展示了如何将多种提示策略组合成一种我们称之为Medprompt的方法，可以有效地引导GPT-4等通用模型实现顶级性能，甚至与专门针对医学领域微调的模型相比也毫不逊色。Medprompt将三种不同的策略组合在一起——包括动态少样本选择、自生成思维链和选项打乱集成——以从GPT-4中获得专家级的表现。我们在此简要描述这些策略：

动态少样本：少样本学习——向基础模型提供任务和响应的几个例子——使模型能够快速适应特定领域并学习遵循任务格式。为了简单和高效，在提示特定任务时应用的少样本示例通常是固定的；它们在测试样本中保持不变。这就要求所选择的少样本示例具有广泛的代表性，并与广泛的文本示例相关。满足这些要求的一种方法是让领域专家精心制作示例。即便如此，这种方法也无法保证精心策划的固定少样本示例对每个测试示例都具有适当的代表性。然而，如果有足够的可用数据，我们可以为不同的任务输入选择不同的少样本示例。我们将这种方法称为使用动态少样本示例。该方法使用一种机制来根据案例的相似性来识别示例。对于Medprompt，我们执行以下步骤来识别具有代表性的少样本示例：给定一个测试示例，我们使用嵌入空间中的k-NN聚类选择k个语义相似的训练示例。具体来说，我们首先使用OpenAI的text-embedding-ada-002模型嵌入少样本学习的候选示例。然后，对于每个测试问题x，我们从训练集中检索其最近的k个邻居x1、x2、...、xk（根据text-embedding-ada-002嵌入空间中的距离）。这些示例——在嵌入空间中与测试问题最相似的示例——最终会被记录在提示中。
自生成思维链（CoT）：思维链（CoT）使用自然语言陈述，如"让我们一步步思考"，明确鼓励模型生成一系列中间推理步骤。这种方法被发现能显著提高基础模型执行复杂推理的能力。大多数思维链方法都集中在使用专家手动编写带有思维链的少样本示例进行提示。我们没有依赖人类专家，而是追求一种自动创建思维链示例的机制。我们发现，我们可以简单地要求GPT-4为训练示例生成思维链，并通过适当的防护措施来降低由于不正确的推理链导致的幻觉风险。
多数投票集成：集成是指将多个算法的输出组合在一起，以产生比任何单个算法更好的预测性能。像GPT-4这样的前沿模型受益于其自身输出的集成。一种简单的技术是使用各种提示，或单个提示与不同的temperature，并报告集成组成中最频繁的答案。对于多选题，我们采用了一种进一步增加集成多样性的技巧，称为选项打乱，即在生成每个推理路径之前打乱答案选项的相对顺序。然后我们选择最一致的答案，即对选项打乱最不敏感的答案，这增加了答案的鲁棒性。

这三种技术的组合使Medprompt在医学挑战问题上取得了突破性的表现。这些技术的实现细节可以在这里找到：https://github.com/microsoft/promptbase/tree/main/src/promptbase/mmlu

`Medprompt+` | 扩展提示的力量

这里我们提供了一些直观的细节，说明我们如何扩展medprompt提示框架，以在MMLU（测量大规模多任务语言理解）基准测试中获得更强的领域外性能。MMLU被建立为测试大型语言模型的一般知识和推理能力。完整的MMLU基准测试包含数万个不同形式的挑战问题，涵盖57个领域，从基础数学到美国历史、法律、计算机科学、工程、医学等。

我们发现，将Medprompt不加修改地应用于整个MMLU达到了89.1%的得分。对于一个适用于各种各样问题的单一策略来说，这已经相当不错了！但我们能否让Medprompt做得更好呢？简单地扩大MedPrompt的规模可以带来进一步的好处。作为第一步，我们将集成调用的次数从5次增加到20次。这将性能提升到89.56%。在进一步完善 Medprompt 的过程中，我们注意到对于 MMLU 的特定主题，其表现相对较差。MMLU 包含了各种类型的问题，取决于具体的学科和基准测试。考虑到问题的多样性，我们如何推动 GPT-4 在 MMLU 上取得更好的表现呢？

我们专注于扩展到投资组合方法，这基于以下观察：某些主题领域倾向于提出需要多步推理的问题，可能需要草稿纸来记录解决方案的多个部分。其他领域则寻求直接来自问题的事实性答案。Medprompt 采用"思维链"（CoT）推理，与多步解题相呼应。我们猜想，sophisticated 的 Medprompt-classic 方法可能在非常简单的问题上表现不佳，而如果对事实性查询使用更简单的方法，系统可能会表现得更好。

根据这一论点，我们发现通过将 MedPrompt 扩展为简单的两方法提示投资组合，可以提高 MMLU 的表现。我们在经典 Medprompt 基础上添加了 10 个简单、直接的少样本提示，直接soliciting答案而不使用思维链。然后我们请求 GPT-4 帮助决定每个主题领域和问题的最佳策略。作为筛选调用，对于每个问题，我们首先询问 GPT-4：

# 问题
{{ question }}

# 任务
回答上述问题是否需要草稿纸？
A. 是
B. 否

如果 GPT-4 认为问题需要草稿纸，那么集成中思维链组件的贡献将翻倍。如果不需要，我们将该贡献减半（让集成更多地依赖直接的少样本提示）。动态利用适当的提示技术在集成中导致 MMLU 的表现进一步提高了 0.5%。

我们注意到 Medprompt+ 依赖于访问 GPT-4 的置信度分数（logprobs）。这些目前在公共 API 中不可用，但在不久的将来将对所有人开放。

运行脚本

注意：这里托管的一些脚本是为了参考方法而发布的，可能无法立即针对公共 API 执行。我们正在努力在接下来的几天内使管道更容易"开箱即用"，同时感谢您在此期间的耐心等待！

首先，克隆仓库并安装 promptbase 包：

cd src
pip install -e .

接下来，决定您想要运行哪些测试。您可以从以下选项中选择：

bigbench
drop
gsm8k
humaneval
math
mmlu

在运行测试之前，您需要从原始来源下载数据集（见下文），并将它们放在 src/promptbase/datasets 目录中。

下载数据集并安装 promptbase 包后，您可以使用以下命令运行测试：

python -m promptbase dataset_name

例如：

python -m promptbase gsm8k

数据集链接

要运行评估，请下载这些数据集并将它们添加到 /src/promptbase/datasets/ 中

MMLU: https://github.com/hendrycks/test
- 从上述页面下载 data.tar 文件
- 解压内容
- 运行 mkdir src/promptbase/datasets/mmlu
- 运行 python ./src/promptbase/format/format_mmlu.py --mmlu_csv_dir /path/to/extracted/csv/files --output_path ./src/promptbase/datasets/mmlu
- 您还需要设置以下环境变量：
  - AZURE_OPENAI_API_KEY
  - AZURE_OPENAI_CHAT_API_KEY
  - AZURE_OPENAI_CHAT_ENDPOINT_URL
  - AZURE_OPENAI_EMBEDDINGS_URL
- 使用 python -m promptbase mmlu --subject <SUBJECT> 运行，其中 <SUBJECT> 是 MMLU 数据集之一（如 'abstract_algebra'）
- 除了单个主题外，format_mmlu.py 脚本还准备了允许将 all 作为主题传递的文件，这将在整个数据集上运行
HumanEval: https://huggingface.co/datasets/openai_humaneval
DROP: https://allenai.org/data/drop
GSM8K: https://github.com/openai/grade-school-math
MATH: https://huggingface.co/datasets/hendrycks/competition_math
Big-Bench-Hard: https://github.com/suzgunmirac/BIG-Bench-Hard 这个仓库的内容需要放在 datasets 目录下名为 BigBench 的目录中