Project Icon

self-refine

LLM自我反馈迭代优化自然语言处理任务

Self-Refine是一个创新的自然语言处理项目,利用大型语言模型(LLM)生成、评估和改进自身输出。通过迭代过程,LLM对自己的工作提供反馈并持续优化结果。该项目在缩写生成、对话响应和代码可读性改进等多个任务中展现了效果。这种自我完善方法为提升AI系统性能和可靠性开辟了新途径。

自我改进:通过自我反馈进行迭代优化

通过自我改进,大语言模型可以对自己的工作生成反馈,利用反馈改进输出,并重复这个过程。

图片

网站 | 论文


目录


更新

斯托克斯定理示例
视觉自我改进示例1

独角兽示例
视觉自我改进示例2

设置

  • 我们使用prompt-lib来查询大语言模型。你可以通过运行以下命令安装prompt-lib:
git clone https://github.com/reasoning-machines/prompt-lib
pip install prompt-lib/

根据你的默认设置,你可能需要使用以下命令来设置PYTHONPATH:

export PYTHONPATH=".:../:.:src:../:../../:.:prompt-lib"

首次尝试缩略词生成

python -u src/acronym/run.py "使用代码语言模型进行少样本常识推理"
  • 由于我们使用温度0.7进行采样,每次运行上述命令时你都会得到不同的结果。
0 初始> 使用代码语言模型进行少样本常识推理

0 生成> CLoCK
0 评分> * 发音容易度:CLoCK发音为"克洛克"。这是一个容易发音的缩略词。4/5 
* 拼写容易度:CLoCK很容易拼写。5/5 
* 与标题的关联性:CLoCK代表"代码语言模型常识知识"(Code Language Models of Commonsense Knowledge),与标题相关。5/5 
* 积极含义:CLoCK是一个积极的缩略词。它暗示精确性和效率。5/5 
* 知名度:CLoCK不是一个广为人知的缩略词。2/5

* 总分:21/25

1 生成> CMNSC
1 评分> * 发音容易度:CMNSC发音为"西-明-艾斯-西"。这是一个难以发音的缩略词。1/5 
* 拼写容易度:CMNSC难以拼写。1/5 
* 与标题的关联性:CMNSC代表"常识"(Commonsense),与标题相关。4/5 
* 积极含义:CMNSC是一个中性的缩略词。3/5 
* 知名度:CMNSC不是一个广为人知的缩略词。1/5

* 总分:10/25

2 生成> COMMIT
2 评分> * 发音容易度:COMMIT发音为"科米特"。这是一个容易发音的缩略词。4/5
* 拼写容易度:COMMIT很容易拼写。5/5
* 与标题的关联性:COMMIT代表"用于直观训练的代码常识模型"(Commonsense Model of Code for Intuitive Training),与标题相关。5/5 
* 积极含义:COMMIT是一个积极的缩略词。它暗示承诺和奉献。5/5
* 知名度:COMMIT不是一个广为人知的缩略词。2/5

* 总分:21/25

对话回复生成

PYTHONPATH="." python -u src/responsegen/run.py --output <输出文件> --size <数据大小>
  • 使用大小0来运行所有测试实例

代码可读性改进

  • 注意:在运行以下命令之前,请先解压'data/tasks/codeclean/code_readability/codenet-python-train.jsonl.zip'文件!
  • 运行:
PYTHONPATH="." python -u src/readability/readability.py --output <输出文件>
  • 评估:
PYTHONPATH="." python -u src/readability/{count_comment|count_function|count_meaningful_var}.py --file <输入文件>

Commongen

  • 我们使用了一个困难版本的commongen。数据位于data/prompt/commongen目录。你可以通过运行以下命令下载数据:
python -u src/commongen/run.py cmd stair bubble team dryer puppy aliens cat 

GSM-8k

  • 运行GSM-8k任务:
python -u src/gsm/run.py 
  • 输出将保存在data/tasks/gsm/gsm_outputs.jsonl

  • 评估输出:

python src/gsm/gsm_selfref_eval.py --path  data/tasks/gsm/gsm_outputs.jsonl
  • 评估脚本还会生成一份报告(data/tasks/gsm/gsm_outputs.jsonl.reports.txt),展示错误生成的例子、反馈以及改进后的反馈生成。

Yelp

  • 运行Yelp任务:
python -u src/sentiment_transfer_sr/run.py data/tasks/yelp/yelp-extreme.jsonl 4 none
  • 输出将保存在data/tasks/yelp/目录

PIE

  • 运行PIE任务:
python -u src/pie/run.py --slow_programs_file data/tasks/pie/codenet-python-test-1k.jsonl --max_attempts 4 --outfile data/tasks/pie/output --feedback_type rich

通用设置

  • 每个任务有三种不同类型的提示:
  1. Init: 用于初始化任务。这是如何生成初始输出的。

  2. Feedback: 用于从模型获取对中间结果的反馈。

  3. Iterate: 用于根据反馈从模型获取下一次迭代。

  • 每个任务都有一个run.py文件,用于初始化提示并运行任务。

  • 以commongen为例,提示如下:

  1. 初始化提示:
python src/commongen/task_init.py
  1. 反馈提示:
 python src/commongen/feedback.py
  1. 迭代提示:
python src/commongen/task_iterate.py

你也可以在我们的网站上查看这些提示。

引用

@misc{madaan2023selfrefine,
      title={Self-Refine: Iterative Refinement with Self-Feedback}, 
      author={Aman Madaan and Niket Tandon and Prakhar Gupta and Skyler Hallinan and Luyu Gao and Sarah Wiegreffe and Uri Alon and Nouha Dziri and Shrimai Prabhumoye and Yiming Yang and Sean Welleck and Bodhisattwa Prasad Majumder and Shashank Gupta and Amir Yazdanbakhsh and Peter Clark},
      year={2023},
      eprint={2303.17651},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
flowchart LR
    Generator -->|初始化| Unrefined
    Critic_1 --> Critique_fb
    ... --> Critique_fb
    Critic_k --> Critique_fb
    Critique_fb --> Unrefined{待改进输出}
    Unrefined --> Refiner
    Refiner --> |R: y_t, x, fb| Refined_Output{改进后的输出}
    Refined_Output --> |未满足停止条件| Unrefined
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号