DecryptPrompt
如果LLM的突然到来让你感到沮丧,不妨读下主目录的Choose Your Weapon Survival Strategies for Depressed AI Academics 持续更新以下内容,Star to keep updated~
目录顺序如下
- 国内外,垂直领域大模型
- Agent和指令微调等训练框架
- 开源指令,预训练,rlhf,对话,agent训练数据梳理
- AIGC相关应用
- prompt写作指南和5星博客等资源梳理
- Prompt和LLM论文细分方向梳理
My blogs
- 解密Prompt系列1. Tunning-Free Prompt:GPT2 & GPT3 & LAMA & AutoPrompt
- 解密Prompt系列2. 冻结Prompt微调LM: T5 & PET & LM-BFF
- 解密Prompt系列3. 冻结LM微调Prompt: Prefix-tuning & Prompt-tuning & P-tuning
- 解密Prompt系列4. 升级Instruction Tuning:Flan/T0/InstructGPT/TKInstruct
- 解密prompt系列5. APE+SELF=自动化指令集构建代码实现
- 解密Prompt系列6. lora指令微调扣细节-请冷静,1个小时真不够~
- 解密Prompt系列7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析
- 解密Prompt系列8. 无需训练让LLM支持超长输入:知识库 & Unlimiformer & PCW & NBCE
- 解密Prompt系列9. 模型复杂推理-思维链基础和进阶玩法
- 解密Prompt系列10. 思维链COT原理探究
- 解密Prompt系列11. 小模型也能COT,先天不足后天补
- 解密Prompt系列12. LLM Agent零微调范式 ReAct & Self Ask
- 解密Prompt系列13. LLM Agent指令微调方案: Toolformer & Gorilla
- 解密Prompt系列14. LLM Agent之搜索应用设计:WebGPT & WebGLM & WebCPM
- 解密Prompt系列15. LLM Agent之数据库应用设计:DIN & C3 & SQL-Palm & BIRD
- 解密Prompt系列16. LLM对齐经验之数据越少越好?LTD & LIMA & AlpaGasus
- 解密Prompt系列17. LLM对齐方案再升级 WizardLM & BackTranslation & SELF-ALIGN
- 解密Prompt系列18. LLM Agent之只有智能体的世界
- 解密Prompt系列19. LLM Agent之数据分析领域的应用:Data-Copilot & InsightPilot
- 解密Prompt系列20. LLM Agent 之再谈RAG的召回多样性优化
- 解密Prompt系列21. LLM Agent之再谈RAG的召回信息密度和质量
- 解密Prompt系列22. LLM Agent之RAG的反思:放弃了压缩还是智能么?
- 解密Prompt系列23.大模型幻觉分类&归因&检测&缓解方案脑图全梳理
- 解密prompt系列24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO
- 解密prompt系列25. RLHF改良方案之样本标注:RLAIF & SALMON
- 解密prompt系列26. 人类思考vs模型思考:抽象和发散思维
- 解密prompt系列27. LLM对齐经验之如何降低通用能力损失
- 解密Prompt系列28. LLM Agent之金融领域智能体:FinMem & FinAgent
- 解密Prompt系列29. LLM Agent之真实世界海量API解决方案:ToolLLM & AnyTool
- 解密Prompt系列30. LLM Agent之互联网冲浪智能体们
- 解密Prompt系列31. LLM Agent之从经验中不断学习的智能体
- 解密Prompt系列32. LLM之表格理解任务-文本模态
- 解密Prompt系列33. LLM之图表理解任务-多模态篇
- 解密prompt系列34. RLHF之训练另辟蹊径:循序渐进 & 青出于蓝
- 解密prompt系列35. 标准化Prompt进行时! DSPy论文串烧和代码示例
LLMS
模型评测
榜单 | 结果 |
---|---|
AlpacaEval:LLM-based automatic evaluation | 开源模型王者vicuna,openchat, wizardlm |
Huggingface Open LLM Leaderboard | MMLU只评估开源模型,Falcon夺冠,在Eleuther AI4个评估集上评估的LLM模型榜单,vicuna夺冠 |
https://opencompass.org.cn/ | 上海人工智能实验室推出的开源榜单 |
Berkley出品大模型排位赛榜有准中文榜单 | Elo评分机制,GPT4自然是稳居第一,GPT4>Claude>GPT3.5>Vicuna>others |
CMU开源聊天机器人评测应用 | ChatGPT>Vicuna>others;在对话场景中训练可能很重要 |
Z-Bench中文真格基金评测 | 国产中文模型的编程可用性还相对较低,大家水平差不太多,两版ChatGLM提升明显 |
Chain-of-thought评估 | GSM8k, MATH等复杂问题排行榜 |
InfoQ 大模型综合能力评估 | 面向中文,ChatGPT>文心一言> Claude>星火 |
ToolBench: 工具调用评估榜单 | 工具微调模型和ChatGPT进行对比,提供评测脚本 |
AgentBench: 推理决策评估榜单 | 清华联合多高校推出不同任务环境,例如购物,家居,操作系统等场景下模型推理决策能力 |
FlagEval | 智源出品主观+客观LLM评分榜单 |
Bird-Bench | 更贴合真实世界应用的超大数据库,需要领域知识的NL2SQL榜单,模型追赶人类尚有时日 |
kola | 以世界知识为核心的评价基准,包括已知的百科知识和未知的近90天网络发布内容,评价知识记忆,理解,应用和创造能力 |
CEVAL | 中文知识评估,覆盖52个学科,机器评价主要为多项选择 |
CMMLU | 67个主题中文知识和推理能力评估,多项选择机器评估 |
LLMEval3 | 复旦推出的知识问答榜单,涵盖大学作业和考题,题库尽可能来自非互联网避免模型作弊 |
FinancelQ | 度小满开源的金融多项选择评估数据集 |
SWE-bench | 基于真实github问题和PR的模型编程能力评估 |
Awesome-MLLM | 多模态大模型榜单 |
国外开源模型
模型链接 | 模型描述 |
---|---|
Phi-3-MINI-128K | 还是质量>数量的训练逻辑,微软的3B小模型 |
LLama3 | Open Meta带着可商用开源的羊驼3模型来了,重回王座~ |
WizardLM-2-8x22B | 微软带着WizardLM-2也来了包括70B,7B 和8*22B |
OpenSora | 没等来OpenAI却等来了OpenSora这个梗不错哦 |
GROK | 马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放 |
Gemma | 谷歌商场开源模型2B,7B免费商用 |
Mixtral8*7B | 法国“openai”开源基于MegaBlocks训练的MOE模型8*7B 32K |
Mistral7B | 法国“openai”开源Mistral,超过llama2当前最好7B模型 |
Idefics2 | Hugging Face 推出 Idefics2 8B 多模态模型 |
Dolphin-2.2.1-Mistral-7B | 基于Mistral7B使用dolphin数据集微调 |
Falcon | Falcon由阿联酋技术研究所在超高质量1万亿Token上训练得到1B,7B,40B开源,免费商用!土豪们表示钱什么的格局小了 |
Vicuna | Alpaca前成员等开源以LLama13B为基础使用ShareGPT指令微调的模型,提出了用GPT4来评测模型效果 |
OpenChat | 80k ShareGPT对话微调LLama-2 13B开源模型中的战斗机 |
Guanaco | LLama 7B基座,在alpaca52K数据上加入534K多语言指令数据微调 |
MPT | MosaicML开源的预训练+指令微调的新模型,可商用,支持84k tokens超长输入 |
RedPajama | RedPajama项目既开源预训练数据后开源3B,7B的预训练+指令微调模型 |
koala | 使用alpaca,HC3等开源指令集+ ShareGPT等ChatGPT数据微调llama,在榜单上排名较高 |
ChatLLaMA | 基于RLHF微调了LLaMA |
Alpaca | 斯坦福开源的使用52k数据在7B的LLaMA上微调得到, |
Alpaca-lora | LORA微调的LLaMA |
Dromedary | IBM |