DecryptPrompt

如果LLM的突然到来让你感到沮丧，不妨读下主目录的Choose Your Weapon Survival Strategies for Depressed AI Academics 持续更新以下内容，Star to keep updated~

目录顺序如下

国内外，垂直领域大模型
Agent和指令微调等训练框架
开源指令，预训练，rlhf，对话，agent训练数据梳理
AIGC相关应用
prompt写作指南和5星博客等资源梳理
Prompt和LLM论文细分方向梳理

My blogs

LLMS

模型评测

榜单	结果
AlpacaEval：LLM-based automatic evaluation	开源模型王者vicuna,openchat, wizardlm
Huggingface Open LLM Leaderboard	MMLU只评估开源模型，Falcon夺冠，在Eleuther AI4个评估集上评估的LLM模型榜单,vicuna夺冠
https://opencompass.org.cn/	上海人工智能实验室推出的开源榜单
Berkley出品大模型排位赛榜有准中文榜单	Elo评分机制，GPT4自然是稳居第一，GPT4>Claude>GPT3.5>Vicuna>others
CMU开源聊天机器人评测应用	ChatGPT>Vicuna>others；在对话场景中训练可能很重要
Z-Bench中文真格基金评测	国产中文模型的编程可用性还相对较低，大家水平差不太多，两版ChatGLM提升明显
Chain-of-thought评估	GSM8k, MATH等复杂问题排行榜
InfoQ 大模型综合能力评估	面向中文，ChatGPT>文心一言> Claude>星火
ToolBench: 工具调用评估榜单	工具微调模型和ChatGPT进行对比，提供评测脚本
AgentBench: 推理决策评估榜单	清华联合多高校推出不同任务环境，例如购物，家居，操作系统等场景下模型推理决策能力
FlagEval	智源出品主观+客观LLM评分榜单
Bird-Bench	更贴合真实世界应用的超大数据库，需要领域知识的NL2SQL榜单，模型追赶人类尚有时日
kola	以世界知识为核心的评价基准，包括已知的百科知识和未知的近90天网络发布内容，评价知识记忆，理解，应用和创造能力
CEVAL	中文知识评估，覆盖52个学科，机器评价主要为多项选择
CMMLU	67个主题中文知识和推理能力评估，多项选择机器评估
LLMEval3	复旦推出的知识问答榜单，涵盖大学作业和考题，题库尽可能来自非互联网避免模型作弊
FinancelQ	度小满开源的金融多项选择评估数据集
SWE-bench	基于真实github问题和PR的模型编程能力评估
Awesome-MLLM	多模态大模型榜单

国外开源模型

模型链接	模型描述
Phi-3-MINI-128K	还是质量>数量的训练逻辑，微软的3B小模型
LLama3	Open Meta带着可商用开源的羊驼3模型来了，重回王座~
WizardLM-2-8x22B	微软带着WizardLM-2也来了包括70B,7B 和8*22B
OpenSora	没等来OpenAI却等来了OpenSora这个梗不错哦
GROK	马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放
Gemma	谷歌商场开源模型2B，7B免费商用
Mixtral8*7B	法国“openai”开源基于MegaBlocks训练的MOE模型8*7B 32K
Mistral7B	法国“openai”开源Mistral，超过llama2当前最好7B模型
Idefics2	Hugging Face 推出 Idefics2 8B 多模态模型
Dolphin-2.2.1-Mistral-7B	基于Mistral7B使用dolphin数据集微调
Falcon	Falcon由阿联酋技术研究所在超高质量1万亿Token上训练得到1B，7B，40B开源，免费商用！土豪们表示钱什么的格局小了
Vicuna	Alpaca前成员等开源以LLama13B为基础使用ShareGPT指令微调的模型，提出了用GPT4来评测模型效果
OpenChat	80k ShareGPT对话微调LLama-2 13B开源模型中的战斗机
Guanaco	LLama 7B基座，在alpaca52K数据上加入534K多语言指令数据微调
MPT	MosaicML开源的预训练+指令微调的新模型，可商用，支持84k tokens超长输入
RedPajama	RedPajama项目既开源预训练数据后开源3B，7B的预训练+指令微调模型
koala	使用alpaca，HC3等开源指令集+ ShareGPT等ChatGPT数据微调llama，在榜单上排名较高
ChatLLaMA	基于RLHF微调了LLaMA
Alpaca	斯坦福开源的使用52k数据在7B的LLaMA上微调得到，
Alpaca-lora	LORA微调的LLaMA
Dromedary	IBM

DecryptPrompt

DecryptPrompt

My blogs

LLMS

模型评测

国外开源模型

相关项目

最新项目