#评测

AlignBench - 多维度评估中文大语言模型对齐性能的基准
Github开源项目大语言模型AlignBench对齐水平评测GPT-4-0613
AlignBench 是多维度评估中文大语言模型对齐性能的评测基准。最新的 v1.1 版本提供了动态更新的数据、详细评分规则和高质量参考答案,确保评估的可靠性和可解释性。涵盖八大能力类别的数据主要来自真实用户问题,并使用 GPT-4 作为评分模型,通过多维度分析方法系统评估模型性能。
Medical_NLP - 医疗行业自然语言处理资源汇总,包括评测、数据集和预训练模型
Github开源项目数据集评测Medical_NLP中文医疗基准测评开源预训练模型
本页面汇总了最新的医疗自然语言处理资源,涵盖基准评测、比赛信息、多语言数据集、开源预训练模型、学术论文和工具包等内容。为研究人员和开发者提供一站式资源支持,以提升医疗NLP领域的研究深度和应用效果。
XuanYuan - 轩辕系列开源中文大语言模型 金融及多领域表现优异
Github开源项目开源预训练评测金融轩辕大模型
轩辕项目开源了6B、13B、70B等规模的中文大语言模型系列。这些模型在金融领域表现突出,FinanceIQ评测结果优于GPT-4。在C-Eval、CMMLU等通用能力测试中也取得了优秀成绩。项目同时发布高质量中文金融数据集,促进金融AI研究。多种模型规格可满足不同应用场景需求。
Llama3-Tutorial - Llama 3模型实践教程 从部署到微调评测
Github开源项目微调部署大模型Llama 3评测
Llama 3教程项目提供了从本地部署到高效部署和能力评测的全面指导。包含六个课程,涵盖XTuner个性化助手训练、LLaVA图像理解、LMDeploy高效部署和OpenCompass模型评估等核心内容。该教程为开发者提供了实践Llama 3大语言模型的完整流程和关键技能培训。
internlm2-base-7b - 高效处理超长文本的多功能开源模型
Github开源项目开源模型HuggingfaceInternLM评测语言能力
InternLM2-Base-7B是一个适应性强的开源模型,支持处理长达20万字的文本,具备精确的信息检索能力,并在推理、数学、编程任务中表现优异。通过OpenCompass工具验证,其性能适合广泛应用,是研究人员和开发者的理想选择。
Qwen-7B-Chat - 阿里云开发的多语言大模型AI助手
Github开源项目大语言模型AI助手模型量化Huggingface评测Qwen-7B-Chat
Qwen-7B-Chat是阿里云研发的大语言模型,参数规模为70亿。模型通过超大规模多样化数据训练,支持中英文和代码处理。采用RoPE位置编码、SwiGLU激活函数等先进技术,使用15万token优化词表。在各项基准测试中表现优异,具备长文本理解和外部工具调用能力。
Qwen-7B - 70亿参数规模的多语言开源预训练语言模型
Github开源项目大语言模型多语言预训练模型Huggingface评测Qwen-7B
Qwen-7B是一个70亿参数规模的开源预训练语言模型,基于超过2.4万亿tokens的多语言语料训练而成。该模型支持15万规模的多语言词表,在常识推理、代码生成、数学计算、机器翻译等多个评测任务中表现优异。通过采用RoPE位置编码、SwiGLU激活函数等技术,Qwen-7B具备强大的多语言理解和处理能力,同时支持长文本输入和高效推理。