#基准测试
Nous-Hermes-2-SOLAR-10.7B - 人工智能对话模型,以性能与数据协作为核心
开源项目人工智能模型GithubHuggingfaceNous Hermes 2基准测试聊天对话模型微调
Nous Hermes 2基于SOLAR 10.7B,是一款经过优化的对话AI模型,经过对大量GPT-4生成及其他优质数据的训练,表现优于SOLAR 10.7B基础模型,并接近Yi-34B。支持多种基准测试,包括GPT4All、AGIEval、BigBench和TruthfulQA。该模型支持ChatML聊天格式,适合复杂对话互动。即将推出的量化版本可通过LM Studio与模型进行ChatGPT风格的交互,支持ChatML。
AceGPT-v2-70B-Chat - 提供优化的阿拉伯语对话生成模型集合,涵盖从7B到70B参数
AceGPT基准测试Huggingface阿拉伯语开源项目模型Github对话应用生成式文本模型
这套开源项目专为对话场景开发,提供多个版本的阿拉伯语生成文本模型,参数范围从7B到70B。它在多个基准测试中表现出色,与一些领先闭源模型的评价接近。模型由KAUST、CUHKSZ及SRIBD联合开发,包含AceGPT和AceGPT-chat两类,每类均提供不同参数选项。
kf-deberta-base - 金融领域专用语言模型展示出色性能
基准测试语言模型性能KF-DeBERTa模型Github开源项目金融Huggingface
KF-DeBERTa基于DeBERTa-v2架构,结合Electra的RTD目标训练,旨在金融和通用领域应用。其在KLUE基准测试上表现突出,超越RoBERTa-Large,并在金融领域任务如情感分析、广告分类和实体识别中展现领先性能,体现出其在财经信息处理中的适用性和精准度。
playground-v2-1024px-aesthetic - 高分辨率图像生成模型提升美学质量
基准测试Playground v2用户研究Huggingface文本到图像开源项目模型扩散模型Github
该模型生成1024x1024像素的高美学图像,并在用户偏好研究中表现出色。通过MJHQ-30K评估基准,Playground v2在多个评价指标上表现优于其他模型,尤其在图像的美学质量上。
Humanish-LLama3-8B-Instruct-GGUF - 介绍模型的量化技术实现文本生成性能突破
数据集Github开源项目文本生成量化基准测试HuggingfaceHumanish-LLama3-8B-Instruct模型
该项目通过llama.cpp进行量化,优化了模型的嵌入和输出权重,使得文本生成更加高效。模型在多个数据集上表现出色,如IFEval数据集测试中达到严格准确率64.98%。项目提供多种文件格式,支持多样化的计算资源和硬件环境,以满足不同的使用需求,包括低内存和ARM芯片的优化场景。
相关文章
promptfoo:全面的LLM应用测试与评估工具
3 个月前
MMMU: 推动人工智能迈向专家级多模态理解与推理的里程碑
3 个月前
LangChain Benchmarks: 为LLM相关任务提供基准测试的开源工具包
3 个月前
GenRL: 强化学习算法实现的开源库
3 个月前
SEED-Bench: 一个用于评估多模态大语言模型的综合基准
3 个月前
MixEval: 革新大语言模型评估的动态基准
3 个月前
MeViS: 一个基于运动表达的大规模视频分割基准数据集
3 个月前
RoleLLM: 一个突破性的大型语言模型角色扮演框架
3 个月前
Nous-Yarn-Mistral-7b-128k:处理长篇文本的先进语言模型,支持128k令牌的语境窗口
2024年08月03日