#模型评估

ollama-grid-search学习资料汇总-自动化评估和比较LLM模型的桌面应用

2 个月前

Ollama A/B测试模型评估 Rust 参数优化 Github 开源项目

2 个月前

FiftyOne学习资源汇总 - 用于构建高质量数据集和计算机视觉模型的开源工具

2 个月前

FiftyOne 数据集计算机视觉模型评估机器学习 Github 开源项目

2 个月前

Presidio Research: 开发和评估PII检测模型的强大工具箱

3 个月前

Presidio PII检测数据生成模型评估命名实体识别 Github 开源项目

3 个月前

模式分类：机器学习的基础与应用

3 个月前

机器学习模式分类数据预处理模型评估聚类分析 Github 开源项目

3 个月前

RecSysDatasets: 推荐系统数据集大全

3 个月前

推荐系统数据集 RecBole 数据处理模型评估 Github 开源项目

3 个月前

AutoQuant: R包用于自动化机器学习、预测、模型评估和模型解释

3 个月前

AutoCatBoostRegression 机器学习回归模型自动化建模模型评估 Github 开源项目

3 个月前

LLM Comparator: 可视化分析工具助力大语言模型的并排评估

3 个月前

LLM Comparator 可视化工具模型评估 JSON格式 Python库 Github 开源项目

3 个月前

JudgeLM:利用大型语言模型构建可扩展的AI评估系统

3 个月前

JudgeLM 大语言模型模型评估开放式任务微调 Github 开源项目

3 个月前

Yet Another Applied LLM Benchmark: 一个实用的大语言模型评测基准

3 个月前

LLM基准测试模型评估数据流DSL Docker容器 API密钥 Github 开源项目

3 个月前

GenAI Quick Start PoCs: 加速生成式AI应用开发的开源项目

3 个月前

Amazon Bedrock 生成式AI RAG 模型评估语言模型 Github 开源项目

3 个月前

相关项目

clip4clip-webvid150k

CLIP4Clip结合CLIP模型和WebVid数据集，成功在视频文本检索中提高精度，利用150,000个视频文本对的训练提升性能。此模型擅长处理大规模视频数据，具备视觉-时间概念学习能力，适合高效视频搜索应用。其架构支持文本到视频的快速检索，提升搜索效率。

nq-distilbert-base-v1

nq-distilbert-base-v1模型以sentence-transformers为基础，将句子和段落转换为768维向量，以支持聚类和语义搜索任务。通过安装sentence-transformers库可轻松使用，具备丰富的使用选项，包括通过HuggingFace Transformers实现上下文嵌入和均值池化等应用，广泛适用于文本相似性评估、内容聚类和语义检索等自然语言处理任务，提供可靠性能与灵活应用场景。

AlphaMonarch-7B

AlphaMonarch-7B是经过DPO优化的模型，增强推理与对话能力，通过AI2 Reasoning Challenge、HellaSwag和TruthfulQA等测试表现优异。利用LazyMergekit合并多款模型，适合对话、角色扮演和故事创作。支持GGUF、GPTQ和AWQ等量化模式，搭配Mistral Instruct聊天模板，在多项国际评估中表现出色，成为高级7B模型中的一员。

OpenOrca-Platypus2-13B

OpenOrca-Platypus2-13B融合了Platypus2-13B和OpenOrcaxOpenChat-Preview2-13B，采用LoRA技术进行微调，在MMLU、ARC、HellaSwag等基准测试中表现突出，相较初版模型，尤其在LSAT逻辑推理中有显著提升。用户可通过Nomic Atlas查阅完整数据集，并使用特定框架重现基准测试结果。建议开发者在应用之前进行安全测试与调整，以优化部署效果。

bloomz-3b

该项目参与多项自然语言处理任务，如指代消解、自然语言推理、程序合成和句子补全，并显示其在多语言环境中的优秀表现。核心数据集涵盖多种语言，尤其在XWinograd和SuperGLUE等数据集上展现出色准确性。此外，项目支持多种编程语言，提供开发者多样选择。通过任务指标的展示，用户可深入了解其在不同测试中的性能表现，尤其是在复杂的推理和上下文理解任务中的广泛应用前景。

LLaMAntino-3-ANITA-8B-Inst-DPO-ITA

基于Meta Llama 3技术的LLaMAntino-3模型特别为意大利NLP研究开发，通过AI2推理挑战、HellaSwag和TruthfulQA等任务的微调与评估，实现卓越的文本生成和准确性表现。支持多语言输入，尤其是在意大利语环境中高效处理文本生成任务。

llama-3-8b-gpt-4o-ru1.0-gguf

模型在俄语数据集上表现优异，通过GPT-4o进行多语言能力训练提升了数据质量。在MT-Bench测试中，经过1个epoch的训练后，该模型在俄语评估中超越了GPT-3.5-turbo，接近Suzume。用户可通过llama.cpp或gptchain框架在本地使用该模型。

sentence-camembert-base

该模型利用预训练的Camembert-base和Siamese BERT-Networks微调，为法语句子嵌入提供了先进的方法，通过训练在stsb_multi_mt数据集上，有效提升文本相似度精确性。测试中Pearson相关系数达到82.36，适合从事法语内容分析的开发者，助力提高自然语言处理任务的准确性和效率。

stella-large-zh-v2

本项目借助多个MTEB数据集，对模型在句子相似度、分类及检索任务中的表现进行了全面评估。通过cos_sim_pearson、cos_sim_spearman等多项指标，展示了该模型在中文文本相似度和分类任务中的高效能力，尤其体现在MTEB BQ和MTEB CovidRetrieval数据集上。测试结果表明，该模型可在多种任务和数据集上灵活应用，适用于高精度文本相似性测量和分类的应用场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com