#数据集

instruction-datasets - 大语言模型指令微调数据集汇总
Instruction Tuning大语言模型数据集NLP多语言Github开源项目
该项目整理了大语言模型指令微调所需的多种数据集,包括金标准、银标准/LM生成和偏好数据集。内容涵盖多语言和多模态任务,提供指令-响应对和人类偏好评分等资源。这些数据集有助于提升模型的指令跟随、对话和任务执行能力,为NLP研究和开发提供重要参考。
DISC-FinLLM - 金融领域的多专家智能系统
DISC-FinLLM金融大模型微调数据集金融咨询Github开源项目
DISC-FinLLM是复旦大学开发的金融领域大模型,由金融咨询、文本分析、计算和知识检索问答四个模组构成。该模型基于25万条数据的DISC-Fin-SFT数据集训练,在金融NLP任务、人类试题、资料分析和时事分析等多个评测中表现出色。DISC-FinLLM能为金融领域提供全面支持,适用于多种应用场景。
byt5-geotagging - ByT5编码器驱动的开源地理标记模型框架
地理标记模型ByT5编码器数据集定位预测开源项目Github
byt5-geotagging是一个开源的地理标记模型框架,基于ByT5编码器架构。该项目提供了自定义训练支持和多种地理位置检测场景的数据集。模型在最相关10%文本上实现30公里中位误差的精度。框架集成了置信度估计功能,用于评估预测坐标的可靠性。该项目代码易于探索和适配,方便开发者集成到各类应用中。
awesome-knowledge-driven-AD - 知识驱动自动驾驶技术的前沿研究资源库
Autonomous Driving知识驱动数据集环境模拟驾驶智能体Github开源项目
该项目汇集了知识驱动自动驾驶领域的最新研究论文和开源资源。内容涵盖数据集、基准测试、环境模拟和驾驶员代理等关键方面,持续追踪行业前沿进展。这一资源库为自动驾驶技术的研究和开发提供了全面的参考材料。
Vehicle-Detection - 深度学习与YOLO算法实现的车辆检测系统
车辆检测YOLO算法深度学习数据集模型训练Github开源项目
Vehicle-Detection项目结合深度学习和YOLO算法实现车辆检测。项目提供完整工作流程,涵盖数据集准备、模型训练和测试。采用YOLOv5预训练模型微调,集成wandb工具监控性能。项目包含自定义车辆数据集,并提供详细的安装、训练和测试指南。
ToolQA - 评估工具增强型大语言模型的开源数据集
ToolQA大语言模型数据集工具增强评估基准Github开源项目
ToolQA是一个开源数据集,专门用于评估工具增强型大语言模型。数据集涵盖8个领域,包含需要综合使用多个工具解答的问题,分为简单和困难两个级别。ToolQA通过人机协作创建,提供了数据统计、下载链接、工具实现和基准代码,为研究人员评估和改进大语言模型的外部工具使用能力提供全面资源。
freshqa - 搜索引擎增强技术提升大型语言模型性能
FreshLLMs大语言模型搜索引擎增强数据集评估方法Github开源项目
FreshLLMs项目开发搜索引擎增强方法,提升大型语言模型性能。核心组件包括FreshQA问答数据集、FreshPrompt回答生成工具和FreshEval自动评估指标。FreshQA每周更新,保持数据时效性。FreshPrompt整合搜索结果生成回答。FreshEval提供客观评估标准。该项目为研究人员提供开放资源,助力提高语言模型的时效性和准确性,推动AI技术创新。
ir_datasets - 统一信息检索数据集接口的Python工具
ir_datasets信息检索数据集Python包文档检索Github开源项目
ir_datasets是一个Python工具包,为信息检索领域的多种数据集提供统一接口。它可自动下载和处理公开数据集,并为非公开数据集提供获取指南。该工具支持Python和命令行使用,能处理大规模数据集,并修正已知问题。通过快速随机文档访问和灵活迭代切片等功能,ir_datasets简化了信息检索研究中的数据处理流程。
arctic - 大规模双手物体交互数据助力视觉研究
ARCTIC数据集手部动作物体操作3D重建Github开源项目
ARCTIC是一个包含210万高分辨率图像的大规模数据集,专注于双手与物体的精细交互。数据集提供多视角图像及3D人体、手部和物体标注,采用54个Vicon相机捕获高度灵巧的双手操作。ARCTIC可用于手-物体重建、抓取生成、全身动作生成等多项视觉任务研究,为相关领域提供了丰富资源。
The_Prompt_Report - 提示工程研究自动化分析平台
PromptGenAI人工智能论文研究数据集Github开源项目
The Prompt Report项目代码仓库提供自动化论文分析工具,用于构建提示(prompt)的结构化理解。该项目实现了论文自动审查、数据采集和实验执行,并建立了完整的提示技术分类体系。代码库包含安装指南、API配置说明和运行步骤,为生成式AI系统中的提示工程研究提供支持。项目还提供了相关数据集和研究论文链接,方便研究人员深入了解。代码结构清晰,包括论文下载、数据处理和实验模块,便于扩展和定制化研究。
OPT-6.7B-Erebus - 了解OPT-6.7B-Erebus模型及其成人内容生成特点
数据集生成文本Github模型开源项目OPT 6.7B - Erebus成人主题HuggingfaceNSFW偏见
OPT-6.7B-Erebus是一款专注于成人内容生成的AI模型,基于多种高评分数据进行训练,具有明显的NSFW倾向且不适合未成年人。更多信息可通过KoboldAI社区获取,请谨慎使用以防止不当输出。
dolly-v2-12b - Databricks开源商用语言模型
指令调优dolly-v2-12b大语言模型HuggingfaceGithub开源项目性能限制模型数据集
dolly-v2-12b由Databricks开发,基于Pythia-12b构建,是一款为商业用途优化的大规模指令遵循语言模型。通过15000条指令/响应数据库微调,展示其在多领域应用中的潜力,如信息提取和问答系统。同时,提供更小的dolly-v2-7b和dolly-v2-3b版本以适应不同需求。
awesome-remote-sensing-change-detection - 遥感变化检测数据集与代码资源汇总
遥感变化检测数据集多光谱高分辨率深度学习Github开源项目
项目整理了遥感变化检测领域的关键资源,包括数据集、算法代码和竞赛信息。数据类型覆盖多光谱、高光谱和3D等,同时收录了传统方法和深度学习的实现代码。为该领域研究和应用提供全面参考,内容持续更新。
pubmed-rct - 大规模医学摘要句子分类数据集
PubMed 200k RCT数据集医学摘要分类序列句子分类自然语言处理Github开源项目
PubMed 200k RCT是一个包含约20万篇随机对照试验摘要的数据集,共230万个句子。这些句子被标注为背景、目标、方法、结果或结论五种角色。该数据集为医学文献中的连续句子分类提供了资源,有助于开发更准确的短文本分类算法,同时为研究人员提供了高效浏览文献的工具。PubMed 200k RCT的发布将促进自然语言处理在医学领域的应用。
torchxrayvision - 胸部X光影像分析工具库
TorchXRayVision胸部X光深度学习预训练模型数据集Github开源项目
TorchXRayVision是一个开源的胸部X光影像分析工具库,为多个公开数据集提供统一接口和预处理流程。它包含多种预训练模型,可用于快速分析大型数据集、实现少样本学习,以及在多个外部数据集上评估算法性能。该库旨在简化胸部X光影像研究工作流程,提高分析效率。
rut5-base-absum - 结合多任务训练的俄语文本抽象摘要模型
数据集Github模型开源项目语言模型Russian summarizationPyTorchHuggingface模型微调
该模型基于cointegrated/rut5-base-multitask,为俄语文本的抽象摘要进行了优化,微调时使用了四个数据集。通过指定文本和参数,如词数、压缩率及最大长度,生成简明准确的摘要,适用于多种长度和复杂程度的文本。模型在提高摘要效率和内容相关性方面表现优异,特别适合需要简化信息的场合。
SmolLM-1.7B-Instruct - SmolLM-1.7B-Instruct 模型的技术特性与应用场景分析
数据集Github微调模型开源项目语言模型性能优化SmolLMHuggingface
SmolLM-1.7B-Instruct 是一款包含135M、360M和1.7B参数的小型语言模型,通过高质量数据集微调而成。v0.2版本在主题保持和回答提示方面表现优越。支持多种应用方式,包括本地和浏览器演示。但需注意,该模型可能并非完全精准,建议作为辅助工具应用于常识问答、创造性写作和基础编程等场景。
nbailab-base-ner-scandi - 斯堪的纳维亚语言的命名实体识别模型
数据集Github开源项目命名实体识别模型性能ScandiNERHuggingface北欧语言模型
这个模型是NbAiLab/nb-bert-base的精调版本,适用于丹麦语、挪威语、瑞典语、冰岛语和法罗语的命名实体识别(NER)。通过整合DaNE、NorNE、SUC 3.0和WikiANN的一些数据集,模型可以提供高精度的NER结果,并支持多种语言包括英语。识别的实体类型包括人名、地名、组织名及其他类别。模型以Micro-F1得分约为89%的表现,以及4.16样本/秒的处理速度表现出色,同时模型体积合理,带来好的准确性和效率平衡。
opus-mt-sq-en - 中立且精准的阿尔巴尼亚语到英语翻译工具
数据集Github开源项目Huggingface预处理翻译opus-mt-sq-en模型
项目提供了一种中立的阿尔巴尼亚语到英语翻译工具,基于transformer-align模型,并通过正规化和SentencePiece预处理,以opus数据集为基础。模型方便下载和评估,在Tatoeba.sq.en测试集中取得了58.4的BLEU得分和0.732的chr-F分数,适用于各种翻译需求。
parakeet-tdt_ctc-1.1b - 高性能自动语音识别模型解决方案
词错误率自动语音识别数据集Github开源项目快速同构体NeMoHuggingface模型
parakeet-tdt_ctc-1.1b提供了一个功能强大的语音识别模型,支持将语音转录为包含标点和大写字母的文本。由NVIDIA NeMo和Suno.ai团队联合开发,拥有1.1B的参数规模,能够高效地处理大规模的音频数据。该模型利用局部注意力和全局令牌技术实现单次处理11小时音频。其在多个公开数据集上的出色表现,表明其在语音转录应用中有广泛的适用性和较低的词错误率(WER)。
llm-jp-3-13b-instruct - 提供多语言大规模模型,支持多编程环境
数据集Github模型transformers大型语言模型开源项目Huggingfacellm-jp-3-13b-instruct自然语言处理
项目由日本国立信息学研究所研发,部分支持来自GENIAC。模型包含13b版,基于Transformer架构,支持多种语言如Python、Java、Rust。预训练数据集丰富,适用于日语、英语等多语言环境。项目使用Huggingface的Transformers,评估覆盖多领域任务。模型处于早期阶段,尚未完全对输出的人类意图和安全性进行调校。
Qwen2.5-7B-Instruct-Uncensored-GGUF - 中英文无删减指令模型的最新静态量化版本,适合多语言支持
数据集Github量化模型Qwen2.5-7B-Instruct-Uncensored开源项目Hugging FaceHuggingface
该项目为Qwen2.5-7B-Instruct-Uncensored模型提供多种质量和大小的静态量化文件,支持中英文双语功能。用户可选择合适的量化类型,包括快速的Q4_K_S与Q4_K_M以及高质量的Q8_0和Q6_K。这些文件可提升模型性能,尤其在敏感内容处理及多语言支持方面。使用说明可参考TheBloke的文档。项目得益于nethype公司的资源支持。
opus-mt-de-it - 德语到意大利语的开源翻译模型
数据集开源项目翻译SentencePieceGithub模型HuggingfaceBLEUopus-mt-de-it
该开源项目使用transformer-align模型,提供德语到意大利语的高效翻译。通过Normalization和SentencePiece进行预处理,确保翻译的精准性和流畅性。用户可下载模型原始权重和测试集进行评估。模型在Tatoeba数据集上的评估显示,BLEU得分为45.3,chr-F得分为0.671,表现出良好的翻译性能。
mHuBERT-147 - 支持147种语言的紧凑型多语言HuBERT模型
数据集开源项目模型GithubHuggingface声学模型mHuBERT-147多语言训练数据
mHuBERT-147是一个支持147种语言的多语言HuBERT模型,使用95M参数的基础架构,并通过faiss IVF离散语音单元训练。该模型在多项测试中表现优异,特别是在语种识别任务中取得最新的领先成绩,具备良好的应用前景。
F5-TTS - 提高训练和推理速度的先进文本到语音转换系统
F5-TTSE2 TTS训练推理数据集Github开源项目
项目F5-TTS利用Diffusion Transformer和ConvNeXt V2技术,显著提升了训练和推理速度。支持生成最长30秒的音频,并通过Sway Sampling技术优化推理性能。用户可以自定义数据集,并使用多GPU和fp16配置加速训练。提供单次推理、语音编辑和批量推理功能,并支持通过Gradio App进行操作。多种测试数据集和评估工具确保模型表现稳定高效。
Fugaku-LLM-13B-instruct-gguf - Fugaku-LLM日本语言模型的高效转换和应用
数据集使用条款Github开源项目变换脚本Huggingface日本語大模型Fugaku-LLM-13B-instruct模型
Fugaku-LLM-13B-instruct项目通过转换为gguf格式,提升和优化了imatrix数据集在日本语言模型中的应用。用户可以通过指定的脚本和指令有效进行模型转换和使用,使用前确认遵循相关条款。
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B - 利用DPO优化方法提升语言模型的性能
偏好数据HuggingfaceDPO TrainerTomGrc/FusionNet_7Bx2_MoE_14BGithub开源项目模型数据集语言模型
使用DPO Trainer在TomGrc/FusionNet_7Bx2_MoE_13B上优化语言模型,通过TRL实现偏好数据训练,提升模型效果。了解Rafailov等人的直接偏好优化方法,以提升模型性能,提供更精准的结果。
Barcenas-14b-Phi-3-medium-ORPO - 模型通过ORPO方法提升对话能力
VAGOsolutions对话能力Barcenas-14b-Phi-3-medium-ORPO模型Github开源项目数据集ORPOHuggingface
该模型利用ORPO方法,基于VAGOsolutions/SauerkrautLM-Phi-3-medium,通过mlabonne/orpo-dpo-mix-40k数据集训练,旨在提高对话能力和语境理解。
orca_mini_v3_13b - 增强文本生成的Orca与Llama2结合模型
模型评估语言模型orca_mini_v3_13b模型Github开源项目数据集文本生成Huggingface
orca_mini_v3_13b项目利用Orca风格数据集和Llama2-13b模型的结合,实现高效文本生成。该模型在多项任务中表现卓越,如AI2推理挑战达到63.14%的准确率,HellaSwag则达到82.35%。此设计在多语言及复杂生成任务中具有显著优势。依照Llama-2的许可证规范使用,保证合规性。
bge-micro-v2 - 轻量高效的语义相似度神经网络
模型Githubsentence-transformers模型评估机器学习开源项目Huggingface数据集自然语言处理
作为一个轻量级语义相似度模型,bge-micro-v2在保持小型化的同时,展现出卓越的文本表示能力。该模型在MTEB多项基准测试中表现出色,包括文本分类、信息检索、文档聚类和语义相似度评估等任务。bge-micro-v2的设计特别适合在计算资源受限的场景下进行高效的语义分析工作。
toxigen_roberta - 基于大规模数据集的隐含仇恨言论检测模型
隐式仇恨言论检测机器学习Github开源项目文本分类ToxiGenHuggingface模型数据集
ToxiGen是一个专门用于检测隐含和对抗性仇恨言论的机器学习模型。该模型基于大规模机器生成的数据集训练而成,源自一篇关于隐含仇恨言论检测的学术研究。ToxiGen提供了训练数据集和详细信息,为研究人员和开发者在改进在线内容审核方面提供了有力支持。这一工具有助于构建更安全的在线交流环境,对于社交媒体平台和内容管理系统具有重要应用价值。
suzume-llama-3-8B-multilingual-orpo-borda-half - 多语言性能优化,基于lightblue模型的ORPO改进
评估结果数据集开源项目模型GithubHuggingface多语言模型模型优化Suzume ORPO
该项目通过ORPO方法对lightblue基础模型进行微调,提升多种语言的自然语言处理能力。模型优化使用了lightblue/mitsu数据集的重要响应。在MT-Bench测试中,这些ORPO模型比基础模型在多个语言中表现更好,预计将来会有商用版本推出。
Skywork-Reward-Llama-3.1-8B-v0.2 - 小型数据集训练的高性能奖励模型实现卓越偏好处理
模型Reward Model人工智能SkyworkGithub大语言模型开源项目Huggingface数据集
Skywork-Reward-Llama-3.1-8B-v0.2是基于Llama-3.1-8B-Instruct架构的奖励模型,通过80K高质量偏好对数据集训练而成。该模型在复杂场景中展现出优秀的偏好处理能力,在数学、编程和安全等领域表现出色。在RewardBench排行榜上,它在8B模型中排名第一。这一成果证明了经过精心筛选的小型数据集也能用于训练高性能奖励模型。
txlm-roberta-hindi-sentiment - 印地语情感分析模型:性能与应用场景
数据集F1-scoreGithub模型开源项目HuggingfaceHindi情感分类T-XLM-RoBERTa-Hindi-Sentiment
这款印地语情感分析模型基于公开数据集进行了微调,具备0.89的加权平均宏F1评分,适合在印地语媒体中提取情感信息。模型使用PyTorch模块进行微调,详细教程可在LondonStory的GitHub页面获取。
gpt-ya2-v2 - 基于kpriyanshu256数据集优化的文本生成模型
Huggingfacegpt2模型精调开源项目Github数据集准确率
gpt-ya2-v2利用kpriyanshu256数据集对gpt2模型进行微调,提高了文本生成的因果语言建模性能。主要训练参数包括学习率5e-05和批量大小8,采用Adam优化器和线性学习率调度。模型在测试中达到36.91%的准确性,展示了在文本生成任务中的有效性。
flair-ner-spanish-judicial - 增强拉美司法系统中性别暴力案件的透明度和数据收集效率
数据集Github模型法律裁决开源项目性别暴力HuggingfaceAymurAI司法系统
该项目通过提高拉美司法系统中性别暴力案件的数据透明度和获取能力,旨在改善司法体系的信任。AymurAI项目应用FLAIR指南和BiLSTM-CRF架构,结合BETO嵌入模型,创建了专注于阿根廷刑事法院数据的NER模型。此模型在布宜诺斯艾利斯刑事法院N°10的数据集上进行训练,提供了半自动化的数据收集和分析功能。目前为原型阶段,其目标是助力政策制定和社会倡导,尤其是提升女性及LGBTIQ+群体的司法获取途径。