#数据集
instruction-datasets - 大语言模型指令微调数据集汇总
Instruction Tuning大语言模型数据集NLP多语言Github开源项目
该项目整理了大语言模型指令微调所需的多种数据集,包括金标准、银标准/LM生成和偏好数据集。内容涵盖多语言和多模态任务,提供指令-响应对和人类偏好评分等资源。这些数据集有助于提升模型的指令跟随、对话和任务执行能力,为NLP研究和开发提供重要参考。
DISC-FinLLM - 金融领域的多专家智能系统
DISC-FinLLM金融大模型微调数据集金融咨询Github开源项目
DISC-FinLLM是复旦大学开发的金融领域大模型,由金融咨询、文本分析、计算和知识检索问答四个模组构成。该模型基于25万条数据的DISC-Fin-SFT数据集训练,在金融NLP任务、人类试题、资料分析和时事分析等多个评测中表现出色。DISC-FinLLM能为金融领域提供全面支持,适用于多种应用场景。
byt5-geotagging - ByT5编码器驱动的开源地理标记模型框架
地理标记模型ByT5编码器数据集定位预测开源项目Github
byt5-geotagging是一个开源的地理标记模型框架,基于ByT5编码器架构。该项目提供了自定义训练支持和多种地理位置检测场景的数据集。模型在最相关10%文本上实现30公里中位误差的精度。框架集成了置信度估计功能,用于评估预测坐标的可靠性。该项目代码易于探索和适配,方便开发者集成到各类应用中。
awesome-knowledge-driven-AD - 知识驱动自动驾驶技术的前沿研究资源库
Autonomous Driving知识驱动数据集环境模拟驾驶智能体Github开源项目
该项目汇集了知识驱动自动驾驶领域的最新研究论文和开源资源。内容涵盖数据集、基准测试、环境模拟和驾驶员代理等关键方面,持续追踪行业前沿进展。这一资源库为自动驾驶技术的研究和开发提供了全面的参考材料。
Vehicle-Detection - 深度学习与YOLO算法实现的车辆检测系统
车辆检测YOLO算法深度学习数据集模型训练Github开源项目
Vehicle-Detection项目结合深度学习和YOLO算法实现车辆检测。项目提供完整工作流程,涵盖数据集准备、模型训练和测试。采用YOLOv5预训练模型微调,集成wandb工具监控性能。项目包含自定义车辆数据集,并提供详细的安装、训练和测试指南。
ToolQA - 评估工具增强型大语言模型的开源数据集
ToolQA大语言模型数据集工具增强评估基准Github开源项目
ToolQA是一个开源数据集,专门用于评估工具增强型大语言模型。数据集涵盖8个领域,包含需要综合使用多个工具解答的问题,分为简单和困难两个级别。ToolQA通过人机协作创建,提供了数据统计、下载链接、工具实现和基准代码,为研究人员评估和改进大语言模型的外部工具使用能力提供全面资源。
freshqa - 搜索引擎增强技术提升大型语言模型性能
FreshLLMs大语言模型搜索引擎增强数据集评估方法Github开源项目
FreshLLMs项目开发搜索引擎增强方法,提升大型语言模型性能。核心组件包括FreshQA问答数据集、FreshPrompt回答生成工具和FreshEval自动评估指标。FreshQA每周更新,保持数据时效性。FreshPrompt整合搜索结果生成回答。FreshEval提供客观评估标准。该项目为研究人员提供开放资源,助力提高语言模型的时效性和准确性,推动AI技术创新。
ir_datasets - 统一信息检索数据集接口的Python工具
ir_datasets信息检索数据集Python包文档检索Github开源项目
ir_datasets是一个Python工具包,为信息检索领域的多种数据集提供统一接口。它可自动下载和处理公开数据集,并为非公开数据集提供获取指南。该工具支持Python和命令行使用,能处理大规模数据集,并修正已知问题。通过快速随机文档访问和灵活迭代切片等功能,ir_datasets简化了信息检索研究中的数据处理流程。
arctic - 大规模双手物体交互数据助力视觉研究
ARCTIC数据集手部动作物体操作3D重建Github开源项目
ARCTIC是一个包含210万高分辨率图像的大规模数据集,专注于双手与物体的精细交互。数据集提供多视角图像及3D人体、手部和物体标注,采用54个Vicon相机捕获高度灵巧的双手操作。ARCTIC可用于手-物体重建、抓取生成、全身动作生成等多项视觉任务研究,为相关领域提供了丰富资源。
The_Prompt_Report - 提示工程研究自动化分析平台
PromptGenAI人工智能论文研究数据集Github开源项目
The Prompt Report项目代码仓库提供自动化论文分析工具,用于构建提示(prompt)的结构化理解。该项目实现了论文自动审查、数据采集和实验执行,并建立了完整的提示技术分类体系。代码库包含安装指南、API配置说明和运行步骤,为生成式AI系统中的提示工程研究提供支持。项目还提供了相关数据集和研究论文链接,方便研究人员深入了解。代码结构清晰,包括论文下载、数据处理和实验模块,便于扩展和定制化研究。
OPT-6.7B-Erebus - 了解OPT-6.7B-Erebus模型及其成人内容生成特点
数据集生成文本Github模型开源项目OPT 6.7B - Erebus成人主题HuggingfaceNSFW偏见
OPT-6.7B-Erebus是一款专注于成人内容生成的AI模型,基于多种高评分数据进行训练,具有明显的NSFW倾向且不适合未成年人。更多信息可通过KoboldAI社区获取,请谨慎使用以防止不当输出。
dolly-v2-12b - Databricks开源商用语言模型
指令调优dolly-v2-12b大语言模型HuggingfaceGithub开源项目性能限制模型数据集
dolly-v2-12b由Databricks开发,基于Pythia-12b构建,是一款为商业用途优化的大规模指令遵循语言模型。通过15000条指令/响应数据库微调,展示其在多领域应用中的潜力,如信息提取和问答系统。同时,提供更小的dolly-v2-7b和dolly-v2-3b版本以适应不同需求。
awesome-remote-sensing-change-detection - 遥感变化检测数据集与代码资源汇总
遥感变化检测数据集多光谱高分辨率深度学习Github开源项目
项目整理了遥感变化检测领域的关键资源,包括数据集、算法代码和竞赛信息。数据类型覆盖多光谱、高光谱和3D等,同时收录了传统方法和深度学习的实现代码。为该领域研究和应用提供全面参考,内容持续更新。
pubmed-rct - 大规模医学摘要句子分类数据集
PubMed 200k RCT数据集医学摘要分类序列句子分类自然语言处理Github开源项目
PubMed 200k RCT是一个包含约20万篇随机对照试验摘要的数据集,共230万个句子。这些句子被标注为背景、目标、方法、结果或结论五种角色。该数据集为医学文献中的连续句子分类提供了资源,有助于开发更准确的短文本分类算法,同时为研究人员提供了高效浏览文献的工具。PubMed 200k RCT的发布将促进自然语言处理在医学领域的应用。
torchxrayvision - 胸部X光影像分析工具库
TorchXRayVision胸部X光深度学习预训练模型数据集Github开源项目
TorchXRayVision是一个开源的胸部X光影像分析工具库,为多个公开数据集提供统一接口和预处理流程。它包含多种预训练模型,可用于快速分析大型数据集、实现少样本学习,以及在多个外部数据集上评估算法性能。该库旨在简化胸部X光影像研究工作流程,提高分析效率。
rut5-base-absum - 结合多任务训练的俄语文本抽象摘要模型
数据集Github模型开源项目语言模型Russian summarizationPyTorchHuggingface模型微调
该模型基于cointegrated/rut5-base-multitask,为俄语文本的抽象摘要进行了优化,微调时使用了四个数据集。通过指定文本和参数,如词数、压缩率及最大长度,生成简明准确的摘要,适用于多种长度和复杂程度的文本。模型在提高摘要效率和内容相关性方面表现优异,特别适合需要简化信息的场合。
MMSA - 多模态情感分析统一框架助力研究
MMSA多模态情感分析深度学习模型数据集Python工具包Github开源项目
MMSA是一个多模态情感分析统一框架,集成15种先进MSA模型,支持MOSI、MOSEI和CH-SIMS数据集。框架提供Python API和命令行工具,方便使用。结合MMSA-FET工具包,可进行自定义多模态特征提取实验。MMSA为多模态情感分析研究提供了全面系统的支持平台,助力相关领域的深入研究与创新。
SmolLM-1.7B-Instruct - SmolLM-1.7B-Instruct 模型的技术特性与应用场景分析
数据集Github微调模型开源项目语言模型性能优化SmolLMHuggingface
SmolLM-1.7B-Instruct 是一款包含135M、360M和1.7B参数的小型语言模型,通过高质量数据集微调而成。v0.2版本在主题保持和回答提示方面表现优越。支持多种应用方式,包括本地和浏览器演示。但需注意,该模型可能并非完全精准,建议作为辅助工具应用于常识问答、创造性写作和基础编程等场景。
nbailab-base-ner-scandi - 斯堪的纳维亚语言的命名实体识别模型
数据集Github开源项目命名实体识别模型性能ScandiNERHuggingface北欧语言模型
这个模型是NbAiLab/nb-bert-base的精调版本,适用于丹麦语、挪威语、瑞典语、冰岛语和法罗语的命名实体识别(NER)。通过整合DaNE、NorNE、SUC 3.0和WikiANN的一些数据集,模型可以提供高精度的NER结果,并支持多种语言包括英语。识别的实体类型包括人名、地名、组织名及其他类别。模型以Micro-F1得分约为89%的表现,以及4.16样本/秒的处理速度表现出色,同时模型体积合理,带来好的准确性和效率平衡。
opus-mt-sq-en - 中立且精准的阿尔巴尼亚语到英语翻译工具
数据集Github开源项目Huggingface预处理翻译opus-mt-sq-en模型
项目提供了一种中立的阿尔巴尼亚语到英语翻译工具,基于transformer-align模型,并通过正规化和SentencePiece预处理,以opus数据集为基础。模型方便下载和评估,在Tatoeba.sq.en测试集中取得了58.4的BLEU得分和0.732的chr-F分数,适用于各种翻译需求。
parakeet-tdt_ctc-1.1b - 高性能自动语音识别模型解决方案
词错误率自动语音识别数据集Github开源项目快速同构体NeMoHuggingface模型
parakeet-tdt_ctc-1.1b提供了一个功能强大的语音识别模型,支持将语音转录为包含标点和大写字母的文本。由NVIDIA NeMo和Suno.ai团队联合开发,拥有1.1B的参数规模,能够高效地处理大规模的音频数据。该模型利用局部注意力和全局令牌技术实现单次处理11小时音频。其在多个公开数据集上的出色表现,表明其在语音转录应用中有广泛的适用性和较低的词错误率(WER)。
llm-jp-3-13b-instruct - 提供多语言大规模模型,支持多编程环境
数据集Github模型transformers大型语言模型开源项目Huggingfacellm-jp-3-13b-instruct自然语言处理
项目由日本国立信息学研究所研发,部分支持来自GENIAC。模型包含13b版,基于Transformer架构,支持多种语言如Python、Java、Rust。预训练数据集丰富,适用于日语、英语等多语言环境。项目使用Huggingface的Transformers,评估覆盖多领域任务。模型处于早期阶段,尚未完全对输出的人类意图和安全性进行调校。
Qwen2.5-7B-Instruct-Uncensored-GGUF - 中英文无删减指令模型的最新静态量化版本,适合多语言支持
数据集Github量化模型Qwen2.5-7B-Instruct-Uncensored开源项目Hugging FaceHuggingface
该项目为Qwen2.5-7B-Instruct-Uncensored模型提供多种质量和大小的静态量化文件,支持中英文双语功能。用户可选择合适的量化类型,包括快速的Q4_K_S与Q4_K_M以及高质量的Q8_0和Q6_K。这些文件可提升模型性能,尤其在敏感内容处理及多语言支持方面。使用说明可参考TheBloke的文档。项目得益于nethype公司的资源支持。
opus-mt-de-it - 德语到意大利语的开源翻译模型
数据集开源项目翻译SentencePieceGithub模型HuggingfaceBLEUopus-mt-de-it
该开源项目使用transformer-align模型,提供德语到意大利语的高效翻译。通过Normalization和SentencePiece进行预处理,确保翻译的精准性和流畅性。用户可下载模型原始权重和测试集进行评估。模型在Tatoeba数据集上的评估显示,BLEU得分为45.3,chr-F得分为0.671,表现出良好的翻译性能。
mHuBERT-147 - 支持147种语言的紧凑型多语言HuBERT模型
数据集开源项目模型GithubHuggingface声学模型mHuBERT-147多语言训练数据
mHuBERT-147是一个支持147种语言的多语言HuBERT模型,使用95M参数的基础架构,并通过faiss IVF离散语音单元训练。该模型在多项测试中表现优异,特别是在语种识别任务中取得最新的领先成绩,具备良好的应用前景。
F5-TTS - 提高训练和推理速度的先进文本到语音转换系统
F5-TTSE2 TTS训练推理数据集Github开源项目
项目F5-TTS利用Diffusion Transformer和ConvNeXt V2技术,显著提升了训练和推理速度。支持生成最长30秒的音频,并通过Sway Sampling技术优化推理性能。用户可以自定义数据集,并使用多GPU和fp16配置加速训练。提供单次推理、语音编辑和批量推理功能,并支持通过Gradio App进行操作。多种测试数据集和评估工具确保模型表现稳定高效。
Fugaku-LLM-13B-instruct-gguf - Fugaku-LLM日本语言模型的高效转换和应用
数据集使用条款Github开源项目变换脚本Huggingface日本語大模型Fugaku-LLM-13B-instruct模型
Fugaku-LLM-13B-instruct项目通过转换为gguf格式,提升和优化了imatrix数据集在日本语言模型中的应用。用户可以通过指定的脚本和指令有效进行模型转换和使用,使用前确认遵循相关条款。
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B - 利用DPO优化方法提升语言模型的性能
偏好数据HuggingfaceDPO TrainerTomGrc/FusionNet_7Bx2_MoE_14BGithub开源项目模型数据集语言模型
使用DPO Trainer在TomGrc/FusionNet_7Bx2_MoE_13B上优化语言模型,通过TRL实现偏好数据训练,提升模型效果。了解Rafailov等人的直接偏好优化方法,以提升模型性能,提供更精准的结果。
Barcenas-14b-Phi-3-medium-ORPO - 模型通过ORPO方法提升对话能力
VAGOsolutions对话能力Barcenas-14b-Phi-3-medium-ORPO模型Github开源项目数据集ORPOHuggingface
该模型利用ORPO方法,基于VAGOsolutions/SauerkrautLM-Phi-3-medium,通过mlabonne/orpo-dpo-mix-40k数据集训练,旨在提高对话能力和语境理解。
orca_mini_v3_13b - 增强文本生成的Orca与Llama2结合模型
模型评估语言模型orca_mini_v3_13b模型Github开源项目数据集文本生成Huggingface
orca_mini_v3_13b项目利用Orca风格数据集和Llama2-13b模型的结合,实现高效文本生成。该模型在多项任务中表现卓越,如AI2推理挑战达到63.14%的准确率,HellaSwag则达到82.35%。此设计在多语言及复杂生成任务中具有显著优势。依照Llama-2的许可证规范使用,保证合规性。
opt-125m - 开放预训练变压器模型OPT的功能与限制
Huggingface模型大语言模型数据集Github预训练模型开源项目生成文本OPT
OPT是一种开放预训练的变压器语言模型,支持从125M到175B参数的不同模型,旨在推动可再现的研究。模型通过因果语言建模进行自监督预训练,适用于文本生成和下游任务评估。需注意,由于训练数据多样性不足,OPT在偏见和安全性上存在限制。用户可通过Hugging Face平台使用这些模型进行文本生成,以更深入了解大语言模型的表现。
gte-large - 大型语言模型在句子相似度和多任务评估中的应用
模型评估Sentence TransformersHuggingface模型数据集GithubMTEB开源项目sentence-similarity
gte-large是一个在MTEB多任务评估基准上表现优异的大型语言模型。该模型在句子相似度、文本分类、聚类和检索等多个自然语言处理任务中表现出色。在AmazonPolarityClassification等分类任务上,gte-large的准确率达到92.5%,展示了其在文本理解和分析方面的能力。这个模型适用于各种自然语言理解的应用场景。
CLIP-ViT-H-14-laion2B-s32B-b79K - 基于LAION-2B数据集的多功能视觉-语言模型
模型开源项目HuggingfaceCLIP机器学习图像分类数据集Githubzero-shot
CLIP-ViT-H-14-laion2B-s32B-b79K是基于LAION-2B数据集训练的视觉-语言模型。该模型在ImageNet-1k上达到78.0%的零样本Top-1准确率,适用于图像分类、图像文本检索等任务。此外,它还支持图像分类微调、线性探测和图像生成指导等下游应用。研究人员可借助该模型探索零样本图像分类技术,并评估其潜在影响。
DeBERTa-v3-base-mnli-fever-anli - 基于DeBERTa-v3的多数据集训练自然语言推理模型
模型多任务学习开源项目Huggingface自然语言推理数据集GithubDeBERTa模型评估
该模型采用DeBERTa-v3作为基础架构,通过在MNLI、FEVER和ANLI三个主要自然语言推理数据集上训练而成。在ANLI测试集R1上达到71.2%的准确率,MNLI验证集上达到90.3%的准确率,展现了优秀的推理能力。模型可应用于零样本文本分类等多种NLP任务,为研究人员和开发者提供了实用的工具。
LanguageBind_Image - 基于语言实现多模态预训练绑定
模型ICLRLanguageBindGithub开源项目Huggingface数据集多模态视频语言预训练
LanguageBind是一种创新的多模态预训练方法,通过语言将视频、音频、深度图像等不同模态绑定。该项目提出了包含1000万条多模态数据的VIDAL-10M数据集,并在多个模态任务上实现了领先性能。LanguageBind无需中间模态即可扩展到检测等任务,开源了全部模态预处理代码和API接口,为多模态AI研究提供了有力工具。
bge-large-en-v1.5 - 高性能英语嵌入模型助力文本相似度和信息检索
模型Github模型评估机器学习MTEB开源项目Huggingface数据集自然语言处理
bge-large-en-v1.5是一个英语嵌入模型,专注于文本相似度和信息检索任务。该模型在分类、聚类和检索等多个基准测试中表现优异,能有效捕捉文本语义并为NLP应用提供高质量特征表示。适用于需要处理英语文本数据的各类应用场景。
相关文章
Google Research: 探索科学与人工智能的前沿
2024年08月30日
Argilla: 打造高质量AI数据集的协作工具
2024年08月30日
Google Research:引领人工智能和计算机科学的前沿探索
2024年08月30日
Argilla: 人工智能工程师和领域专家的数据集协作工具
2024年08月30日
FiftyOne: 构建高质量数据集和计算机视觉模型的开源工具
2024年08月30日
SSD: PyTorch中的单发多框目标检测器实现
2024年08月30日
深度学习与计算机视觉的完整学习指南
2024年08月30日
深入探讨大语言模型的越狱攻击:挑战、影响与防御策略
2024年08月30日
Google Research: 探索科学与人工智能的前沿
2024年08月30日