#数据集
first-order-model - First Order Motion Model:图像动画的高效解决方案
First Order Motion Model图像动画数据集PythonDockerGithub开源项目
First Order Motion Model项目提供了一种先进的图像动画运动模型,通过驾驶视频和源图像生成逼真的动画序列。支持包括VoxCeleb、Fashion和MGIF在内的多种数据集,提供详细的安装和使用指南。项目支持Python和Docker,确保了环境兼容性,还提供Colab和Kaggle的在线演示。此外,该项目还具备面部交换功能,适用于监督和非监督的视频编辑任务。
fiftyone - 高效的数据集构建与计算机视觉模型工具
FiftyOne数据集计算机视觉模型评估机器学习Github开源项目
FiftyOne 是一款提升机器学习工作流的开源工具,通过可视化数据集和解读模型结果来提高效率。用户可用它处理复杂标签、评估模型、探索场景、识别错误模式和注释错误等。安装简便,可通过 pip 安装并运行示例代码快速上手。
ssd.pytorch - PyTorch实现的高效SSD目标检测器,兼容多数据集与实时可视化
SSDPyTorch训练数据集评估Github开源项目
该项目实现了基于PyTorch的SSD目标检测器,支持VOC和COCO数据集,并可使用Visdom进行训练过程中的实时损失可视化。页面包含详细的安装、训练和评估指南,并提供预训练模型的使用说明。项目展示了高效性能,并包含未来功能更新计划,帮助开发者快速上手并扩展应用。
CV - 深度学习视频教程及笔记资源
Pytorch深度学习视频讲解Jupyter Notebook数据集Github开源项目
本项目提供深度学习视频讲解及笔记资源,涵盖Pytorch、李沐、吴恩达等名师课程,并附有详细的数据集和实用工具。适合从事AI算法开发、图像处理及语音识别方向的求职者,并提供多家知名企业的内推机会,帮助自学者搭建交流平台,实现技术突破和职业发展。
argilla - AI数据集管理与优化工具
Argilla数据质量模型优化AI工程师数据集Github开源项目
Argilla是一款为AI工程师和领域专家设计的数据集管理工具,旨在通过高效的数据管理和标注流程提升AI项目的数据质量和模型效果。Argilla支持文本分类、命名实体识别和多模态模型等多种AI项目的数据收集和反馈,帮助用户快速迭代和优化数据与模型。该工具提供开源社区支持,用户可以参与并共享开源数据集和模型。通过与Hugging Face Spaces的集成,用户可以轻松部署和使用Argilla,提高AI项目的整体效率和质量。
魔搭社区 - 机器学习模型探索与实践平台
热门AI助手AI对话AI工具ModelScope模型数据集文档AI平台
魔搭社区是一个专业平台,旨在汇聚各领域机器学习模型,提供模型探索、推理、训练、部署和应用等一站式服务。设计简约,操作便捷,确保用户可以快速找到所需功能。直观的导航和详尽的文档支持帮助用户快速上手,推动机器学习技术的广泛应用。
jailbreak_llms - 大规模语言模型野生越狱提示的特征与评估研究
JailbreakHubACM CCS 2024大语言模型数据集伦理Github开源项目
本项目利用JailbreakHub框架,首次测量和研究野生越狱提示,收集了2022年12月至2023年12月的15,140个提示,其中包括1,405个越狱提示。通过分析Reddit和Discord等平台的数据,本研究旨在提高LLM供应商和研究社区对模型潜在风险的认识,并推动更强大的安全措施。
lunary - 开源LLM应用的可观测性、提示管理和评估工具
lunaryLLM观察性提示管理数据集Github开源项目
Lunary 提供开源的可观测性、提示管理和评估功能,帮助LLM开发者优化应用性能。它支持成本分析、日志监控、提示模板创建和微调数据集,方便快速集成和自托管。兼容JavaScript和Python模块,适用于多种模型,并提供托管版本和本地部署指南,确保数据安全和优质支持。
datasets - 最大的 ML 模型即用型数据集中心,具有快速、易用且高效的数据操作工具
Hugging Face数据集机器学习APIApache ArrowGithub开源项目
🤗 Datasets是一个高效的轻量级数据处理库,支持一行代码完成数据集的下载和预处理。库支持Numpy、Pandas、PyTorch、TensorFlow和JAX等框架,并提供智能缓存及大规模数据集的流式处理,有效减轻内存限制的压力,简化机器学习和数据分析的前置工作。
tensor2tensor - 一个旨在使深度学习更加深入的深度学习模型和数据集的库
Tensor2Tensor深度学习模型训练翻译任务数据集Github开源项目
Google Brain团队和社区合作开发的tensor2tensor库,通过提供多模态的深度学习模型和数据集,简化了机器学习的应用,尤其在文本、图像与语音处理上表现出色。项目不再开发新功能,但持续维护并推荐用户迁移到其后继库Trax,以获得更好的支持和更新。
alpaca-chinese-dataset - 中文指令微调数据集生成与清洗方法
alpaca中文指令数据集机器翻译self-instructGithub开源项目
此数据集通过机器翻译与self-instruct方法生成,并进行关键词清洗,提供高质量的中文指令微调数据。用户可以详细了解数据生成和清洗方法,并查看多个实际示例,以提升模型性能。
fashion-mnist - 是 Zalando 文章图像的数据集,由 60,000 个样本的训练集和 10,000 个样本的测试集组成
Fashion-MNIST机器学习数据集Zalando神经网络Github开源项目
Fashion-MNIST数据集,由Zalando的服装图片构成,包含60,000个训练样本与10,000个测试样本。此数据集设计为替代传统的MNIST,提供与10类标签关联的28x28灰度图像,为全球AI及数据科学领域的研究者带来全新挑战,促进技术的发展。
trainable-agents - 可训练的角色扮演AI,实现动态个性化互动
Character-LLM角色扮演数据集训练LLMGithub开源项目
Character-LLMs是一款专为角色扮演设计的可训练智能体,利用经验重建技术生成丰富的角色体验数据,无需额外提示即可模拟特定角色,如贝多芬或埃及艳后。项目提供九个角色的模型和数据集,支持角色个性化构建与互动。详情请见论文和代码仓库。
Voice-Cloning-App - 声音克隆技术应用:从自动合成到多语言支持
Voice Cloning App语音克隆Pytorch人工智能数据集Github开源项目
Voice-Cloning-App,一个基于Python/Pytorch的高效工具,使用户能在多个平台上进行人声合成和训练。特点包括支持多GPU使用、自动化数据集创建、多语言支持及系统的远程训练功能。即将支持更多语音合成技术和GPU型号,优化数据处理效率。
deep-text-recognition-benchmark - 基于深度学习方法的文本识别
场景文本识别深度学习PyTorch数据集模型分析Github开源项目
该项目是一个开源的场景文本识别框架,通过四阶段的官方PyTorch实现,支持现有大多数STR模型。它允许在统一的数据集上,评估各个模块的性能表现,包括准确性、速度和内存需求,并已被多个国际竞赛验证。用户可使用预训练模型进行测试,或进行更深入研究。
ScreenAgent - 由视觉语言大模型驱动的电脑控制工具
ScreenAgentVLM AgentIJCAI 2024自动控制数据集Github开源项目
ScreenAgent项目创建了一个由视觉语言模型驱动的电脑控制环境,允许代理通过截图与真实屏幕互动并操作GUI。自动控制流程分为规划、执行和反思三个阶段,使代理能够完成多步骤任务。项目包含丰富的截图和操作序列数据集,支持包括GPT-4V、LLaVA-1.5、CogAgent和ScreenAgent在内的多种模型,并提供简化体验的网页版客户端。
DB-GPT-Hub - 通过大型语言模型(LLMs)实现复杂的Text-to-SQL解析
DB-GPT-HubText-to-SQLLLMs性能调优数据集Github开源项目
DB-GPT-Hub是一个开源实验项目,通过大型语言模型(LLMs)实现复杂的Text-to-SQL解析。该项目包括全流程处理从数据集成到模型优化,截至2023年10月,已对大型开源模型进行优化,显著提升SQL查询的执行准确率。
safe-rlhf - 北京大学开发的AI安全增强框架
Beaver安全RLHF人工智能数据集模型训练Github开源项目
Safe RLHF是一个由北京大学PKU-Alignment团队开发的开源框架,整合了SFT、RLHF及Safe RLHF训练方法。它支持多种预训练模型,提供大量人工标注数据,能够训练奖励与成本模型,并采用多层次的安全性校验指标。最新发布的版本提供详尽的复现代码和数据集,旨在增强AI模型的安全性和实用性。
LLMDataHub - 大语言模型训练数据集合
LLMDataHub数据集大语言模型开源社区聊天机器人Github开源项目
LLMDataHub汇聚高品质大语言模型训练数据,为研究人员和从业者提供丰富的数据资源。该平台涵盖多种数据集,适合提升聊天机器人对话质量、应答生成及语言理解。同时,平台更新最新数据集,助您获取行业前沿资源。
CareGPT - 医疗人工智能开源模型
CareGPT医疗LLM开源模型数据集部署Github开源项目
CareGPT是为医疗行业设计的开源大型语言模型,提供全面的医学数据整合、高效的模型部署和资源持续更新。此项目优化了模型与知识库的结合,全面支持LLaMA系列模型的训练,并构建了高效的问答系统,从而在医疗人工智能领域中取得显著成效。深入了解CareGPT,发掘更多医疗应用案例,并推进科技与医疗的深度结合。
awesome-recommend-system-pretraining-papers - 推荐系统预训练及大型语言模型论文资源
Recommend System预训练模型大语言模型数据集用户表示预训练Github开源项目
此资源汇总了预训练推荐系统和大型语言模型相关的论文,涵盖用户表示预训练、序列推荐、图预训练等子领域,并提供丰富的数据集和代码链接。研究人员可以通过该列表了解如何利用预训练和大型语言模型提升推荐系统性能,获得最新研究成果和实用工具。
LawBench - 通过司法认知多维度评估大模型法律能力
LawBench大语言模型法律知识评估认知水平数据集Github开源项目
LawBench通过模拟司法认知的三个维度,设计了20个任务,全面评估大语言模型的法律能力。这些任务包括法律知识记忆、理解和应用,涵盖了法律实体识别、阅读理解、犯罪金额计算和咨询等实际应用场景。LawBench还设立了“弃权率”作为独立评估指标,以衡量模型在法律问询下的回应情况。通过注重实际应用,LawBench为用户提供了可靠的大语言模型法律能力评估工具。
bocoel - 贝叶斯优化用于评估大型语言模型的开源工具
BoCoEL贝叶斯优化大语言模型评估数据集Github开源项目
BoCoEL通过贝叶斯优化来选择高效小样本子集,从而减少评估大型语言模型所需的时间和资源。它支持GPT2、Pythia、LLAMA等模型,兼容huggingface的transformers和datasets,并采用模块化设计和高效数据表示方式。适合需要在预算限制下进行高效语言模型评估的用户。
text - TorchText自然语言处理工具包即将终止开发并发布最终版本
torchtextPyTorchNLP数据集模型Github开源项目
TorchText将于2024年4月发布其最终稳定版0.18。这一NLP工具包包括原始文本迭代器、基本NLP构建模块、文本处理转换、预训练模型和词汇类等功能。推荐使用Anaconda安装,支持多种Python版本。指南和文档包括SpaCy、Moses等可选依赖项。提供详细教程和示例帮助用户入门。
FinGPT - 开源金融大模型FinGPT,快速适应市场变化
FinGPT金融大语言模型情感分析数据集指令调优Github开源项目
FinGPT项目提供开源金融大语言模型,重点解决金融行业的高训练成本和频繁更新需求。利用RLHF技术,实现了金融数据的快速更新和轻量级适配,并降低微调费用。FinGPT-Forecaster和多任务情感分析模型的性能超过GPT-4,展现出在金融预测和情感分析方面的强大能力。开源平台和丰富的数据集使开发者能够轻松再现和应用这些先进模型。
Medical_NLP - 医疗行业自然语言处理资源汇总,包括评测、数据集和预训练模型
Medical_NLP中文医疗基准测评数据集开源预训练模型评测Github开源项目
本页面汇总了最新的医疗自然语言处理资源,涵盖基准评测、比赛信息、多语言数据集、开源预训练模型、学术论文和工具包等内容。为研究人员和开发者提供一站式资源支持,以提升医疗NLP领域的研究深度和应用效果。
wit - 全球最大多语言多模态数据集,助力机器学习模型优化
WIT数据集多模态机器学习WikipediaGithub开源项目
Wikipedia-based Image Text (WIT) 数据集包括3760万张图片与文本对,涵盖108种语言和1150万独特图片。该数据集旨在支持多模态机器学习模型的训练,特别是在多语言环境下的有效性已得到广泛验证。WIT数据集获得了WikiMedia基金会的年度研究奖,并且现已开放下载,为研究人员和开发者提供了宝贵的资源和支持。
ConvoKit - 对话特征提取及社会现象分析的全面工具包
ConvoKit对话特征提取社会现象分析数据集工具包Github开源项目
此工具包通过统一接口提取对话特征并分析社会现象,兼容scikit-learn,内含多种大型对话数据集和示例脚本。支持语言协调、礼貌策略、对话上下文框架及超图表示等功能,适用于对话结构研究及结果预测。
ChatGPT-RetrievalQA - 使用ChatGPT和人类响应数据训练和评估问答检索模型
ChatGPT信息检索训练数据数据集答案排序Github开源项目
提供ChatGPT与人类响应的数据集,以训练和评估问答检索模型。数据集基于HC3公开数据,分析ChatGPT和传统检索模型在回答真实性和可靠性上的差异。项目由阿姆斯特丹大学支持,数据格式兼容MSMarco,便于研究人员使用现有脚本。
nlp_chinese_corpus - 中文自然语言处理高质量多任务语料库
中文自然语言处理语料预训练数据集词向量Github开源项目
该中文自然语言处理项目提供丰富的高质量语料,包括维基百科条目、新闻、百科问答等,目标是解决中文大规模语料匮乏的问题。项目支持10大任务和9个模型的基准测试,并提供一键运行和详细性能比较,旨在提升中文NLP标准。适用于多种实际应用场景,如词向量训练、关键词生成和标题生成,方便研究人员和从业者获取和利用中文语料。
text2sql-data - 自然语言转SQL转换系统的数据和代码
text2sql-dataSQL查询数据库模式数据集ACL 2018Github开源项目
此项目提供自然语言到SQL转换系统的数据和代码,包括注释变量的句子、SQL查询、数据库架构和数据库。涵盖多个领域,改进了现有数据集并开发了新数据集。项目强调数据质量并提供详细的数据集、系统和工具信息。使用数据时请引用相关ACL论文和原始来源,透明记录数据版本。
myvision - 免费在线图像标注工具
MyVision图像注释工具机器学习数据集COCO-SSDGithub开源项目
MyVision是一款免费在线图像标注工具,旨在生成计算机视觉机器学习训练数据。它具有快速标注、多种数据集格式支持和现有项目导入功能。还利用COCO-SSD预训练模型自动标注对象,保障数据隐私。无需任何设置,只需打开index.html文件即可使用。适用于大数据集的高效工作流程,并支持英文和中文。
FedScale - 可扩展的开源联邦学习(FL)引擎和基准测试平台
FedScale联邦学习数据集部署模型评估Github开源项目
FedScale是一个可扩展的开源联邦学习(FL)引擎和基准测试平台,提供高级API用于实现FL算法,并在多种硬件和软件环境中进行大规模部署和评估。FedScale包括大规模的FL基准测试,涵盖图像分类、对象检测、语言建模和语音识别等任务,同时提供数据集真实模拟FL训练环境。用户可以通过简单的安装流程在Linux和MacOS上快速部署,并利用丰富的教程和数据集开展实验。
rebel - 关系抽取的高效端到端语言生成新方法
REBEL关系抽取seq2seq模型数据集信息抽取Github开源项目
此项目引入了一种新型线性化方法,将关系抽取重新定义为序列到序列任务。通过BART模型,实现了超200种关系类型的端到端抽取,简化传统多步骤流程并减少错误传播。该模型在多个关系抽取和分类基准上表现出色,并提供多语言版本mREBEL和数据集支持,适用于各种信息抽取应用。
semantic-segmentation - 提供丰富数据集和易于定制的语义分割模型
Semantic SegmentationPyTorchSOTA模型库数据集Github开源项目
该项目提供易于使用和定制的SOTA语义分割模型,支持多种任务和数据集。适合高精度和定制应用场景,涵盖场景解析、人类解析、人脸解析等任务。特点包括多种主干网络和分割模型,支持PyTorch、ONNX、TFLite等框架的推理和导出。即将迎来重大更新,包括新的训练流程、预训练模型、教程和分布式训练支持。用户可通过详细文档和示例轻松使用并配置定制数据集,实现高效的语义分割。
google-research - 多项目代码和数据集共享平台
Google Research代码库数据集许可证GitHubGithub开源项目
Google Research提供多种项目的代码和数据集,数据集在CC BY 4.0国际许可下发布,源码文件在Apache 2.0许可下发布。用户可通过GitHub编辑器下载所需子目录,并进行浅克隆以提交拉取请求。库内容持续更新,最新更新时间为2023年。
相关文章