#开源社区

LLMDataHub入门指南 - 大型语言模型训练数据集汇总

2 个月前

LLMDataHub 数据集大语言模型开源社区聊天机器人 Github 开源项目

2 个月前

distilabel学习资料汇总 - 用于合成数据和AI反馈的框架

2 个月前

Distilabel AI反馈数据合成高质量数据开源社区 Github 开源项目

2 个月前

AgentVerse入门学习资料 - 多LLM智能体协作框架

2 个月前

AgentVerse 多智能体环境模拟框架任务解决开源社区 Github 开源项目热门

2 个月前

Kubeflow社区：打造开源机器学习平台的协作生态系统

3 个月前

Kubeflow 开源社区机器学习平台贡献指南行为准则 Github 开源项目

3 个月前

MiniSora：探索Sora实现路径的开源社区

3 个月前

MiniSora 开源社区视频生成 Sora DiT Github 开源项目

3 个月前

春雨与莎士比亚的邂逅：一场跨越时空的诗意交流

3 个月前

BELLE 大语言模型开源社区中文优化指令微调 Github 开源项目

3 个月前

AIGoodGames: 探索AI驱动的游戏新世界

3 个月前

AI游戏 GPT 开源社区人生模拟世界模拟 Github 开源项目

3 个月前

LLMDataHub: 大型语言模型训练数据集的综合指南

3 个月前

LLMDataHub 数据集大语言模型开源社区聊天机器人 Github 开源项目

3 个月前

Distilabel: 一个强大的AI合成数据和反馈框架

3 个月前

Distilabel AI反馈数据合成高质量数据开源社区 Github 开源项目

3 个月前

AgentVerse: 革新多智能体协作的开源框架

3 个月前

AgentVerse 多智能体环境模拟框架任务解决开源社区 Github 开源项目热门

3 个月前

相关项目

AgentVerse

AgentVerse 是专为多语言模型(LM)部署与应用而设计的框架，提供任务解决和模拟两大核心功能。任务解决框架能集成多个代理，协同完成特定任务，如软件开发和咨询系统等；而模拟框架则允许用户自定义环境，从而观察和交互多个代理间的行为。此外，该项目也在 NVIDIA 博客和 ICLR 2024 上有所介绍，并提供了与诸多应用相结合的开源社区支持。

LLMDataHub

LLMDataHub汇聚高品质大语言模型训练数据，为研究人员和从业者提供丰富的数据资源。该平台涵盖多种数据集，适合提升聊天机器人对话质量、应答生成及语言理解。同时，平台更新最新数据集，助您获取行业前沿资源。

MNBVC

MNBVC中文语料集由MOP里屋社区发起，目标是创建最大的中文互联网语料集，涵盖新闻、小说、论文等多种类型数据。当前数据量为34582GB，最终目标为40TB。MNBVC提供多种文件格式的数据，包括txt、json、jsonl和parquet，并配备一系列优化工具及爬虫代码协助数据处理。项目欢迎有技术背景的志愿者参与，提升数据清洗效率。访问Wiki了解更多信息。

doocs.github.io

Doocs是一个致力于分享开发知识的开源社区平台。该平台提供Java进阶面试题、LeetCode题解、源码分析等多个热门项目，旨在帮助开发者提升技能。社区鼓励成员参与项目维护，促进共同成长。平台欢迎对开源感兴趣的程序员参与贡献。

dotnet-content-creators

该项目收录了全球范围内活跃的.NET内容创作者，涵盖博客、YouTube、Twitch等多个平台。按国家分类列出的创作者名录展现了.NET社区的多样性，为开发者提供了丰富的学习资源。无论是寻找技术教程还是行业洞察，这里都能找到优质的.NET相关内容。

django

Django是一个高级Python Web框架，专注于快速开发和简洁设计。框架提供详细文档，包含安装指南、教程和部署说明。Django拥有活跃的社区，通过IRC、邮件列表、Discord等多种渠道提供支持。项目重视文档维护和社区贡献，鼓励开发者参与。Django的持续发展得益于用户支持，可通过Django软件基金会进行赞助。

AIGoodGames

AIGoodGames是EmbraceAGI开源社区支持的AI游戏集合，包含人生重来模拟器、世界终局模拟等多款创新游戏。项目利用先进AI技术打造沉浸式体验，鼓励开发者合作创新，推动AI游戏领域发展。

BELLE

BELLE项目致力于推动中文对话大模型的开源发展，重点关注如何利用开源预训练大语言模型构建具有指令理解能力的个性化语言模型。该项目持续公开指令训练数据、模型、训练代码和应用场景，同时评估不同训练数据和算法对模型性能的影响。BELLE专门针对中文进行优化，仅采用ChatGPT生成的数据进行模型调优，不包含其他来源的数据。

distilabel

Distilabel是专为AI工程师设计的开源框架，用于数据合成和反馈。该框架提供高质量输出、数据所有权和高效性，适用于预测和生成模型。通过提升数据质量和整合多种LLM反馈，Distilabel提高AI输出质量。支持与最新研究的整合，确保灵活性、可扩展性和容错能力。欢迎加入开源社区，参与数据集和模型的构建，享受社区资源和支持。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com