hatespeechdata

多语言仇恨言论数据集汇总与研究资源

该项目汇集了涵盖多种语言的仇恨言论、在线辱骂和攻击性语言数据集。收录内容包括来自不同平台的文本、图像和音频数据。项目旨在为自然语言处理系统提供训练资源，以提升有害内容检测能力。此外，项目还提供关键词列表和贡献指南，为研究人员和开发者改进在线内容审核和仇恨言论检测技术提供支持。

访问官网

Github

文档

论文

介绍相关项目

voice-safety-classifier - 语音聊天毒性检测的高精度分类工具

GithubHuggingfacetoxicity detection多标签分类开源项目模型模型评估语音安全音频分类

该项目提供了一个新的语音聊天毒性检测基准模型，基于大规模数据集开发。模型使用WavLM base plus权重，经过2,374小时语音多标签微调，输出标签包括Profanity、DatingAndSexting、Racist、Bullying等。评估显示模型在二元分类任务中的精度达到94.48%。使用者可通过特定命令运行模型权重进行应用。

llm-datasets - LLM微调优质数据集与工具资源库

GithubLLM对话开源项目微调指令跟随数据集

LLM Datasets项目汇集了大语言模型微调所需的优质数据集、实用工具和核心概念。涵盖通用、数学逻辑、编程和对话等多个领域，项目详细阐述了高质量数据集的特征。为研究人员和开发者提供多样化的LLM微调数据资源，旨在促进模型性能提升。

Awesome-LLMs-Datasets - 完整收录大型语言模型数据集的多维度分类概览

GithubLLMs数据集大语言模型开源项目指令微调数据集评估数据集预训练语料库

这个项目全面收集和分类了大型语言模型(LLM)数据集，包括预训练语料库、指令微调数据集、偏好数据集、评估数据集和传统NLP数据集五大类别。新增的内容涵盖多模态大语言模型数据集和检索增强生成数据集。项目统计了444个数据集的详细信息，覆盖8种语言和32个领域，为LLM研究提供了全面参考资源。

data_management_LLM - 大型语言模型训练数据管理资源汇总

Github大语言模型开源项目数据质量监督微调训练数据管理预训练

该项目汇总了大型语言模型训练数据管理的相关资源。内容涵盖预训练和监督微调阶段，探讨领域组成、数据数量和质量等关键方面。项目还收录了数据去重、毒性过滤等技术，以及不同因素间的关系研究。这些资源为优化LLM训练数据管理提供了全面参考。

game-datasets - 全面收录游戏数据集与AI工具资源

APIGithub人工智能开源游戏开源项目数据挖掘游戏数据集

game-datasets项目汇集了大量游戏相关的数据集、API和AI工具资源。涵盖从经典游戏到现代电竞的多个领域,提供了丰富的数据挖掘和AI开发素材。项目持续更新,为游戏AI和数据科学研究提供全面参考。收录内容包括游戏API、AI竞赛平台、开源游戏引擎、相关书籍等,是游戏研究和开发的重要资源库。

NLP-Natural-Language-Processing - 全面的自然语言处理资源与工具库

GithubNatural Language Processing开源项目数据科学机器学习深度学习计算机视觉

提供全面的自然语言处理（NLP）资源，涵盖数据集、前沿技术、课程、书籍推荐、GitHub代码示例及流行工具。涉及数据分析、知识图谱、模型与算法、情感分析、主题建模等任务的详细资料与学习路径。了解最新NLP动态，探索自然语言处理的应用潜力。

ai-audio-datasets - 提供多语言、多情感的语音、音乐和音效数据支持AI模型训练

AI Audio DatasetsAI model trainingAIGCGenerative AIGithub开源项目音频应用

AI Audio Datasets (AI-ADS) 🎵 提供多样化的语音、音乐和音效数据集，适用于生成式AI、AIGC、AI模型训练、智能音频工具开发及音频应用。该项目包含多种数据集，如AISHELL、阿拉伯语语音语料库、AudioMNIST等，覆盖多种语言和情感，适合多种语音识别和合成研究。用于训练多语种语音识别、语音转文字及语音情感转换等AI系统，提升AI音频技术的应用和开发水平。

speech-dataset-generator - 多语言语音数据集生成与处理工具

GithubSpeech Dataset Generator多语言支持开源项目数据集生成语音识别音频处理

speech-dataset-generator是一款开源的多语言语音数据集处理工具。它支持从多种来源获取音频，包括YouTube、LibriVox和TED Talks等。该工具提供音频转录、质量增强、静音移除、性别识别、多说话者检测等功能，还能计算语速指标。通过集成多种音频增强器，speech-dataset-generator为文本转语音和语音转文本模型的训练提供了全面的数据准备解决方案。

awesome-chatgpt-dataset - 综合性AI对话数据集资源助力自定义语言模型训练

ChatGPTGithub开源项目指令调优数据集训练语言模型

awesome-chatgpt-dataset项目汇集了多样化的人工智能对话数据集资源。该项目囊括了不同规模、语言和领域的高质量指令数据，范围从数千到数百万条不等，涵盖多语言、代码生成、视觉对话等多个方面。这些数据集为研究人员和开发者提供了训练和优化大型语言模型的重要素材，有助于推动更智能、更多元化的AI对话系统的发展。

awesome-russian-speech - 全面汇总俄语语音技术资源与开发工具

Github俄语开源项目语音合成语音技术语音模型语音识别

项目整理了俄语语音技术的全面资源，包括识别、合成和转换等领域的数据集、模型和开发工具。内容覆盖从预处理到后处理的各个环节，如重音标注和标点恢复。此外还收录了相关词典、语言学资源和行业历史，为俄语语音技术的研究与开发提供了宝贵参考。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com