hatespeechdata

多语言仇恨言论数据集汇总与研究资源

该项目汇集了涵盖多种语言的仇恨言论、在线辱骂和攻击性语言数据集。收录内容包括来自不同平台的文本、图像和音频数据。项目旨在为自然语言处理系统提供训练资源，以提升有害内容检测能力。此外，项目还提供关键词列表和贡献指南，为研究人员和开发者改进在线内容审核和仇恨言论检测技术提供支持。

访问官网

Github

文档

论文

介绍相关项目

speech-emotion-recognition - 开源多模型语音情感识别系统

Emo-db数据集Github开源项目机器学习模型深度学习模型特征提取语音情感识别

speech-emotion-recognition是一个开源的语音情感识别系统，基于Emo-db数据集开发。该项目支持SVM、随机森林、神经网络、CNN和LSTM等多种机器学习和深度学习模型。系统使用Python实现，提供完整的数据预处理、特征提取和模型训练工作流程。项目设计简单易用，适合研究人员和开发者进行语音情感分析的研究和应用开发。该系统可应用于客户服务、情感计算、人机交互等领域，具有模型多样化、使用灵活、易于扩展等优点。

hh-rlhf - AI助手有用性和安全性的人类偏好数据以及人工生成的红队测试数据

AI助手Github人工智能人类反馈开源项目数据集红队测试

hh-rlhf项目开源两类数据集:AI助手有用性和安全性的人类偏好数据,以及人工生成的红队测试数据。这些数据集旨在改进AI助手的性能和安全性。数据包含敏感话题,仅供研究使用。项目提供数据格式说明和使用指南,支持AI安全研究。

Awesome-Deepfakes-Detection - 全面深度伪造检测资源库数据集工具及最新研究

Deepfake检测Github工具开源项目数据集竞赛论文

该项目汇集了深度伪造检测领域的综合资源,包括视频和图像数据集、开源检测工具、竞赛信息以及顶级会议论文。内容涵盖最新数据集、实用工具和前沿研究成果,为研究人员提供了深度伪造检测领域的全面参考资料,有助于快速掌握该领域的最新进展。

language - 谷歌语言研究团队开源项目汇集平台

GithubGoogle Research开源项目研究团队自然语言处理语言研究

Google Research Language团队的开源项目共享平台汇集了谷歌语言研究领域的最新成果。该平台为研究者和开发者提供自然语言处理、机器翻译等前沿语言技术资源。项目采用开源模式，促进了语言技术领域的协作与创新。作为非官方谷歌产品，这一平台为语言技术爱好者提供了宝贵的学习和实践机会。

instruction-datasets - 大语言模型指令微调数据集汇总

GithubInstruction TuningNLP多语言大语言模型开源项目数据集

该项目整理了大语言模型指令微调所需的多种数据集，包括金标准、银标准/LM生成和偏好数据集。内容涵盖多语言和多模态任务，提供指令-响应对和人类偏好评分等资源。这些数据集有助于提升模型的指令跟随、对话和任务执行能力，为NLP研究和开发提供重要参考。

awesome-synthetic-datasets - 大语言模型合成数据集资源汇总

CosmopediaGithubSelf-InstructTinyStories合成数据集大语言模型开源项目

该项目整理了大语言模型生成合成数据集的相关资源，包括教程、技术、数据集、工具和论文。涵盖TinyStories、Cosmopedia等数据集，以及Self-Instruct、AutoPrompt等技术，为AI研究和开发提供参考。

unbiased-toxic-roberta - RoBERTa模型识别多语言有毒评论并减少偏见

DetoxifyGithubHuggingface开源项目有毒评论分类机器学习模型模型评估自然语言处理

该项目开发了基于RoBERTa的多语言模型,用于检测互联网上的有毒评论。模型在Jigsaw三个挑战数据集上训练,可识别威胁、侮辱和仇恨言论等多种有毒内容。它支持多种语言,易于使用,适用于研究和内容审核。项目还探讨了模型的局限性和伦理问题,努力减少对特定群体的意外偏见。

awesome-public-datasets - 多领域高质量公共数据集资源汇总

Github基因组学开源数据集开源项目微阵列数据生物学蛋白质数据库

Awesome Public Datasets汇集了农业、生物学、计算机科学等多个领域的高质量公共数据集。该项目源于上海交通大学OMNILab,现隶属于BaiYuLan开放AI社区。它为研究人员和数据科学家提供了便捷获取开放数据资源的途径,支持各类分析和研究工作。资源列表涵盖广泛,质量可靠,是数据科学工作的重要参考。

Automated-Fact-Checking-Resources - 自动事实核查资源库数据集、模型与研究进展

Github多模态开源项目数据集社交媒体自动事实核查虚假信息检测

该项目整理了自动事实核查领域的全面资源,包括最新数据集、模型和研究进展。涵盖从声明检测到结果预测的完整流程,并包含多模态事实核查内容。项目持续更新,为研究人员提供便捷的参考资料库。

GigaSpeech - 多领域英语语音识别数据集提供10,000小时转录音频

GigaSpeechGithub开源项目数据集深度学习语音识别音频处理

GigaSpeech是一个开源的多领域英语语音识别数据集，包含33,000多小时音频数据，其中10,000小时有高质量人工转录。数据来源包括有声书、播客和YouTube等，并提供多个规模的训练和评估子集。项目提供多种语音识别工具包的数据准备脚本，由志愿者维护并欢迎社区贡献，旨在促进语音技术的研究和应用。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com