Project Icon

TUMCC

中文暗语识别语料库推动地下市场研究

TUMCC是首个专门用于中文暗语识别的语料库,收集自12个Telegram群组,包含28,749条句子和804,971个字符。经过数据清理后,保留3,863条句子(约10万字符)。该语料库提供cleaned和raw两种格式数据,便于研究人员分析地下市场语言特征和网络犯罪行为。项目附有详细使用说明和引用指南,为相关学术研究提供支持。

chat-miner - 多平台聊天记录解析与可视化工具
Githubchat-miner开源项目数据可视化聊天数据分析自然语言处理
chat-miner是一款开源的聊天记录解析和可视化工具。该工具支持WhatsApp、Signal、Telegram等主流平台的聊天记录解析,能够将聊天内容转换为结构化数据。chat-miner提供多种可视化功能,包括日历热图、旭日图和词云等,方便用户探索聊天数据并创建可视化作品。此外,该工具还集成了情感分析等自然语言处理功能,有助于深入分析聊天内容。chat-miner安装简便,支持命令行操作,适用于聊天数据分析和创意可视化领域。
xtts2-ui - 多语言支持的文字转语音克隆工具
GithubXTTS-2-UI声音样本多语言支持开源项目文本语音克隆语音合成
XTTS-2-UI是一个支撑16种语言的文本至语音克隆工具,仅需10秒的音频样本即可复制声音。项目易于安装与操作,适合个人和科研用途。详细安装和使用方法请参见GitHub页面。
gpt2-chinese-cluecorpussmall - 中文GPT2预训练模型与多模态扩展简介
GPT2GithubHuggingfaceTencentPretrainUER-py开源项目文本生成模型预训练
项目涵盖了使用UER-py和TencentPretrain的中文GPT2模型的预训练过程,从GPT2-distil到GPT2-xlarge的多个版本。借助CLUECorpusSmall数据集,这些模型有效支持中文文本生成,并扩展至多模态预训练。模型可通过UER-py Modelzoo或HuggingFace下载,用于实际文本生成应用。
WanJuan1.0 - 开源多模态语料库推动AI模型性能提升
GithubWanJuan上海人工智能实验室图文数据集多模态语料库开源项目文本数据集
WanJuan1.0是一个开源多模态语料库,包含超过5亿文档、22万图文对的文本、图像和视频数据,总量超2TB。涵盖科技、文学等多领域,经过精细处理和价值观对齐。该语料库已应用于Intern系列大模型训练,显著提升了模型在语义理解、知识问答等任务的表现,可有效增强AI模型的知识内容、逻辑推理和泛化能力。
GPT-Telegramus - 免费Telegram聊天机器人,支持多语言和数据记录
ChatGPTGPT-TelegramusGeminiGithubMicrosoft CopilotTelegram bot开源项目
GPT-Telegramus是一个免费的Telegram机器人,集成了ChatGPT、Microsoft Copilot和Gemini等功能,支持流写作、图像请求、管理员控制和数据记录,并提供多语言支持和社区协作。
T5_MiddleSentences - 利用远程键盘记录技术解密AI助手响应中的隐藏信息
AI助手GPT_Keylogger_DatasetGithubHuggingfaceT5-LargeUSENIX Security开源项目模型远程键盘记录攻击
该模型来自USENIX Security 2024的研究,能够通过分析ChatGPT回答的令牌长度进行解密。它是一种经过微调的T5-Large模型,能够预测非首句的内容,利用前句作为上下文进行解码,训练数据来自关于全球问题的UltraChat数据集的首个答案。
open-tts-tracker - 全面追踪开放源代码语音合成模型的信息平台
AI语音GithubTTS模型多语言开源开源项目语音合成
Open TTS Tracker 是一个综合性的开源语音合成模型跟踪平台。该项目汇集了最新TTS模型的详细信息,包括名称、代码库、权重、许可证、微调能力、支持语言等多个方面。通过提供这些资源,Open TTS Tracker 旨在提升开源TTS模型的可见度,推动语音合成技术的进步。研究人员、开发者和爱好者可以在此找到丰富的模型信息和相关资源。
InsTag - LLM监督微调数据分析与优化工具
GithubInsTagLLM开源项目数据分析标签系统监督微调
InsTag是大型语言模型监督微调数据分析工具,通过标记和分类用户查询,量化评估数据多样性与复杂性。该工具为研究人员提供模型训练优化依据,基于InsTag分析结果,仅需6K样本即可训练出TagLM模型。在MT-Bench评测中,TagLM表现优于多个开源LLM,凸显了InsTag在提升LLM训练效率方面的价值。
MSMC-TTS - 多阶段多码本神经网络文本转语音系统
GithubMSMC-TTSVQ-VAE多阶段多码本开源项目神经网络TTS语音合成
MSMC-TTS是一个高性能神经网络文本转语音系统,基于多阶段多码本VQ-VAE技术。该系统集成了MSMC-VQ-VAE和HifiGAN,通过MSMC-VQ-GAN自编码器优化,并采用多阶段预测器作为声学模型。MSMC-TTS在标准和低资源语言的语音合成中表现优异,能够生成紧凑的语音表示和高质量的语音输出。项目提供了详细的训练、测试和推理指南,并包含针对MSMC-VQ-GAN和多阶段预测器的优化建议。
Ransomchats - 开源项目公开勒索软件谈判记录增进安全理解
GithubJSON数据ransomware开源项目数据匿名化网络安全网络谈判
Ransomchats是一个开源项目,通过JSON格式公开勒索软件谈判记录,旨在增进对此过程的理解。项目匿名化未公开的受害者信息,保护隐私。它提供解析工具,鼓励贡献更多谈判记录。项目包含在线阅读应用,被多个安全研究引用,并衍生出基于数据集的勒索软件谈判模拟器。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号