#开源数据集

YuzuMarker.FontDetection - 中日韩字体识别模型和场景文本图像数据集生成

YuzuMarker.FontDetectionCJK字体识别开源数据集模型训练数据生成Github开源项目

YuzuMarker.FontDetection 项目提供了一个专门针对中日韩字体识别的模型，并详尽介绍了生成场景文本图像数据集的方法。用户可以利用CJK字体包和背景图片自动生成所需的数据集，项目现已开源数据集供下载，支持多种字体渲染技术和模型训练选项，有助于提升字体识别的准确性。更多信息请访问项目官网和文档。

awesome-public-datasets - 多领域高质量公共数据集资源汇总

开源数据集生物学基因组学蛋白质数据库微阵列数据Github开源项目

Awesome Public Datasets汇集了农业、生物学、计算机科学等多个领域的高质量公共数据集。该项目源于上海交通大学OMNILab,现隶属于BaiYuLan开放AI社区。它为研究人员和数据科学家提供了便捷获取开放数据资源的途径,支持各类分析和研究工作。资源列表涵盖广泛,质量可靠,是数据科学工作的重要参考。

wetts - 端到端文本转语音开源工具包

WeTTS语音合成端到端模型开源数据集多平台支持Github开源项目

WeTTS是一个开源的端到端文本转语音(TTS)工具包，专注于生产级和设备端应用。它支持多语言处理，提供预训练模型，并可在x86、Android和树莓派等多种平台上运行。WeTTS采用VITS等先进的端到端模型，结合WeTextProcessing进行文本规范化，并使用基于BERT的统一前端处理中文语音合成。该工具包支持多个开源数据集，为研究者和开发者提供高质量、易用的TTS解决方案。

LAION - 开源机器学习资源与数据集提供平台

AI工具LAION人工智能开源数据集机器学习图像文本对

LAION作为非营利组织，提供开放机器学习资源，包括大规模数据集、工具和模型。平台主要产品有LAION-400M、LAION-5B图像文本对数据集，CLIP视觉转换器模型和LAION-Aesthetics美学筛选子集。LAION致力于推动开放式机器学习研究，鼓励资源重复利用，支持环保理念和公共教育发展。

dataset - 摩洛哥方言Darija与英语双语开源数据集DODa

DarijaDODa开源数据集摩洛哥方言自然语言处理Github开源项目

Darija Open Dataset (DODa)是一个专注于摩洛哥方言的开源项目，包含约15万条条目。该数据集提供语义和语法分类、多种拼写形式、词形变化以及大量翻译句子。DODa采用拉丁字母和阿拉伯字母，反映了Darija拼写的多样性，为自然语言处理应用提供了丰富资源。项目目标是成为Darija NLP的重要参考，并鼓励社区贡献。

ko-ref-llama2-7b - 基于LLaMA2架构的韩文文本生成语言模型

韩语语料库LLaMA2自动回归语言模型HuggingfaceGithub开源项目模型开源数据集ko-ref-llama2-7b

本项目是基于LLaMA2架构的自动回归语言模型，专注于韩文文本生成。训练过程中使用开放的韩文数据集，以提升对韩文语料的理解和生成能力。该模型接受文本输入并生成相应的文本输出，适用于需要高精度韩文文本生成的应用。

相关文章

Article Cover

YuzuMarker.FontDetection:首个CJK字体识别与样式提取模型

Article Cover

TransGPT: 中国首个开源交通大模型的突破性进展

Article Cover

WeTTS: 面向生产的端到端语音合成工具包

Article Cover

Dataset: 探索开放数据集的世界

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号