#中文数据集
Telechat - 开源多语言对话模型,支持长文生成和高效部署
TeleChat大语言模型中文数据集模型评测开源模型Github开源项目
TeleChat是一系列开源大语言模型,包含1B至12B规模,支持中英双语。采用优化结构和训练方法,在多领域表现优异。项目开源预训练数据集和评测结果,支持模型微调与高效部署。
chinese-clip-vit-huge-patch14 - 基于ViT-H/14和RoBERTa的中文图文对比学习模型
检索图像编码器Chinese-CLIP中文数据集开源项目文本编码器模型HuggingfaceGithub
chinese-clip-vit-huge-patch14是一个基于ViT-H/14和RoBERTa-wwm-large的中文CLIP模型,在大规模中文图文数据上训练,表现卓越。支持在MUGE、Flickr30K-CN和COCO-CN等数据集中的图文检索和零样本分类。提供API实现简便的图文特征提取及相似度计算,详情请参见GitHub仓库。