#Datasets
Instruction-Tuning-Survey - 深入探讨大型语言模型的指令微调技术及应用
Instruction TuningLarge Language ModelsDatasetsModelsarXivGithub开源项目
本文综述了大型语言模型的指令微调技术,包括方法学、数据集构建、模型训练及多模态和领域应用。探讨了影响指令微调效果的关键因素,如数据集规模和质量等,并指出了当前技术的局限性及未来改进方向。
entity-recognition-datasets - 多领域实体识别和命名实体识别任务数据集
Entity RecognitionNamed Entity RecognitionDatasetsNERAnnotationsGithub开源项目
此库包含多个领域的实体识别和命名实体识别(NER)任务数据集,包括新闻、社交媒体、医学等。项目提供数据目录和转换代码,部分数据因许可证限制无法直接共享。虽然自2020年起更新较少,但仍接受通过issue或pull request添加的数据集,并支持多种语言的NER数据,如德语、西班牙语和荷兰语等。
CPM - CPM:优化的颜色和图案迁移,实现多样化妆效果
CPMColor-PatternBeautyGANMakeup TransferDatasetsGithub开源项目
CPM是一种集成了改进的颜色迁移和创新的图案迁移功能的化妆迁移框架,能够在轻度和极端化妆风格中表现卓越。该框架使用了四个新数据集进行训练和评估,包括真实和合成数据集。用户可以通过定性比较页面了解CPM的效果。更多细节和实验结果请参阅相关论文。
awesome-instruction-learning - 指令学习文献与数据集综述
Awesome Instruction LearningInstruction TuningDatasetsSurveyAIGithub开源项目
本项目提供了关于指令调优和跟随的优秀阅读列表,包括最新的论文、数据集和详细的分析。这份资源对研究人员和技术从业者非常有用,涵盖从理论到应用的各个方面。通过全面概述和多样分类,用户可以深入了解当前指令学习的趋势和挑战。欢迎任何贡献和建议,共同丰富和改进这一开源项目。