#数据预处理

100-Days-Of-ML-Code - 掌握使用Python进行机器学习和深度学习的技巧
机器学习100天挑战数据预处理决策树随机森林Github开源项目
探索100天机器学习代码项目,该项目包括数据预处理和各种机器学习模型的练习,如线性回归、逻辑回归、决策树等。项目还涵盖了无监督学习方法和深入的Python, TensorFlow, Keras在深度学习中的应用。
Bert-VITS2-ext - 实现声音到脸部表情的同步生成的TTS及声音识别的应用
Bert-VITS2TTS表情生成音频质量数据预处理Github开源项目
Bert-VITS2-ext 专注于TTS及声音识别的创新应用,实现声音到脸部表情的同步生成。该技术结合VITS,支持多语言,适用于复杂交互场景,为动画与虚拟互动领域开辟新可能。
DALI - 加速深度学习应用的GPU加速数据加载与预处理库
NVIDIA DALIGPU加速深度学习数据预处理多框架支持Github开源项目
NVIDIA DALI是一个GPU加速的数据加载和预处理库,专为提高深度学习应用效率而设计。它提供了一套优化的工具,改善图像、视频和音频的处理,同时解决CPU瓶颈,支持跨多平台框架使用。此外,DALI利用GPUDirect Storage技术,从而实现从存储到GPU内存的直接数据传输,显著提升处理速度。
lite-transformer - 现代高效的长短期注意力Transformer模型
Lite Transformer模型训练数据预处理分布式训练测试模型Github开源项目
Lite Transformer是一种结合长短期注意力机制的高效Transformer模型。它基于PyTorch开发,支持多种数据集的下载和预处理,能够在NVIDIA GPU上高效运行。模型在多个大型数据集上表现优异,并支持分布式训练和预训练模型下载。
kss - 韩语字符串处理工具包,支持自然语言处理和数据分析
Kss自然语言处理数据预处理数据分析PythonGithub开源项目
Kss提供多种韩语字符串处理功能,适用于自然语言处理、数据预处理和数据分析等领域。工具设计简洁易用,支持分词、关键词提取、拼音转换等模块,用户可通过简单代码调用实现复杂字符串操作。Python、Java等多种编程语言兼容性强,并支持良好的向后兼容。
LLamaTuner - 大语言模型微调工具,支持几乎所有GPU
LLamaTuner大语言模型模型训练数据预处理Supervised fine-tuning datasetGithub开源项目
LLamaTuner是一款高效、灵活且功能全面的大语言模型微调工具。支持在几乎所有GPU上进行大语言模型的预训练和微调,包括单个8GB GPU上微调7B LLM和超过70B模型的多节点微调。自动调度高性能算子如FlashAttention和Triton内核,兼容DeepSpeed以提升训练吞吐量。支持多种LLM和VLM,以及QLoRA和LoRA等多种训练算法,提供连续预训练、指令微调和代理微调等功能,还能与大型模型进行对话。
tslearn - Python时间序列分析机器学习库
tslearn时间序列分析机器学习Python库数据预处理Github开源项目
tslearn是一个开源的Python库,专注于时间序列分析和机器学习。它提供数据预处理、分类、聚类、回归和多种距离度量方法。支持可变长度时间序列,兼容scikit-learn,包含UCR数据集和数据生成器。tslearn适用于需要进行时间序列分析的数据科学工作,支持超参数调优和管道等功能,为研究和实践提供全面工具支持。
GPT-2 - 开源语言模型训练与实现探索
GPT-2模型架构训练循环数据预处理代码复现Github开源项目
本项目是基于Andrej Karpathy代码的GPT-2开源实现。通过详细注释解释模型架构和训练过程,包含核心文件如模型结构、训练循环和数据预处理。计划添加KV-Cache、RoPE等功能。虽然Hellaswag测试性能略低,但为学习大型语言模型提供了重要资源。项目展示了模型训练过程中的各种考虑因素,如权重初始化、学习率调整等技术细节。
NVTabular - GPU加速的大规模表格数据特征工程库
NVTabularGPU加速特征工程数据预处理推荐系统Github开源项目
NVTabular是NVIDIA Merlin框架的组件,用于处理TB级数据集和训练深度学习推荐系统。该库利用GPU加速计算,提供高级抽象以简化代码。它可处理超出内存限制的大规模数据集,使数据科学家专注于数据操作,快速准备实验数据,并加速生产模型的数据转换过程。
RePlay - 全周期推荐系统开发与评估框架
RePlay推荐系统数据预处理模型评估超参数优化Github开源项目
RePlay是一个覆盖推荐系统全生命周期的开发评估框架。它集成了数据预处理、模型构建、参数优化、性能评估和模型集成等功能。该框架支持CPU、GPU等多种硬件,并可与PySpark结合实现分布式计算。RePlay能帮助开发者顺利将推荐系统从离线实验转到在线生产环境,提升系统的可扩展性和适应性。
pix2struct - 基于截图解析的视觉语言预训练模型
Pix2Struct视觉语言理解预训练模型数据预处理实验运行Github开源项目
Pix2Struct是一个基于截图解析的视觉语言预训练模型。该模型可处理图像描述、图表问答和界面元素理解等多种任务。项目提供预训练的Base和Large模型检查点,以及9个下游任务的微调代码。Pix2Struct在多个视觉语言任务中表现优异,为相关研究提供了有力支持。
temporian - 高效可靠的时间数据预处理库
Temporian时间数据处理Python库特征工程数据预处理Github开源项目
Temporian是一个专注于时间序列分析和数据预处理的Python库。它支持多种时间数据类型,包括多变量时间序列、事件日志和跨源事件流。经过优化,Temporian在处理时间数据时的效率可达常规库的1000倍。此外,它还提供了防止数据泄露的功能,并能与现有机器学习生态系统无缝集成,为时间数据处理提供了高效可靠的解决方案。
100DaysofMLCode - 100天掌握机器学习编程实践从数据预处理到深度学习
机器学习数据预处理回归分类聚类Github开源项目
100DaysofMLCode是一个为期100天的机器学习编程挑战项目,涵盖数据预处理、回归、分类、聚类、强化学习、自然语言处理和深度学习等主题。项目提供代码示例和日志记录,适合不同水平的开发者学习和实践机器学习技术。作为开源项目,它欢迎社区贡献。
retentioneering-tools - Python库实现深度用户行为分析和产品优化
Retentioneering用户行为分析点击流分析Python库数据预处理Github开源项目
Retentioneering是一个专门用于分析点击流、用户路径和事件日志的Python库。该工具提供预处理模块和路径分析功能,支持数据分析师、营销人员和产品经理深入洞察用户行为,进行用户分群,并形成关于留存和流失的假设。通过构建行为分群,Retentioneering能够突出显示影响转化率、留存率和收入的用户行为模式,为产品质量提升提供数据支持。
pattern_classification - 机器学习和模式分类资源集合
机器学习模式分类数据预处理模型评估聚类分析Github开源项目
该项目汇集了机器学习和模式分类领域的全面资源。内容包括教程、示例代码、数据集、工具和技术说明等。涵盖数据预处理、特征选择、多种算法实现等方面。还提供数据可视化案例、统计模式分类研究、相关书籍和讲座资料。适合学习和应用机器学习技术的研究者和从业者参考使用。
cail2019 - 法律AI挑战赛 基础BERT到多任务学习的模型进化
BERT模型多任务学习数据预处理集成模型问答系统Github开源项目
本文记录了CAIL2019法律智能挑战赛的参赛历程。从基础BERT模型出发,逐步优化YES/NO问题和未知答案处理策略,最终发展为多任务学习的端到端模型。文章分析了数据集特点、模型迭代过程和技术难点,展示了AI竞赛中如何通过持续改进提升模型效果。
machine_learning_basics - 纯Python实现机器学习算法 助力深入理解基础原理
机器学习算法实现Python数据预处理GitHubGithub开源项目
该开源项目提供多种机器学习算法的纯Python实现,包括线性回归、决策树和k-means聚类等。项目注重展示算法底层结构,而非追求最高效率。另外还包含数据预处理教程,涵盖图像和数值/分类数据集处理。代码支持在线运行,便于快速实验。作为机器学习入门资源,适合想深入理解算法原理的学习者。
video2dataset - 快速构建大规模视频数据集的开源工具
video2dataset视频数据集视频下载分布式处理数据预处理Github开源项目
video2dataset是一个开源工具,用于从视频URL快速创建大规模视频数据集。它支持多种输入输出格式和文件系统,可在12小时内处理1000万个视频。该工具提供增量模式、分布式处理和Weights & Biases集成,适合机器学习训练等场景。其灵活的API和配置选项让用户能够精细控制数据处理流程。
autoai - 自动化AI模型训练与优化框架
AutoAI机器学习代码生成预测模型数据预处理Github开源项目
BlobCity AutoAI是一个自动化AI/ML模型训练框架,适用于分类和回归问题。该框架集成了特征选择、模型搜索、训练和超参数调优功能,并能生成高质量模型代码。AutoAI支持多种数据输入格式,提供内置预处理、模型评估和可视化工具,简化了AI开发流程。目前该项目处于beta版本,正在持续开发完善中。
vit-face-expression - Vision Transformer驱动的七类面部表情识别模型
模型FER2013情感分析开源项目HuggingfaceVision TransformerGithub数据预处理人脸表情识别
vit-face-expression模型采用Vision Transformer架构,通过FER2013数据集微调,实现了七种基本面部表情的识别。该模型可分析愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性表情,在测试集上达到71.16%的准确率。这一开源项目为面部情绪分析领域提供了新的解决方案。
bert-base-german-uncased - 基于多源语料库训练的德语BERT预训练模型
数据预处理德语模型深度学习BERT自然语言处理HuggingfaceGithub开源项目模型
巴伐利亚州立图书馆MDZ团队开发的德语BERT模型,基于维基百科、EU图书和开放字幕等数据集训练,数据规模达16GB、23亿tokens。模型提供大小写敏感和不敏感两个版本,原生支持Transformers库,预训练序列长度512。经实测在命名实体识别、词性标注等任务中表现优异,可广泛应用于德语NLP领域。
et5-typos-corrector - ETRI-et5模型驱动的韩语拼写优化器
ET5数据预处理拼写纠正PLM模型Github韩国语开源项目模型Huggingface
该开源项目基于ETRI-et5模型,为韩语口语拼写问题提供解决方案。通过特定数据集的微调,该工具能够高效自动纠正拼写错误,从而提高文本准确性。数据预处理涵盖去除标点符号和短句以及过筛含标签词汇,以提升纠正性能。用户可轻松输入文本并获取优化结果,适合大量文本处理需求。
twitter-roberta-base - 社交媒体推文特化的RoBERTa基础模型
机器学习Github模型开源项目Twitter-roBERTa-baseHuggingface特征提取数据预处理推文分析
该模型在经过5800万推文数据训练后基于原始RoBERTa基础模型优化,旨在提高其对Twitter数据的自然语言处理性能。用户可通过TweetEval官方仓库评估该模型,示例功能包括文本预处理、掩码语言模型、推文嵌入及特征提取,适用于情感分析及文本相似度判定等用途。