#机器学习

Bytient - 深度组织数据平台 助力商业决策
AI工具B2B数据机器学习销售情报房地产数据创业生态系统
Bytient平台整合取证智能和预测分析技术,提供组织信息、技术使用情况、决策者数据和房地产信息等多维度深度数据。通过实时搜索引擎、房地产API和投资者数据库等功能,为企业提供全面的商业洞察,助力实现商业目标。
Billie - macOS智能发票助手 自动化归档管理流程
AI工具Billie发票助手自动化机器学习macOS
Billie是macOS平台的智能发票助手,通过机器学习技术实现自动化归档。功能包括拖放操作、动态票据处理、自定义文件名和目标组设置。支持按时间周期自动整理发票,提供供应商概览,并适配暗黑模式。直观界面设计提升发票管理效率,节省用户时间。
bert_score - 先进的自然语言生成评估工具
BERTScore自然语言处理文本生成评估预训练模型机器学习Github开源项目
BERTScore是一种创新的自然语言生成评估工具,基于BERT预训练模型的上下文嵌入技术。它通过计算候选句和参考句中单词的余弦相似度,得出精确度、召回率和F1分数。研究表明,BERTScore在句子级和系统级评估中与人工判断具有高度相关性。该项目支持130多种预训练模型,适用于多种语言的文本生成评估。BERTScore提供Python接口和命令行工具,操作简便,是自然语言处理领域的有力辅助工具。
FYRAN - 免费智能聊天机器人构建工具
AI工具FyranAI聊天机器人数字人技术自然语言处理机器学习
FYRAN是一款免费的聊天机器人构建工具,支持多种文件格式上传,自动创建智能对话系统。平台集成数字人技术,实现逼真头像自然语言回复。支持音频文件处理,可基于播客或音频内容构建聊天机器人。适用于各类企业,提供高效的聊天机器人开发体验。
Hacker FM - 每日科技新闻播客由人工智能生成
AI工具人工智能播客技术新闻机器学习开源软件
Hacker FM是一个由人工智能生成的每日科技新闻播客,主持人Laura和Zod讨论广泛的技术话题,包括人工智能、编程、网络安全和开源项目。节目以轻松幽默的方式探讨最新科技趋势,为听众提供独特视角。Hacker FM通过AI生成内容,为科技爱好者提供便捷的行业资讯获取渠道,适合开发人员、企业家和科技爱好者收听。
naturalcc - 弥合编程与自然语言的序列建模工具包
NaturalCC代码理解机器学习软件工程自然语言处理Github开源项目
NaturalCC是一个开源的序列建模工具包,旨在缩小编程语言与自然语言之间的差距。它支持代码生成、补全、摘要等多项软件工程任务。该工具包采用模块化设计,集成了多个大型代码模型,支持多GPU训练和高效推理。NaturalCC还提供了预处理的基准数据集和评估工具,为代码智能研究与开发提供了全面的解决方案。
PyDGN - 深度图网络研究与实验的Python开源库
PyDGN深度图网络图分类机器学习Python库Github开源项目
PyDGN是一个面向深度图网络(DGNs)研究的开源Python库。该库提供自动化的数据处理、实验管理和并行计算功能,支持模型选择与风险评估。PyDGN简化了图学习实验流程,有助于快速原型设计和结果复现,为图神经网络研究提供了实用工具。它支持CPU和GPU并行计算,可同时评估多种模型配置。PyDGN适用于各类深度图网络研究,包括图分类、节点分类等任务。该库提供了完整的实验管理流程,从数据预处理到模型评估,有助于提高研究效率和结果可靠性。
Time-series-classification-and-clustering-with-Reservoir-Computing - 基于储层计算的时间序列分析框架
Reservoir Computing时间序列分类时间序列聚类机器学习神经网络Github开源项目
这个开源项目利用储层计算技术,实现了时间序列数据的分类、聚类和预测功能。它支持处理单变量和多变量时间序列,并提供了易用的Python库。项目包含多个功能模块、丰富的数据集和高级示例。其特有的储层模型空间表示方法在处理复杂时间序列任务时表现出色。
KoGPT2-FineTuning - KoGPT2模型微调工具 韩语歌词和文本生成
KoGPT2微调自然语言处理文本生成机器学习Github开源项目
KoGPT2-FineTuning是一个基于SKT-AI的KoGPT2模型的微调工具,专注于韩语歌词和文本生成。该项目使用精选的歌词、小说和文章数据进行训练,支持不同音乐流派的歌词创作。它提供Colab运行环境,并包含可调参数的生成器功能,方便用户控制输出文本的创意性。此项目为韩语自然语言处理和创意写作领域提供了实用的解决方案。
gpn - 基于DNA语言模型的基因组变异效应预测工具
GPN基因组预训练网络DNA语言模型变异效应预测机器学习Github开源项目
GPN是一个基于DNA语言模型的开源项目,致力于基因组范围内的变异效应预测。项目包括单序列(GPN-SS)和多序列比对(GPN-MSA)两种模型,适用于人类和植物等多个物种的分析。GPN提供Python接口,支持自定义数据训练,并包含从数据集创建到变异效应预测的完整工作流程。这一工具为基因组研究提供了新的分析方法。
MachineLearningNotebooks - Azure Machine Learning Python SDK v1示例库概览
Azure Machine LearningPython SDK机器学习开发环境计算实例Github开源项目
本存储库MachineLearningNotebooks收录了Azure Machine Learning Python SDK v1的示例代码,包含多个Jupyter笔记本,展示了如何利用Azure ML进行机器学习模型的构建、训练和部署。虽然该版本已停止更新,但仍可为开发者提供有价值的参考。建议用户关注v2 SDK示例库以了解最新功能。这些示例最适合在Azure ML Compute Instance环境中运行,也可在配置了相应azureml包的其他开发环境中使用。
modeltime - R语言时间序列预测框架 整合机器学习与传统方法
modeltime时间序列预测R语言机器学习工作流Github开源项目
modeltime是R语言的时间序列预测框架,简化了预测工作流程,整合机器学习和传统分析方法。支持ARIMA、ETS、Prophet等模型,可与tidymodels生态系统集成。通过6步流程,用户可快速构建、评估和部署预测模型,适用于高性能时间序列分析。框架还包括modeltime.h2o用于AutoML、modeltime.gluonts用于深度学习,以及modeltime.ensemble用于集成预测。这些组件共同构成了一个全面的时间序列分析生态系统,为不同规模和复杂度的预测任务提供解决方案。
tsfresh - 时间序列特征自动提取和分析的Python开源工具
tsfresh时间序列特征提取机器学习PythonGithub开源项目
tsfresh是一个开源Python库,专注于时间序列数据的自动特征提取。它集成了统计学、时间序列分析、信号处理和非线性动力学的算法,并提供了特征选择机制。该工具可处理多种采样数据和事件序列,提供100多种预定义特征,并通过内置过滤程序评估特征重要性。tsfresh支持回归和分类任务,兼容sklearn、pandas和numpy,可在本地或集群环境运行,为时间序列分析提供了高效解决方案。
pyRiemann - 多变量数据分析的黎曼几何Python库
pyRiemann机器学习多变量数据分析黎曼几何脑机接口Github开源项目
pyRiemann是基于scikit-learn API的Python机器学习库,专注于多变量数据处理和分类。该库利用对称正定矩阵的黎曼几何,为生物信号分析提供高级接口,主要应用于脑机接口领域。它支持运动想象、事件相关电位和稳态视觉诱发电位等范式,并实现了会话间和受试者间的迁移学习。pyRiemann提供详细文档和示例,适用于EEG、MEG和EMG等多种生物信号数据分析。
george - Python高斯过程回归库
George高斯过程回归Python库机器学习数据分析Github开源项目
George是一个开源的Python库,专注于高斯过程回归。该库提供高效实现,支持多种操作系统,采用MIT许可证。George在GitHub上维护,具有完善的文档和测试流程,包括持续集成和代码覆盖率检查。这个工具适用于需要处理复杂回归问题的数据分析工作。
biomedical - 生物医学数据集库促进机器学习研究
BigBIO生物医学数据集自然语言处理机器学习数据标准化Github开源项目
BigBIO是一个基于Huggingface datasets库开发的生物医学数据加载器库。该项目提供超过126个生物医学数据集的轻量级访问,覆盖10余种语言和12个任务类别。BigBIO致力于提高数据处理的可重复性,完善数据集来源和许可等属性的文档,并简化自然语言提示和多任务学习的元数据集生成。此外,BigBIO还支持多个主流英语生物医学基准测试中的大部分数据集。
embetter - 提供简洁易用的文本和图像嵌入模型集成工具
embetter嵌入机器学习计算机视觉自然语言处理Github开源项目
embetter是一个兼容scikit-learn的Python库,专注于文本和图像嵌入模型。该库集成了Sentence-Transformers、CLIP等多种预训练模型,便于在机器学习流程中使用。其简洁的设计支持批量处理和增量学习,适用于快速概念验证和批量标记。embetter能与bulk和scikit-partial等工具良好配合,为开发者提供灵活的嵌入解决方案。
optuna - 自动化机器学习超参数优化框架
Optuna超参数优化机器学习Python开源框架Github开源项目
Optuna是一个面向机器学习的开源超参数优化框架。它采用define-by-run风格API,特点是轻量级、通用性强和平台无关。Optuna支持Python式搜索空间定义、高效优化算法、易于并行化和快速可视化。框架可处理多目标优化、约束优化和分布式优化等任务,适用于Python 3.7+版本,并集成多个第三方库。
pynndescent - Python实现的高效近似最近邻搜索库
PyNNDescent近邻搜索机器学习数据分析性能优化Github开源项目
PyNNDescent是一个基于Python的近似最近邻搜索库。该库采用最近邻下降算法构建k近邻图,结合随机投影树初始化,支持多种距离度量方式。PyNNDescent提供简洁的API接口,可与scikit-learn良好集成,适用于高精度(80%-100%)的近似最近邻搜索需求。在性能基准测试中,PyNNDescent展现出优异表现,是一个兼具速度和灵活性的ANN解决方案。
awesome-ml - 机器学习资源库 涵盖语言模型图像视频和音频AI
机器学习大语言模型图像模型视频模型音频模型Github开源项目
该项目是一个综合性机器学习资源集合,包括大型语言模型、图像生成、视频处理和音频AI等领域的开源模型、工具、库和研究资料。适合开发者、研究人员和AI爱好者探索AI技术和应用。项目持续更新,欢迎贡献,为了解和实践机器学习最新进展提供参考。
spotlight - 快速可视化非结构化数据集的开源工具
Renumics Spotlight数据可视化非结构化数据机器学习数据分析Github开源项目
Spotlight是一个开源的数据可视化工具,专为快速理解和探索非结构化数据集而设计。它支持图像、音频、文本等多种数据类型,通过简单的代码即可创建交互式可视化。Spotlight能够利用数据增强功能识别关键数据集群,适用于机器学习和工程领域的复杂数据分析任务。这个工具可以帮助团队更有效地分析和沟通非结构化数据问题。
umato - 创新型双阶段优化降维技术
UMATO维度降低数据可视化机器学习数据分析Github开源项目
UMATO是一种新型降维技术,采用两阶段优化方法保留高维数据的全局和局部结构。与PCA、t-SNE等传统算法相比,UMATO在准确性、稳定性和可扩展性方面表现更佳。该技术特别擅长保持数据的全局结构,同时保持局部特征的竞争力。在处理大型数据集时,UMATO效率显著提高,平均比UMAP快14.3倍。UMATO通过pip安装简单便捷,适用于各种需要高质量数据可视化和分析的场景。
Qwen2-Math - 优化数学推理的专业语言模型系列
Qwen2-Math数学语言模型人工智能自然语言处理机器学习Github开源项目
Qwen2-Math是基于Qwen2大语言模型开发的专业数学语言模型系列。该项目提供多种规模的指令模型和基础模型,支持多语言,并在数学推理和解题能力方面表现优异。在多个数学基准测试中,Qwen2-Math展现出优于其他开源和闭源模型的性能。这些模型专注于解决需要复杂多步逻辑推理的数学问题,为科研社区提供有力支持。
cs224u - 斯坦福大学自然语言理解课程代码库与学习资源
CS224u自然语言理解斯坦福大学PyTorch机器学习Github开源项目
CS224u项目包含斯坦福大学自然语言理解课程的代码库和学习资源。提供作业、教程、PyTorch模型实现和实验方法介绍等内容,涉及向量空间模型、情感分析和模型可解释性等自然语言处理领域。项目采用开源许可发布,为自然语言处理学习者提供全面的学习材料。
awesome-lego-machine-learning - 乐高积木领域机器学习应用资源精选
机器学习LEGO零件分类分拣机数据集Github开源项目
这个精选列表汇集了乐高积木领域的机器学习应用和资源。内容涵盖零件分类、自动分拣、数据集、渲染技术等多个方面,包括应用程序、开源项目、学术论文和工具。列表为乐高爱好者和机器学习研究者提供了丰富参考,无论是构建分拣系统还是研究模型生成,都能找到有价值的信息。
Huatuo-26M - 大规模中文医疗问答数据集推动AI医疗发展
Huatuo-26M医疗问答数据集自然语言处理机器学习人工智能应用Github开源项目
Huatuo-26M是迄今为止最大的中文医疗问答数据集,收录超过2600万条高质量医疗问答对。数据涵盖疾病、症状、治疗方法和药物信息等多个医疗领域,来源包括在线医学百科、医学知识库和医疗咨询记录。该数据集可应用于自然语言处理、机器学习模型训练和AI医疗系统开发,为医疗AI研究与应用提供了丰富的数据支持。
graphcast - 基于图神经网络的全球中期天气预报模型
GraphCast天气预报机器学习图神经网络ERA5数据集Github开源项目
GraphCast是一个基于图神经网络的中期全球天气预报模型,提供高精度预测。项目包含三个预训练模型,涵盖高分辨率和低分辨率版本,适应不同计算资源。开源内容包括模型代码、预训练权重和示例数据。GraphCast使用ERA5和HRES数据训练,展现出优秀的天气预报性能,为研究人员提供了进一步开发和应用的基础。
Top2Vec - 自动化主题检测和语义搜索的创新技术
Top2Vec主题建模语义搜索机器学习自然语言处理Github开源项目
Top2Vec是一种创新的主题建模和语义搜索算法。它能自动检测文本主题,生成主题、文档和词向量的联合嵌入。该算法无需停用词列表和词形还原,可处理短文本,并提供内置搜索功能。通过识别文档密集聚类,Top2Vec为文本分析和信息检索提供了强大的解决方案。
OmniControl - 先进的人体动作生成与精确控制技术
OmniControl人体动作生成关节控制机器学习计算机视觉Github开源项目
OmniControl是一个基于扩散模型的人体动作生成项目,实现了对任意关节在任意时间的精确控制。通过空间引导和真实性引导,该项目能生成高质量、自然的动作序列。OmniControl提供预训练模型、训练代码和评估工具,支持HumanML3D等数据集,为动作生成研究和应用领域提供了灵活有力的解决方案。
practical-mlops-book - MLOps实践指南 从概念到生产部署
MLOps机器学习云计算DevOpsedXGithub开源项目
该书全面阐述MLOps实践,包括基础概念和高级部署策略。探讨持续交付、AutoML、监控和日志等主题,并针对AWS、Azure、GCP等云平台给出实施方法。结合代码示例和案例研究,指导读者将机器学习模型部署到生产环境。
Eco2AI - 量化AI模型训练的碳足迹工具
Eco2AICO2排放追踪能源消耗监测机器学习可持续AIGithub开源项目
Eco2AI是一个开源的Python库,用于追踪机器学习模型训练过程中的CO2排放。它通过监测CPU和GPU的能耗,结合地区排放系数来估算碳排放量。使用简单,只需在Python脚本中添加几行代码。Eco2AI记录详细的运行信息,包括项目名称、实验描述、耗电量和排放量等。该工具支持装饰器语法,并提供灵活的参数设置。Eco2AI致力于帮助研究人员和开发者量化AI模型训练的环境影响,为推动可持续AI发展提供数据支持。
elasticsearch-learning-to-rank - Elasticsearch搜索结果排序优化插件
Elasticsearch机器学习搜索相关性排名模型特征存储Github开源项目
elasticsearch-learning-to-rank是一款专为Elasticsearch设计的搜索结果排序优化插件。它能够存储查询模板作为特征,记录相关性分数用于离线模型训练,并支持存储多种类型的排序模型。该插件可利用存储的模型对搜索结果进行智能排序,已在维基媒体基金会等多个知名机构的搜索系统中得到应用。插件支持线性模型、XGBoost和RankLib等多种算法,为开发者提供了灵活的排序优化方案。
PyABSA - 多语言方面级情感分析框架
PyABSA情感分析自然语言处理开源框架机器学习Github开源项目
PyABSA是一个开源的多语言方面级情感分析框架。它提供方面术语提取、情感分类、三元组和四元组提取等功能,支持快速部署和自定义模型训练。该框架集成多种先进算法,为研究人员和开发者提供强大的ABSA工具。PyABSA提供丰富示例和文档,支持pip快速安装,适用于多种语言的情感分析任务。
mlxtend - Python机器学习日常任务扩展库
mlxtend机器学习Python库数据科学开源软件Github开源项目
mlxtend扩展了Python的机器学习功能,专注于提供数据科学日常任务中的实用工具。库中包含多种分类器、集成方法和决策区域可视化功能。它支持pip和conda安装,适合机器学习研究和实践。mlxtend提供详细文档和示例,有助于简化数据科学工作流程。
ROCm - 开源GPU计算软件栈推动高性能与科学计算
ROCmGPU计算开源软件HIP机器学习Github开源项目
AMD ROCm是一个开源GPU计算软件栈,提供完整的驱动、开发工具和API生态系统。它支持从底层内核到终端应用的全方位GPU编程,专门针对高性能计算、人工智能和科学计算领域优化。ROCm支持多种编程模型,并与主流机器学习框架深度集成。通过HIP技术,ROCm实现了卓越的跨平台可移植性,使开发者能够在各类GPU平台上灵活部署代码,适用范围涵盖从普通游戏GPU到大规模超算集群。
cheatsheets-ai - 深度学习和机器学习工程师常用速查表
AI Cheatsheets机器学习深度学习TensorFlowKerasGithub开源项目
提供详尽的深度学习和机器学习速查表,包括Tensorflow、Keras、Numpy等热门工具,帮助工程师和研究人员快速掌握核心知识,提高工作效率。访问AI Cheatsheets获取更多资源和最新技术信息,适用于各水平从业者。