#机器学习

rb-libsvm - Ruby语言的LIBSVM机器学习库封装
LIBSVM机器学习支持向量机Ruby分类算法Github开源项目
rb-libsvm(当前版本3.24)是一个封装LIBSVM库的Ruby gem包,为Ruby开发者提供支持向量机(SVM)功能。它无需额外依赖,通过简洁API实现SVM模型的训练和预测。该项目适用于Ruby环境下的机器学习任务,可应用于数据分析和人工智能领域。rb-libsvm集成了LIBSVM核心功能,支持多类分类、回归和分布估计等功能,在文本分类等场景中表现出色。它是Ruby环境中进行高效机器学习的有力工具,为数据科学和人工智能应用提供了强大支持。
falcon - 轻量级自动机器学习库 支持一行代码训练模型
AutoMLFalcon机器学习ONNXPython库Github开源项目
Falcon是一个轻量级Python库,通过单行代码即可训练生产级机器学习模型。该库提供简单易用的接口,支持多种预设配置,并可扩展集成其他框架。Falcon深度支持ONNX,实现复杂pipelines导出为单一ONNX图,便于跨平台部署。目前主要支持表格分类和回归任务,适合快速构建和集成机器学习项目。
Automatic-leaf-infection-identifier - 自动植物叶片病害识别系统
植物病害检测图像处理机器学习叶片分析农业技术Github开源项目
该项目是一个基于机器视觉和机器学习的自动叶片病害识别系统。系统使用图像处理算法对叶片图像进行分割和特征提取,通过SVM分类器将叶片分类为健康或感染。它能够早期检测植物病害,有助于及时采取防控措施。项目包含完整代码实现,提供数据集创建、模型训练和图形界面等功能。
autoai - 自动化AI模型训练与优化框架
AutoAI机器学习代码生成预测模型数据预处理Github开源项目
BlobCity AutoAI是一个自动化AI/ML模型训练框架,适用于分类和回归问题。该框架集成了特征选择、模型搜索、训练和超参数调优功能,并能生成高质量模型代码。AutoAI支持多种数据输入格式,提供内置预处理、模型评估和可视化工具,简化了AI开发流程。目前该项目处于beta版本,正在持续开发完善中。
nyaggle - Kaggle和数据科学竞赛的Python工具库
nyaggle特征工程实验追踪验证机器学习Github开源项目
nyaggle是一个面向数据科学竞赛的Python工具库,专注于实验跟踪、特征工程和模型验证。它提供实验追踪、集成学习、特征存储等功能,支持高级API进行交叉验证实验。该库还包含目标编码、BERT文本向量化等特征工程工具,以及对抗验证和时间序列分割等验证方法,是Kaggle等竞赛中的实用助手。
aws-ai-ml-workshop-kr - AWS人工智能与机器学习韩语学习资源库
AWSAI/MLSageMaker机器学习深度学习Github开源项目
此项目是AWS AI/ML韩语学习资源库,包含多类示例代码,涵盖AI服务、应用AI、SageMaker、集成应用及生成式AI等领域。提供丰富学习材料和实践案例,适合不同水平的开发者深入了解AWS AI/ML服务。资源包括自学指南和实际应用示例,全面支持韩语用户学习和应用AWS人工智能技术。项目还包括AWS Neuron相关示例,涉及Inferentia和Tranium等技术,为开发者提供更广泛的AWS AI基础设施应用知识。资源库采用Apache 2.0许可证,鼓励社区贡献,但目前正在完善外部贡献机制。
k-means-constrained - K均值聚类算法的约束优化实现
k-means聚类算法机器学习数据挖掘PythonGithub开源项目
k-means-constrained库为K均值聚类算法引入了簇大小约束功能。它巧妙地将簇分配问题转化为最小成本流问题,并借助Google OR-Tools的C++实现高效求解。作为scikit-learn KMeans的扩展,该库保持了兼容的API设计,适合需要精确控制簇规模的聚类应用场景。支持Python 3.8+环境,可通过pip便捷安装。
flink-ml - Apache Flink ML,简化机器学习流水线构建的开源库
Flink ML机器学习API流处理Apache FlinkGithub开源项目
Flink ML是Apache Flink旗下的开源机器学习库,旨在简化ML流水线的构建过程。它提供标准化的机器学习API和基础设施,支持算法实现、训练和推理流水线的构建。该库提供Python和Java接口,具备快速入门指南、项目构建工具和性能基准测试功能。Flink ML作为社区驱动的项目,欢迎开发者参与贡献。
APIAuto - 全能HTTP接口测试与管理平台
APIAutoHTTP接口测试机器学习接口文档生成零代码测试Github开源项目
APIAuto集成接口文档、测试、模拟和管理等功能,支持机器学习零代码测试及自动代码生成。适用于RESTful和GRPC等API,支持各种HTTP方法。该工具在腾讯内部广泛应用,并得到华为等企业认可,为开发者提供一站式接口管理体验。
Yi-6B - 开源双语大型语言模型的性能和应用
Huggingface机器学习Yi series人工智能开源项目模型Github开源大语言模型
Yi系列模型是01.AI从头自主训练的开源大型语言模型,支持双语,适用于语言理解、常识推理和阅读理解。Yi-34B-Chat在多项评估中表现出色,仅次于GPT-4 Turbo,而Yi-34B在开源模型中名列前茅。该系列模型采用Transformer架构,结合高质量训练数据集和高效管道,适合广泛的个人、学术和商业用途,支持在多个平台试用。
albert-xxlarge-v1 - 大型英文数据集上的预训练语言模型
机器学习Github开源项目模型微调自监督学习深度学习HuggingfaceALBERT XXLarge v1模型
ALBERT-XXLarge-v1 是一种在大规模英语数据集上通过自监督学习预训练的模型,采用掩蔽语言建模和句子顺序预测技术。该模型通过重复层的共享权重设计实现了较小的内存占用,但计算成本与同类模型相当,适用于序列分类和问答等需全面句子理解的任务。虽然它具备出色性能,应用时需注意潜在偏见。
Platypus2-13B - LLaMA2架构下通过指令微调优化的模型及其表现
机器学习Github模型Platypus2-13B开源项目语言模型训练数据集Huggingface人工智能
该模型基于LLaMA2-13B架构进行指令微调,具备自动回归功能。使用STEM和逻辑数据集进行训练,在ARC和HellaSwag等任务中表现优异。开发者应在应用前进行安全测试,以验证适用性并减轻可能的偏见。
CalmeRys-78B-Orpo-v0.1 - 高级文本生成模型,适用于多任务应用
机器学习Github模型开源项目精度Huggingface文本生成CalmeRys-78B-OrpoOpen LLM Leaderboard
CalmeRys-78B-Orpo-v0.1是一款微调自MaziyarPanahi/calme-2.4-rys-78b的模型,利用mlabonne/orpo-dpo-mix-40k数据集,支持角色扮演、推理等多种文本生成场景,具备较高准确率和长文本连贯性。
marian-finetuned-kde4-en-to-fr - 优化后的KDE4数据集英法翻译模型
开源项目翻译模型Github机器学习HuggingfaceBleukde4test-marian-finetuned-kde4-en-to-fr
该模型对Helsinki-NLP/opus-mt-en-fr进行微调,专注于KDE4数据集的英法翻译,评估中获得52.94的Bleu分数。其使用Adam优化器,线性学习率调度,并在三轮训练中采用混合精度,以提升效率。
豆包大模型 - 多模态模型,提升企业多元数据处理能力
AI工具豆包大模型火山引擎字节跳动机器学习多模态能力
豆包大模型由字节跳动研发,适用于多元场景,提供每日千亿规模的数据处理支持。其多模态功能涵盖文本、音频、视频,提升企业业务操作。平台包括通用和专业版本,适合问答、生成、分类等应用,并支持代码生成、信息提取和逻辑推理,满足多样需求。
Chat GPT Demo - 免费交互平台,无需登录即可体验ChatGPT
AI工具ChatGPTAI交互OpenAI人工智能机器学习
Chat GPT Demo基于Chat GPT-4,为用户提供无需登录的免费体验,采用先进算法和灵活设计,革新人与AI的互动方式,适用于聊天机器人、创意写作等多种应用。
bert-ner-japanese - 日本语固有表达识别,使用BERT模型实现
日本机器学习Huggingface模型固有表现抽取BERTGithub开源项目自然语言处理
本项目利用BertForTokenClassification模型,实现高效的日本语固有表达识别,可识别八种类别,如人名、法人名和地名等,以满足多样化的语言处理需求。该项目基于东北大学的日本语BERT模型和stockmarkteam的Wikipedia数据集进行训练,通过安装transformers库等,即可实现快速识别,适合应用于IT和学术研究领域的文本分析。
XL-Judge-LLM - 多语言法律评判和文本生成的先进模型
模型卡片文本生成transformers机器学习自然语言处理Github开源项目Huggingface模型
XL-Judge-LLM是基于Transformers库开发的文本生成模型,专注于法律评判和复杂文本生成。该模型利用维基百科和推理数据集等多个大规模数据集进行训练,在F1值、准确率和困惑度方面表现出色。支持多语言处理,可用于直接应用和下游任务,为法律评判和文本生成提供可靠的解决方案。
Llama-3.2-1B-Instruct-4bit - 精简高效的多语言文本生成工具
HuggingfaceLlama 3.2可接受使用政策Meta模型许可协议Github开源项目机器学习
Llama-3.2-1B-Instruct-4bit是从Meta的Llama 3.2-1B-Instruct模型转换为MLX格式的产品,支持包括英语、德语、法语在内的多语言文本生成。引入4bit量化技术以提升运行效率与支持更大输入扩展。提供便捷的Python接口以实现文本生成,适合对话系统和内容创作等应用。遵循Meta的社区许可协议以确保合法使用。
stable-diffusion-xl-refiner-1.0 - 先进的AI图像生成和优化模型
模型开源项目Huggingface机器学习图像生成Stable DiffusionGithub深度学习人工智能
Stable Diffusion XL Refiner 1.0是一款基于潜在扩散模型的AI图像生成和优化系统。它采用集成专家管道技术,能够生成高质量图像并进行精细优化。该模型支持文本到图像生成和图像到图像编辑,在图像质量和用户体验方面显著优于前代版本。主要适用于艺术创作、教育应用和生成模型研究等领域。该模型使用两个固定的预训练文本编码器,可以根据文本提示生成和修改图像。它在图像质量和多样性方面表现出色,但仍存在一些局限性。该项目仅供研究使用,不适合生成事实性或真实的人物和事件内容。
gemma-2-27b-it - Google开源的27B参数大语言模型 支持多种文本生成应用
模型Github开源项目Huggingface机器学习Gemma文本生成自然语言处理
Gemma-2-27b-it是Google基于Gemini技术开发的开源大语言模型。这款轻量级英文文本生成模型拥有27亿参数,支持问答、摘要和推理等多项任务。采用解码器架构的Gemma可部署于笔记本电脑或个人云等资源受限环境。该项目同时提供预训练和指令微调两种版本权重,为AI开发和研究提供灵活选择。
colab - 开源自然语言处理库
模型Github开源项目Huggingface机器学习自然语言处理深度学习人工智能Transformers
Transformers是一个开源的自然语言处理库,提供预训练模型和工具。支持文本分类、问答等多种NLP任务,适用于研究和实际应用。库定期更新,集成新技术,为开发者和研究人员提供丰富资源。
emotion-english - 基于自然语言处理的20类情感识别模型
模型Github开源项目Huggingface机器学习情感分类Hugging Face文本分析自然语言处理
emotion-english项目是一个基于transformers库的文本分类模型,可识别20种不同情感。该模型支持从愤怒、好奇到悲伤、欢乐等多样化情感识别,易于集成到各类自然语言处理应用中。这一工具为情感分析任务提供了精确而全面的解决方案,适用于需要深入理解文本情感的各种场景。
bge-micro-v2 - 轻量高效的语义相似度神经网络
模型Githubsentence-transformers模型评估机器学习开源项目Huggingface数据集自然语言处理
作为一个轻量级语义相似度模型,bge-micro-v2在保持小型化的同时,展现出卓越的文本表示能力。该模型在MTEB多项基准测试中表现出色,包括文本分类、信息检索、文档聚类和语义相似度评估等任务。bge-micro-v2的设计特别适合在计算资源受限的场景下进行高效的语义分析工作。
stable-diffusion-2-depth - 基于深度感知的Stable Diffusion AI图像生成模型
模型图像生成Stable Diffusion人工智能Github深度学习开源项目Huggingface机器学习
stable-diffusion-2-depth是基于Stable Diffusion 2的深度感知AI图像生成模型。它在原有基础上增加了处理MiDaS深度预测的输入通道,实现了额外的条件控制。该模型能够根据文本提示生成和修改高分辨率图像,主要应用于AI安全部署研究、模型局限性探索和艺术创作等领域。作为开源项目,stable-diffusion-2-depth为AI图像生成技术的进步提供了新的可能性。
vit-mae-large - MAE预训练的大型Vision Transformer模型
模型自编码器Github图像处理预训练模型Vision Transformer开源项目Huggingface机器学习
这是一个使用MAE方法预训练的大型Vision Transformer模型。通过随机遮挡75%的图像块进行自监督学习,该模型有效学习图像的内部表示。它可用于图像分类等下游视觉任务,采用masked autoencoder架构进行预训练。该模型由Facebook Research团队开发,基于ImageNet-1K数据集训练,适用于各种计算机视觉应用。
deberta-xlarge-mnli - 高性能自然语言处理模型面向多任务学习优化
DeBERTa模型BERT人工智能Github开源项目Huggingface机器学习自然语言处理
DeBERTa-xlarge-mnli是一个经过MNLI任务微调的大型语言模型。该模型采用解耦注意力机制和增强型掩码解码器,在多项NLU任务中表现优异。它在SQuAD、GLUE基准测试等任务上的成绩超越了BERT和RoBERTa,为复杂的自然语言理解应用提供了强大支持。
esm2_t33_650M_UR50D - ESM-2蛋白质语言模型用于多种序列分析任务
生物信息学Huggingface模型机器学习GithubESM-2开源项目自然语言处理蛋白质模型
esm2_t33_650M_UR50D是ESM-2系列中的一款蛋白质语言模型,采用掩码语言建模方法训练。该模型包含33层网络结构和6.5亿参数,适用于蛋白质功能预测、结构分析、蛋白质折叠预测、突变效应分析等多种序列输入任务的微调。作为中等规模的模型,它在性能和资源需求间取得平衡,为蛋白质研究提供实用工具。
toxigen_roberta - 基于大规模数据集的隐含仇恨言论检测模型
隐式仇恨言论检测机器学习Github开源项目文本分类ToxiGenHuggingface模型数据集
ToxiGen是一个专门用于检测隐含和对抗性仇恨言论的机器学习模型。该模型基于大规模机器生成的数据集训练而成,源自一篇关于隐含仇恨言论检测的学术研究。ToxiGen提供了训练数据集和详细信息,为研究人员和开发者在改进在线内容审核方面提供了有力支持。这一工具有助于构建更安全的在线交流环境,对于社交媒体平台和内容管理系统具有重要应用价值。
sentence-bert-base-ja-mean-tokens-v2 - 日语句向量模型SBERT-ja-v2支持高精度语义相似度计算
文本嵌入HuggingfaceSentence-BERT模型机器学习Github日本語开源项目自然语言处理
sentence-bert-base-ja-mean-tokens-v2是一个基于BERT的日语句向量模型,采用MultipleNegativesRankingLoss训练方法,精度较前版本提升1.5-2个百分点。模型基于cl-tohoku/bert-base-japanese-whole-word-masking预训练,主要用于句子相似度计算等任务。它提供简洁的Python接口,支持批量处理,可应用于多种自然语言处理场景。
ner-english-ontonotes - Flair框架英语命名实体识别模型支持18类实体
模型命名实体识别GithubFlair开源项目Huggingface机器学习序列标注自然语言处理
这是一个基于Flair框架的英语命名实体识别模型,能够识别18种实体类型,包括人名、地点和组织等。模型采用Flair embeddings和LSTM-CRF架构,在Ontonotes数据集上的F1分数为89.27%。该模型可应用于多种自然语言处理任务,并且可以通过简单的Python代码实现NER预测。
gpt-neo-1.3B - EleutherAI开发的13亿参数语言模型GPT-Neo 1.3B
文本生成神经网络Huggingface模型GPT-Neo机器学习Github开源项目自然语言处理
GPT-Neo 1.3B是EleutherAI团队开发的大规模语言模型,基于GPT-3架构,拥有13亿参数。该模型在The Pile数据集上训练,适用于文本生成、问答等自然语言处理任务,并在多项基准测试中表现出色。模型采用MIT开源许可证,但使用时需注意可能存在的偏见和不当内容。
pix2struct-tiny-random - 高效图像到文本转换的轻量级模型
计算机视觉Huggingface模型机器学习Github图像到文本开源项目自然语言处理MIT许可证
pix2struct-tiny-random是一个开源的轻量级图像到文本转换模型。该模型体积小、速度快,适合在资源受限环境中使用。它能够从图像中提取和生成文本信息,可用于开发图像理解和文本生成应用。该项目采用MIT许可证,标记为image-to-text管道。
distilbert-base-uncased-distilled-squad - DistilBERT轻量级问答模型
Huggingface模型机器学习GithubDistilBERT开源项目自然语言处理SQuAD问答系统
distilbert-base-uncased-distilled-squad是一个经过知识蒸馏的轻量级问答模型。它基于DistilBERT架构,在SQuAD v1.1数据集上进行了微调。该模型在保留BERT 95%性能的同时,参数量减少40%,速度提升60%。在SQuAD v1.1开发集上,它实现了86.9的F1分数。凭借其高效性能,这个模型适合各种需要快速、准确问答能力的应用场景。
bert-base-indonesian-1.5G-sentiment-analysis-smsa - BERT基础印尼语情感分析模型实现高精度文本分类
indonluHuggingface情感分析模型机器学习BERTGithub开源项目印尼语
这是一个基于cahya/bert-base-indonesian-1.5G模型在indonlu数据集上微调的印尼语情感分析模型。在评估集上,该模型实现了93.73%的准确率,为印尼语文本分类任务提供了高效解决方案。模型使用Adam优化器和线性学习率调度器,通过10轮训练达到了稳定的性能表现。
multi-qa-mpnet-base-cos-v1 - 面向语义搜索的句子向量化模型
模型语义搜索Github文本嵌入sentence-transformers开源项目Huggingface机器学习自然语言处理
multi-qa-mpnet-base-cos-v1是一个基于sentence-transformers的语义搜索模型。该模型将句子和段落映射为768维向量,通过215M个多样化问答对训练而成。它支持句子相似度计算和特征提取,适用于信息检索和问答系统等应用。模型提供简洁API,可使用点积或余弦相似度计算文本相似度。