#Python
HarvestText - 开源文本处理和分析工具,支持无监督方法和领域知识整合
HarvestText文本预处理自然语言处理无监督方法PythonGithub开源项目
HarvestText 是一个开源文本处理与分析工具,专注于无(弱)监督方法,能够整合领域知识,高效处理和分析特定领域文本。主要功能包括精细分词、文本清洗、实体链接、命名实体识别和依存句法分析等,并支持情感分析、关系网络构建、文本摘要及信息检索等高级应用。广泛应用于小说分析、网络文本及专业文献处理,具备高效灵活的特点。
underthesea - 越南语自然语言处理开源工具包
开源项目Underthesea越南自然语言处理开源Python文本分类Github
越南语自然语言处理开源 Python 工具包,提供简便的 API 和预训练模型,支持词语分割、词性标注、命名实体识别、文本分类和依存句法分析。工具包遵循 GNU 通用公共许可证 v3.0,包含数据集和教程,适用于科研和开发。最新版本支持 LLMs 和基于提示的文本分类功能,用户可以通过 pip 安装。教程涵盖从句子分割到情感分析和语言检测等多种功能。
AiShell - 一个用于命令自动化的ChatGPT连接Python工具
AiShellChatGPTPythonOpenAIAPI键Github开源项目
AiShell是一个Python工具,通过连接OpenAI的ChatGPT自动执行命令,实现与计算机的自然语言交互,特别适用于处理复杂任务如Git操作和解压tar文件。其安装简单,无需配置复杂的技术细节,并支持使用不同的语言模型和API密钥。
vlog-translator - VLOG转录和日语翻译工具
vlogPythonNext.jsOpenAIJapaneseGithub开源项目
一个用于将VLOG视频转录并翻译成日语的开源工具,基于Python和Next.js构建。它整合了pysrt、yt-dlp和OpenAI等组件,实现高效的视频处理。获取OpenAI API密钥并设置环境变量即可轻松运行该工具。项目结构清晰,具有丰富的组件和模块支持,提供完整的转录和翻译功能。
Data-Science-Roadmap - 数据科学完整学习路径:从基础到高级
Data ScienceData AnalyticsData EngineeringPythonMachine LearningGithub开源项目
该项目提供全面的自学路线图,适合希望进入数据科学领域的人士。内容涵盖数据科学、数据分析和数据工程的区别,编程工具,工作环境准备,以及各阶段的学习资源,如基础的统计学和编程,中级的机器学习和数据工程,高级的深度学习和部署,帮助用户掌握数据科学从入门到部署的全流程技能。
nlg-eval - 自然语言生成多指标评估工具使用指南
开源项目nlg-eval自然语言生成评估方法BLEUPythonGithub
提供全面的自然语言生成(NLG)评估工具,包含BLEU、METEOR、ROUGE、CIDEr等多种无监督指标。文档涵盖安装、设置、验证及使用方法,并支持Python API和命令行使用方式,适用于多种操作系统。
DQN-Atari-Agents - 丰富DQN算法库,实现模块化训练与高效并行
DQNDDQNRainbowPythonAtariGithub开源项目
该项目提供了多种DQN算法的模块化训练方法,支持从原始像素或内存数据进行训练,并提高了训练速度。可选版本包括DDQN、Dueling DDQN等,可以通过组合Noisy layer、PER、多步目标等扩展为Rainbow算法。项目详细介绍了各类算法的使用方法及其在Atari和CartPole环境中的性能表现,适合用于研究和项目应用。
gensim - Gensim:高效的Python主题建模和文档索引工具
GensimPythonNLP文档相似性主题建模Github开源项目
Gensim是一个针对自然语言处理和信息检索的Python库,用于执行主题建模、文档索引和相似性检索。该库依靠高效的内存独立算法和多核实现,可以处理超过内存容量的大型语料库。Gensim支持LSA、LDA、RP和HDP等各种流行算法,并支持分布式计算。其直观接口和详实文档使得用户可以轻松集成与扩展,是大规模文本数据处理的优秀选择。
sumy - 简易文本摘要提取和评估工具,支持多种语言
sumy自动摘要Python文本总结命令行工具Github开源项目
Sumy是一款简单的文本摘要提取工具,支持多种语言和评估方法。通过Python和pip即可安装,用户可在命令行或浏览器中使用,Python API便于集成项目,还支持容器化运行,满足多种使用需求。
BERTopic - 高效的Transformers主题建模,支持多种模式
BERTopic主题建模transformersc-TF-IDFPythonGithub开源项目
BERTopic是一种利用Transformers和c-TF-IDF进行主题建模的技术,能够生成易于解释的密集主题聚类,同时保留关键词描述。该项目支持多种主题建模方法,如有监督、半监督和无监督模式,具有模块化和高扩展性。丰富的可视化功能和多种表示方法进一步支持深入分析。BERTopic还兼容多种嵌入模型,并支持多语言处理,适应不同应用场景。
language_tool_python - Python语法检查工具,支持本地和远程服务器
language_tool_pythonLanguageTool语法检查Python拼写检查Github开源项目
language_tool_python是LanguageTool的Python封装库,支持语法和拼写错误检测。它能在本地服务器和远程HTTP校对API之间自由切换,并允许自定义错误匹配和自动纠正。适用于多种语言,提供多种配置选项如缓存和最大文本长度设置。还支持命令行和上下文管理器,方便集成到Python项目中。
BlocklyML - 旨在简化Python和机器学习的实现的无代码训练平台
BlocklyMLMachine LearningPythonNo CodeIris DatasetGithub开源项目
BlocklyML是一个无代码训练平台,旨在简化Python和机器学习的实现。基于Blockly项目开发,专为机器学习和数据分析场景优化。用户可以快速通过示例布局上手,并利用UI功能,例如下载代码和查看数据框,适合新手和非编程背景用户使用。
Machine-Learning-is-ALL-You-Need - 实现流行机器学习和深度学习算法的各种方法
Machine Learning深度学习Python代码实现罗辑学习Github开源项目
这个仓库致力于使用纯Python和各种开源框架实现热门的机器学习和深度学习算法,涵盖分类、回归、强化学习、计算机视觉、自然语言处理和图神经网络等多个领域。提供灵活的代码切换选项,多种实现方法可以帮助用户深入理解每种算法的内部机制以及成功原因。
qml - 量子机器学习与PennyLane的教程和演示资料
PennyLane量子机器学习Python量子计算教程Github开源项目
本项目包含量子机器学习和其他量子计算主题的详细资料,并提供使用PennyLane进行可微编程的Python代码示例。内容包括完整的教程和操作指南,帮助深入理解量子计算。所有教程均可运行,并可下载为Jupyter笔记本和Python脚本,适合学习与研究。
fer - 面部表情识别与情绪检测的开源解决方案
FERPythonOpenCVTensorflow情感识别Github开源项目
FER是一个功能强大的开源面部表情识别工具,支持Python 3.6及以上版本,依赖OpenCV和TensorFlow进行表情检测。该工具能识别视频中的面部表情,输出JSON格式数据,支持MTCNN和Haar Cascade分类器,使情绪检测更为精准。通过简单的编程接口,可以快速在本地或通过TF Serving云端运行表情识别,适用于多种应用场景。
kss - 韩语字符串处理工具包,支持自然语言处理和数据分析
Kss自然语言处理数据预处理数据分析PythonGithub开源项目
Kss提供多种韩语字符串处理功能,适用于自然语言处理、数据预处理和数据分析等领域。工具设计简洁易用,支持分词、关键词提取、拼音转换等模块,用户可通过简单代码调用实现复杂字符串操作。Python、Java等多种编程语言兼容性强,并支持良好的向后兼容。
nagisa - 日本语分词和词性标注的简单易用工具
NagisaPython日语分词词性标注神经网络Github开源项目
Nagisa是一个用于日语分词和词性标注的Python模块,基于递归神经网络,提供字符级和单词级的分词模型及标签词典的词性标注模型。工具设计简单易用,支持多种Python版本,兼容Linux、macOS和Windows系统。通过pip命令即可安装,项目详细文档和资源链接可在官方页面找到。
irl-imitation - 逆强化学习算法在Python和Tensorflow中的实现
Inverse Reinforcement LearningPythonTensorFlow算法实现强化学习Github开源项目
该项目实现了多种逆强化学习(IRL)算法,包括线性逆强化学习、最大熵逆强化学习和深度最大熵逆强化学习,基于Python和Tensorflow。支持在2D和1D网格世界中的应用。项目依赖于Python 2.7、cvxopt、Tensorflow 0.12.1和matplotlib,通过代码示例和命令行选项,有助于快速理解和使用这些算法。为逆强化学习领域的研究者提供了重要的参考资源。
tango - AI2 Tango:高效管理与重用研究实验步骤
AI2 Tango实验组织缓存机制Python实验步骤Github开源项目
AI2 Tango通过将实验组织成离散、可缓存与重用的步骤,替代了杂乱的目录和电子表格。这种系统化管理方法简化了研究项目流程,提高了实验结果的记录和重用效率。AI2 Tango为各类研究人员提供了完整的安装指南和集成选项,并提供详尽的文档和教程。
sacremoses - 简洁高效的Python自然语言处理工具包和命令行界面
Sacremoses令牌化Python归则化模型训练Github开源项目
Sacremoses是一个支持Python 3的自然语言处理工具包,提供分词、去分词、真字修复和文本规范化功能。支持命令行操作和多进程处理,让大规模文本处理变得更简单。
Machine-Learning-Roadmap - 机器学习完整学习指南与优质资源推荐
Machine LearningDeep LearningKLA CorporationPythonIIT KharagpurGithub开源项目
此页面全面介绍了学习机器学习所需的知识,包括数学和编程基础、机器学习和深度学习课程以及书籍推荐。精选资源助您从零开始掌握机器学习,具备开展项目和参加竞赛的技能。同时,提供热门框架和库的学习资源,适合初学者和进阶者。
sklearn-evaluation - 机器学习模型评估工具
sklearn-evaluation机器学习模型评估PythonJupyter notebookGithub开源项目
sklearn-evaluation是一款简便的机器学习模型评估工具,支持绘制混淆矩阵、特征重要性、精准率-召回率、ROC曲线、肘部曲线和轮廓图等多种图表,并生成HTML格式的评估报告。该工具还可使用本地SQLite数据库进行实验跟踪,分析Jupyter notebook输出,并通过SQL查询notebook数据。兼容Python 3.7及更高版本,适用于Linux、macOS和Windows平台,提供全面的模型评估功能。
sematic - 开源的机器学习平台,支持ML工程师和数据科学家使用Python编写并运行复杂的端到端流水线
Sematic机器学习PythonKubernetes开源Github开源项目
Sematic是一个开源的机器学习平台,支持ML工程师和数据科学家使用Python编写并运行复杂的端到端流水线。无论在本地计算机、云虚拟机还是Kubernetes集群上执行,Sematic都可以高效利用云资源。它具有易于上手、端到端可追溯性、本地与云一致性和高可重复性等特点,可在无需部署或额外基础设施的情况下开始使用,所有流水线步骤都可以在web仪表盘上监控和可视化,适用于优化不同计算资源。
workshop-library - 定制化工作坊教程资源,覆盖多种语言
AzureAI/MLMicrosoft Power PlatformPythonData WorkshopsGithub开源项目
此开源项目由Cloud Advocates与Microsoft Student Ambassadors合作创建,提供全面的定制化工作坊资源,涵盖AI/ML、数据分析和Web/App开发等多个领域。用户可以根据需求和语言轻松调整教程,并通过详细的视频和教程指导,从入门到高级全面提升技能,应用于实际项目中。
serverless-ml-course - 无服务器机器学习课程,用于从模型和功能构建支持 AI 的预测服务
Serverless Machine LearningPythonHopsworksGitHubMLOpsGithub开源项目
此课程教授如何使用Python在无服务器环境中构建和部署机器学习预测服务。无需精通Kubernetes或云计算,课程内容包括Pandas与ML管道、数据建模、特征存储、以及训练和推断管道。学习如何使用Hopsworks和Github Actions进行版本管理、测试和数据验证,构建实时无服务器机器学习系统。
pycaret - 开源的低代码Python机器学习库,能够简化和自动化机器学习工作流程
PyCaret机器学习低代码Python开源Github开源项目
PyCaret是一个开源的低代码Python机器学习库,能够简化和自动化机器学习工作流程。通过减少代码量,PyCaret使实验更高效、更快速。它支持scikit-learn, XGBoost, LightGBM, CatBoost等多种机器学习框架,用户可以通过少量代码完成模型训练、评估和预测。无论是经验丰富的数据科学家,还是对低代码解决方案感兴趣的用户,PyCaret都是理想选择。
malaya - 马来西亚语自然语言处理库
MalayaPyTorch自然语言处理Python预训练模型Github开源项目
Malaya是一个由PyTorch驱动的功能强大的马来西亚语自然语言处理库,提供预训练模型和详细文档。支持Python 3.6及以上版本,并建议通过virtualenv进行开发。用户可以方便地通过PyPI安装,并选择合适的PyTorch版本。项目得到了KeyReply、Nvidia和Tensorflow Research Cloud的支持,提供充足的计算资源。欢迎各类形式的贡献,不仅限于代码。
redun - 以高效表达和增量计算为核心的多功能工作流引擎
redunPython工作流引擎数据处理后端Github开源项目
redun是一个用Python实现的高效工作流框架,它通过惰性表达式定义工作流,在自动并行化、缓存和数据追溯方面表现出色。支持多种计算后端,包括线程、进程、AWS批处理和Spark作业,适用于生物信息学、化学信息学和Web数据提取等领域。其主要特性包括动态DAG创建、数据和代码变化的增量计算、缓存重用和数据追溯日志,保障了工作流的灵活性和可扩展性。
barfi - Python流式编程库,集成现有工作流程
BarfiPythonFlow Based ProgrammingStreamlitJupyter-NotebookGithub开源项目
Barfi是一款Python流式编程库,提供图形化编程接口,支持集成现有Python工作流程。用户可通过Barfi.Block构建模式,使用Barfi.ComputeEngine进行执行。每个Block都包含输入输出接口和用户定义的可执行函数,支持在Streamlit组件中使用,并计划增加Jupyter-Notebook小部件。未来还将添加特定领域的组件,弥补现有库的局限性。
machine-learning - 机器学习入门,掌握Python与数据分析
Machine LearningPython数据分析深度学习统计Github开源项目
这个开源项目旨在帮助自学者系统地学习机器学习。内容涵盖Python基础、数据分析、数据可视化、数学和统计,以及机器学习和深度学习的多个在线课程和教程。通过推荐的YouTube视频、Coursera课程和开源项目,提供从基础到高级的学习资源,帮助学习者提升编程与数据分析能力,并逐步进入机器学习和深度学习的领域。
harvesters - 优质计算机视觉图像采集Python库
图像采集PythonHarvesterGenICamOpen SourceGithub开源项目
Harvester是一款Python库,旨在简化计算机视觉应用中的图像采集。其主要功能包括通过GenTL Producers进行图像采集、支持在单个Python脚本中加载多个GenTL Producers,同时还能操控GenICam特性节点。Harvester允许使用多种传输层在Python脚本中进行图像采集,并提供直观的方式操控多个GenICam兼容设备。该项目开源且遵循Apache License-2.0,适用于个人、内部或商业使用。
HistomicsTK - 数字病理图像分析的Python工具包,支持独立和网络集成
HistomicsTKPythonDigital Slide ArchiveHistomicsUIGithub开源项目病理影像分析
HistomicsTK是一个用于数字病理图像分析的Python包,可以独立使用或作为Digital Slide Archive的插件。通过HistomicsUI执行图像分析任务,其功能可通过slicer cli web扩展,允许开发者集成自己的图像分析算法。借助机器学习技术和多分辨率图像,HistomicsTK帮助研究组织学、临床结果及基因数据的关系。适用于路径学家和算法研究者,提供如颜色归一化和细胞核分割等功能,支持Linux、Windows和OSX的安装指南。详细信息请访问官网。
multi-model-server - 深度学习模型的部署工具
Multi Model Server深度学习模型服务DockerPythonGithub开源项目
Multi Model Server是一个灵活的工具,用于部署由各种ML/DL框架训练的深度学习模型。通过命令行界面或预配置的Docker镜像,可以快速设置HTTP端点处理模型推理请求。支持Python 2.7和3.6,提供适合CPU和GPU推理的不同MXNet pip包。详细的文档和使用示例,以及Slack频道和社区支持,进一步简化了用户使用体验。推荐在生产环境中使用Docker容器以提升安全性和性能。
ai-hub-models - 一系列性能优化的机器学习模型
Qualcomm AI Hub机器学习模型设备部署性能优化PythonGithub开源项目
Qualcomm® AI Hub Models提供了一系列性能优化的机器学习模型,适用于视觉、语音、文本和生成式AI。这些模型可以在Qualcomm设备上高效部署,并提供开源的量化、优化和部署指南。用户可以通过Hugging Face访问模型,并通过示例应用程序在本地设备上部署。支持多种操作系统和计算单元,兼容多款Snapdragon芯片,并提供详细的性能指标和文档。
python-polylith - 提供用于Polylith架构的Python工具,简化后端系统的构建与维护
PolylithPythonPoetry插件CLI工具软件架构Github开源项目
该项目为Polylith架构引入Python工具,支持构建简洁、可维护、可测试和可扩展的后端系统。它包含对Poetry、Hatch、PDM、Rye和Pantsbuild等依赖管理工具的支持,包括Poetry插件、CLI工具及构建钩子。项目帮助在单一代码库中实现代码共享,适用于微服务、应用和库的构建。文档和示例提供了详细的安装、设置和使用指南,适用于多种开发环境。
handson-ml - Python机器学习基础与实践指南
Machine LearningPythonScikit-LearnTensorFlowJupyterGithub开源项目
该项目通过Python教授机器学习基本原理,包含《Hands-on Machine Learning with Scikit-Learn and TensorFlow》书中的示例代码和习题解答。用户可以使用Colab、Binder和Deepnote在线体验这些notebooks,或通过Anaconda在本地安装项目进行学习。详细介绍了安装步骤和常见问题解决方法,帮助用户理解和应用机器学习技术。
相关文章
NucliaDB: 专为AI搜索和RAG设计的开源向量数据库
2024年08月29日
Ray: 统一框架助力AI和Python应用扩展
2024年08月29日
Taipy: 构建Python数据和AI Web应用的强大工具
2024年08月29日
Vanna:革新数据分析的开源AI助手
2024年08月29日
Cookiecutter Data Science:数据科学项目的标准化模板工具
2024年08月30日
AutoScraper:智能、自动、快速的Python网页抓取库
2024年08月30日
OpenPrompt:一个开源的提示学习框架
2024年08月30日
海洋翻车鱼:大海中的奇特巨鱼
2024年08月30日
ScrapeGraphAI:开源的大语言模型爬虫,只要说出需求就会自动全网抓取想要的信息
2024年08月03日