#Python库
llm - 大型语言模型CLI工具,支持本地和远程模型
LLMPython库插件模型命令行工具Github开源项目
一款CLI工具和Python库,用于与大型语言模型交互,支持远程API和本地安装模型。可从命令行运行提示、将结果存储在SQLite中、生成嵌入等。通过插件目录,可访问更多模型。
autolabel - 利用大语言模型自动标注、清洗和丰富文本数据集的Python库
AutolabelRefuelLLMPython库数据标注Github开源项目
Autolabel是一个Python库,利用大语言模型(LLM)自动标注、清洗和丰富文本数据集。它大幅减少手动标注的时间和成本,同时提供高准确率的标注结果。该库支持多种NLP任务,如分类、问答、命名实体识别等,兼容OpenAI、Anthropic、HuggingFace等多家提供商的LLM。Autolabel还提供信心估算、结果解释、缓存和状态管理功能,并支持使用Refuel托管的开源LLM进行标注。用户可根据具体任务配置标注指南,并通过简单的三步流程完成数据标注。
DataDreamer - 生成合成数据和优化模型的开源Python工具
DataDreamer合成数据生成模型训练Python库开源Github开源项目
DataDreamer 是一个功能强大的开源Python库,专为创建提示工作流、生成合成数据集和训练模型而设计。它支持复杂的多步提示工作流,适用于各种大语言模型。该工具简单易用,且达到研究级别,兼具高效性和可复现性,支持最新技术如量化和LoRA等。无论是研究人员还是普通用户,都可以轻松发布数据集和模型。
agency - 提供高灵活性和可扩展性的Python代理系统框架
AgencyActor model多人并发Python库API接口Github开源项目
Agency是一个Python库,基于Actor模型,为创建代理集成系统提供框架。它的API易于使用,使开发者可以灵活连接传统软件系统,具有很高的可扩展性。支持多处理和多线程并发,并包含AMQP网络代理系统支持,提供详细日志记录及权限控制。可以通过pip或poetry安装,附带多个代理示例和Docker配置,便于快速开发。
freeGPT - 免费访问多种文本与图像生成模型
freeGPT生成模型文本生成图像生成Python库Github开源项目
freeGPT 提供免费下载和使用多种文本与图像生成模型,包括 gpt3 和 gpt4。通过安装并使用 Python 代码,即可轻松实现文本或图像生成。此外,还支持官方 Discord 机器人,提供更多应用实例和技术支持。
gTTS - 为Google翻译文本到语音功能提供简便接口的Python 库和 CLI 工具
gTTS文本转语音Python库谷歌APImp3输出Github开源项目
gTTS,一款Python库和命令行工具,能通过Google翻译API进行文本到语音转换,并输出为mp3。特色包括自定义语句分割和文本预处理,以支持长文本的准确语调处理。适用于所有需要语音合成功能的开发者。更多信息,参见官方文档。
albumentations - 提升深度学习模型质量的图像增强Python库
Albumentations图像增强深度学习计算机视觉Python库Github开源项目
Albumentations, 一个高效的Python库用于图像增强,通过逾70种方法优化深度学习和计算机视觉模型性能。支持PyTorch和TensorFlow框架,适合多种视觉任务如分类、语义分割和目标检测。
imgaug - 为机器学习中的图像处理提供多样的增强技术,包括仿射变换、对比度调整、高斯噪点等的Python库
imgaug图像增强机器学习Python库数据增强Github开源项目
imgaug库为机器学习中的图像处理提供多样的增强技术,包括仿射变换、对比度调整、高斯噪点等。它优化了性能,支持多核CPU,并可轻松集成到各种媒体处理流程中,支持Python 2.7及更高版本。
pyod - 用于多变量数据异常检测的强大的Python工具库
PyOD异常检测算法Python库多元数据Github开源项目
PyOD是Python领域应用广泛的异常检测工具库,自2017年起支持学术与商业用途。这个库集成了超过50种算法,涵盖从经典方法到最新的深度学习技术。它提供统一的操作界面,高性能的处理效率和快速训练预测功能,已被下载超过1700万次,得到了机器学习领域的广泛认可。
NeMo-Curator - 提供GPU加速的大型语言模型数据集优化与管理解决方案
NeMo CuratorGPU加速大语言模型数据集准备Python库Github开源项目
NeMo Curator 是一款专为大型语言模型(LLM)设计的开源Python库,通过结合Dask和RAPIDS等技术,实现GPU加速的数据集准备与管理。其功能包括数据下载、语言识别、文本清理、质量过滤、文档去重和个人信息保护等模块,为多种LLM任务提供快速、灵活和可扩展的解决方案,显著提升数据处理效率与模型质量。
mergoo - 合并和训练多领域LLM专家的高效工具
MergooLLM专家混合专家Python库模型融合Github开源项目
mergoo是一款工具库,用于高效合并和训练不同领域的LLM专家。支持Mixture-of-Experts、多层合并以及多种训练平台。适配Llama、Mistral、Phi3及BERT模型,兼容CPU、MPS和GPU设备。提供灵活配置及多种训练器支持,包括Hugging Face Trainer和PEFT,以便模型合并与微调。
instructor - 管理大型语言模型结构化输出的Python库
Python库PydanticLLMsinstructorAPIGithub开源项目
Instructor是一个优化的Python库,专为简化和增强大型语言模型(LLMs)的结构化输出设计。它提供了一系列强大的功能,如自动验证、重试机制和流式处理。支持多种主流模型,是提升LLM工作流效率的理想选择。
tika-python - Python版Apache Tika库,支持文档解析、文本翻译与语言检测
tika-pythonApache TikaPython库REST服务器安装Github开源项目
tika-python是Apache Tika的Python移植版,通过Tika REST Server提供强大的文档解析、文本翻译和语言检测功能。该库支持通过多个接口调用,支持gzip压缩输入输出流,并提供命令行工具。用户可配置环境变量,在无网络连接环境中使用,优化其行为。
pyresparser - 简历解析器:支持PDF和DOCx格式文件
pyresparser简历解析信息提取Python库NLPGithub开源项目
pyresparser是一个简易的简历解析工具,可以从简历中提取姓名、电子邮件、手机号码、技能、工作经验、学校名称、学位和职位等信息。支持PDF和DOCx文件,易于集成到Python项目中。该工具使用spaCy和nltk进行自然语言处理,并提供便捷的命令行界面。更多信息和安装指南,请参阅官方文档。
openai-multi-client - 优化OpenAI API的并发请求管理,支持按顺序和无序处理,提供自动重试机制
openai-multi-clientPython库并行请求API调用失败重试Github开源项目
openai-multi-client是一个Python库,简化了对OpenAI API的高并发请求管理,支持按顺序和无序处理请求,并提供内置重试机制。它保持代码的同步性,避免了并发和死锁问题。此库特别适用于大规模数据分析等需要大量请求的任务。无需等待每个请求完成即可开始下一个,openai-multi-client能够同时发送多个请求,并自动重试失败的请求,从而提高效率。
How-to-use-Transformers - 介绍Transformers库的自然语言处理应用教程
TransformersHugging FacePython库自然语言处理BERTGithub开源项目
该项目提供了由Hugging Face开发的Transformers库的快速入门教程,支持加载大部分预训练语言模型。教程涵盖自然语言处理背景知识、Transformers基础和实战案例,包括pipelines、模型与分词器使用、微调预训练模型及序列标注任务等。示例代码展示了句子对分类、命名实体识别、文本摘要等任务的实现,适合机器学习和NLP开发者参考。
OCTIS - 主题模型优化与比较的简便工具
OCTIS主题模型贝叶斯优化Python库预处理数据集Github开源项目
OCTIS 提供全面的主题模型预处理、训练和评估解决方案。通过贝叶斯优化方法,找到最佳超参数。支持经典和神经主题模型,并结合多种前沿评估指标。用户可以加载自定义或预处理数据集,支持Python库和简易Web仪表盘管理实验。
UnlimitedGPT - 一个 Python 库,用于使用 ChatGPT 网站作为 OpenAI 付费 API 的替代 API
UnlimitedGPTPython库ChatGPTAPI跨平台兼容Github开源项目
UnlimitedGPT是一个Python库,可以将ChatGPT网站作为OpenAI付费API的替代方案。它支持消息发送和接收、自动化操作、会话数据管理、主题和账户切换等功能,兼容Windows、Linux、macOS和Google Colab,并绕过Cloudflare的反机器人保护。需要Python 3.8或更高版本。
lang2sql - 使用OpenAI API设置自然语言到SQL代码生成器的教程
lang2sqlOpenAISQL生成器Python库Docker环境Github开源项目
教程教你使用OpenAI API设置自然语言到SQL代码生成器,涵盖了从用户问题到SQL查询的转换。适用于任意数据表,帮助非技术人员处理数据请求。内容包括Python应用程序设置、Docker环境配置及主要Python库的使用,适合有基础Python和SQL知识的用户。
pubmed_parser - Python解析库:PubMed和MEDLINE XML数据
Pubmed ParserPython库XML解析自然语言处理医药数据Github开源项目
Pubmed Parser是一个Python库,用于解析PubMed开放获取(OA)子集和MEDLINE XML数据集。该库使用lxml库将信息转换为Python字典,适用于文本挖掘和自然语言处理。功能涵盖文章信息、参考文献、图片说明、段落、表格及资助信息的解析。更多详情和应用实例,请参考API和文档。
blackmaria - Python库,用于通过自然语言进行网页抓取
Black MariaPython库网页抓取自然语言处理GuardrailsGithub开源项目
Black Maria是一个用于通过自然语言进行网页抓取的Python库。用户只需导出OPEN_AI_KEY环境变量并安装blackmaria库,即可开始使用。通过guardrails提供详细指令,获取针对特定网页的结构化数据,适合开发者和数据分析师。
news-please - 简洁高效的新闻爬虫,支持RSS和历史文章抓取
news-please新闻抓取开源工具Python库数据提取Github开源项目
news-please是一个开源、用户友好的新闻爬虫工具,能够从几乎所有新闻网站提取结构化信息。该工具支持递归跟踪内部链接和读取RSS源来抓取最新及历史文章。提供网站根URL即可实现全面爬取。news-please还支持库模式,便于Python开发者集成使用,并能从commoncrawl.org新闻档案中提取文章。
TextDescriptives - 使用spaCy组件进行多维度文本分析
TextDescriptivesspaCyPython库文本指标APIGithub开源项目
TextDescriptives是一个基于Python的库,通过spaCy v.3管道组件和扩展计算多种文本指标。包括详细文档和Jupyter notebook教程,方便用户上手和使用功能。最新2.0版本引入全新API和组件,支持无代码提取指标的web应用。用户可设置不同参数快速提取文本指标,并将结果导出为Pandas DataFrame或字典。适合文本分析入门者,也为高级用户提供深度定制的选项。
textaugment - 短文本分类的全球增强方法
TextAugment增强文本分类自然语言处理Python库Github开源项目
TextAugment是一个Python 3库,旨在提升自然语言处理应用中的文本处理能力。借助于NLTK、Gensim和TextBlob等工具,TextAugment能生成合成数据,从而提升模型性能。这个库支持多种增强方法,如Word2vec、WordNet和RTT,并可轻松集成到PyTorch、TensorFlow和Scikit-learn等机器学习框架中。无论是词义替换还是混合增强方法,TextAugment都能为短文本分类任务提供有效的解决方案。
nnmnkwii - 用于快速构建语音合成系统的简易库
Python库PyTorchMerlinGithub开源项目nnmnkwii语音合成
nnmnkwii是一款专为快速构建语音合成系统而设计的库,支持原型设计。该库可通过PyPI安装,并提供稳定版和开发版文档。依赖于PyTorch实现自动求导功能,设计灵感源于Merlin和Librosa,功能强大且灵活。
repeng - 用于表示工程的Python库,快速生成控制向量
repeng控制向量表示工程Python库Mistral-7BGithub开源项目
repeng是一个用于表示工程的Python库,可在不到一分钟内生成控制向量,适用于各类AI和机器学习模型。支持通过预训练模型快速训练,并可生成定制数据集和进行推理。支持向量导出并在其他量化模型中使用,但不支持MoE模型。详情参阅官方博客和文档。
facetorch - Python库支持深度学习的面部检测和分析,同时加速CPU和GPU性能
facetorch深度学习面部分析Python库TorchScriptGithub开源项目
Facetorch是一个Python库,使用深度神经网络进行面部检测和特征分析。它支持Hydra配置,使用conda-lock和Docker进行环境重现,并通过TorchScript加速CPU和GPU性能。该工具可扩展,允许通过Google Drive上传模型文件和添加配置文件。请谨慎使用,并遵循欧盟可信AI伦理指南。
skops - Python库支持scikit-learn模型分享与部署
SKOPSscikit-learnHugging Face HubPython库模型共享Github开源项目
SKOPS 是一个支持scikit-learn模型分享和部署的Python库。它提供了将模型集成到Hugging Face Hub的工具,使模型可被发现和使用,无需下载或加载。主要功能包括创建模型库、生成模型卡和安全保存sklearn估算器。详细信息和使用指南请参考文档。
augraphy - 基于Python的文档图像增强工具,模拟真实办公环境
AugraphyPython库增强管道现实文档训练数据Github开源项目
Augraphy是一个Python库,能够通过增强管道将文档从干净版本转换为模拟打印、传真、扫描等效果的脏旧副本,为AI/ML提供大量高质量的训练数据。
docarray - 专为多模态数据的表示、传输、存储和检索而精心打造的Python 库
DocArraymultimodal数据Python库机器学习生态系统数据传输Github开源项目
DocArray是一个为多模态数据提供表示、传输、存储和检索功能的Python库。这个库与NumPy、PyTorch、TensorFlow和JAX等框架无缝集成,支持各种向量数据库,也兼容FastAPI和Jina等网络和微服务框架。作为LF AI & Data Foundation的沙盒项目,DocArray提高了多模态AI应用的开发效率。
spektral - 基于Keras API和TensorFlow 2的Python库,专为图神经网络(GNN)提供简单灵活的框架
Spektral图深度学习图神经网络Python库KerasGithub开源项目
Spektral是一个基于Keras API和TensorFlow 2的Python库,专为图神经网络(GNN)提供简单灵活的框架。该库适用于社交网络用户分类、分子性质预测、图生成、节点聚类和链接预测等任务。Spektral包含多种流行的图深度学习层,如GCN、Chebyshev、GraphSAGE、GAT等,并提供丰富的图操作工具。最新版1.0引入了新数据集、新容器、Loader类和transforms模块,简化了数据处理和模型训练。更多信息请参阅官方文档和示例。
Auto1111SDK - 轻量级Python库,支持Stable Diffusion图像生成和编辑
Auto 1111 SDKStable DiffusionPython库图像生成图像编辑Github开源项目
Auto 1111 SDK是一个轻量级Python库,使用Stable Diffusion模型进行图像生成、放大和编辑。它与Automatic 1111 Web UI完美集成,提供文本到图像、图像到图像、修补和外延等多种管道处理功能,支持多种采样器和模型下载。集成了Civit AI,方便直接从网站下载模型。用户可在Colab上通过示例体验该SDK,并参考官方提供的安装和快速上手指南。
leptonai - 优化Python框架,轻松构建AI服务
Lepton AIAI服务Python库HuggingFace模型部署Github开源项目
LeptonAI框架提供了一种Pythonic抽象方式,将研究和建模代码快速转化为AI服务。支持启动包括Llama、SDXL、Whisper等常见模型,具备自动批处理和后台作业等AI优化功能。用户可以通过Python客户端轻松调度服务,也能快速在云环境中部署。开发者可参考丰富的文档和示例库,灵活定制Photon类和Handler函数。
pyntcloud - Python 3D点云处理库
pyntcloud3D点云Python库数据处理conda-forgeGithub开源项目
Pyntcloud 是一个基于Python科学计算堆栈的3D点云处理库。通过简单代码可以执行复杂3D操作,如加载PLY文件、RGB转HSV、体素网格生成等。支持与Open3D和PyVista等3D处理库无缝集成。项目文档详尽,示例丰富,方便用户快速上手。安装简单,支持conda和pip,适合开发和研究使用。
FSL-Mate - 少样本学习资源平台,推动FSL研究发展
FSL-MateFewShotPapersPaddleFSL少样本学习Python库Github开源项目
FSL-Mate提供少样本学习的全面资源,包括FewShotPapers论文列表和PaddlePaddle基础的FSL库PaddleFSL。FSL-Mate项目持续更新,致力于简化少样本学习。最新更新涵盖了ICLR 2024、AAAI 2023、EMNLP 2023,以及ICCV和NeurIPS 2023的相关论文。
edward - 用于概率建模、推断和模型评估的Python库
EdwardPython库概率建模推断TensorFlowGithub开源项目
Edward 是一个用于概率建模、推断和模型评估的Python库。它融合了贝叶斯统计、机器学习、深度学习和概率编程,支持多种模型,如有向图模型、神经网络、隐式生成模型和贝叶斯非参数。Edward 提供变分推断、蒙特卡罗方法、生成对抗网络等多种推断方法,并支持模型和推断的评估。构建于TensorFlow之上,支持计算图、分布式训练、CPU/GPU集成和自动微分。
相关文章
NeMo-Curator学习资料汇总 - GPU加速的大语言模型数据处理工具包
2 个月前
gTTS 入门学习资料汇总 - 基于Google Translate的Python文本转语音库
2 个月前
Instructor入门指南 - 轻松构建结构化LLM输出
2 个月前
PyOD入门指南 - Python异常检测库的一句话介绍和学习资源
2 个月前
imgaug入门学习资料汇总-强大的图像增强库
2 个月前
Albumentations学习资源汇总 - 快速灵活的图像增强库
2 个月前
autolabel入门指南 - 使用LLMs快速标注文本数据集的Python库
2 个月前
DataDreamer入门学习资料 - 强大的开源Python库用于提示、合成数据生成和训练工作流
2 个月前
MedPy: 强大的Python医学图像处理库
3 个月前