Logo

#开源项目

Logo of RAVE
RAVE
RAVE是一个高效的变分自动编码器,专为快速高质量的神经音频合成设计。支持Windows、Mac和Linux平台的RAVE VST版本,可应用于音乐表演和装置。提供详细教程和多种训练配置,包括数据增广选项。用户可以在Max/MSP或PureData中实时使用RAVE进行风格迁移和高层次操控。多个预训练模型可供下载,支持批量音频文件转换和实时嵌入式平台应用。
Logo of fastbook
fastbook
本项目提供涵盖fastai和PyTorch的深度学习教程,适合初学者与进阶用户。可通过Google Colab在线运行,无需本地配置Python环境。项目还包括MOOC课程及相关书籍,系统化帮助用户学习深度学习技术。
Logo of ragflow
ragflow
RAGFlow是一个基于深度文档理解的开源RAG引擎,适用于各种规模的企业。结合大型语言模型,它提供可靠的问答功能和可信的引用。RAGFlow支持多种数据格式,包括文本、图片和音频文件,并且兼容本地和远程LLM,提供自动化、无缝集成的RAG工作流,便于通过直观的API进行业务整合。
Logo of LoRA
LoRA
LoRA通过低秩分解矩阵实现大型语言模型的低秩适配,减少了训练参数数量,实现高效的任务切换和存储节省。它在GLUE基准测试中的表现与完全微调相当或更好,同时显著降低了参数需求。LoRA支持RoBERTa、DeBERTa和GPT-2等模型,并已集成到Hugging Face的PEFT库中,提供了便捷的适配解决方案。
Logo of Deep_reinforcement_learning_Course
Deep_reinforcement_learning_Course
免费深度强化学习课程,结合理论与实践,掌握Stable Baselines3、RL Baselines3 Zoo、Sample Factory和CleanRL等库的使用。训练智能体在SnowballFight、Huggy the Doggo、MineRL(Minecraft)、VizDoom(Doom)及经典环境(如Space Invaders、PyBullet)中运行。发布和下载社区智能体,并参与挑战与其他团队及AI对抗。
Logo of deep-chat
deep-chat
Deep Chat是一款高度可定制的AI聊天组件,能够无缝集成到任何网站。支持连接多种API,包括流行的ChatGPT等AI服务,提供摄像头捕捉、语音输入输出、文件传输等功能。全新2.0版本优化了用户体验和配置选项,带来卓越的聊天体验。
Logo of openpose
openpose
OpenPose是首个实现实时多人人体、手部、面部和足部关键点检测的系统,能够在单张图像上检测135个关键点。其功能包括2D和3D姿态估计、支持Unity插件和多种输入输出方式,兼容多个操作系统和硬件配置,适用于研究和开发项目。
Logo of cog-face-to-many
cog-face-to-many
face-to-many项目可以将任何面部图像转换为3D、像素艺术、电子游戏、粘土动画和玩具效果。该项目可在Replicate和ComfyUI上运行,提供了必要的自定义节点,如ComfyUI Controlnet Aux、InstantID和IPAdapter Plus等。通过克隆仓库、创建虚拟环境并安装依赖项,用户可以在本地运行该项目。详细的安装和运行指南帮助用户快速启动并体验项目功能。
Logo of ML-From-Scratch
ML-From-Scratch
本项目使用Python从零实现多个机器学习模型与算法,旨在展示其内部运作。涵盖监督学习、非监督学习、强化学习和深度学习,并提供多项式回归、CNN分类、生成对抗网络等实际案例,适合希望深入理解机器学习原理的开发者和爱好者。
Logo of VideoPipe
VideoPipe
VideoPipe 是一个用 C++ 编写的开源视频分析和结构化框架,依赖少且易于上手。适用于视频结构化、图片搜索、人脸识别、交通和安防领域的行为分析。支持多种视频流协议和解码方式,集成深度学习和传统图像算法,具备目标检测、图像分类、特征提取等功能。插件化设计允许根据需求灵活组合,适用于多种平台,性能优良,广泛适用于各类应用场景。
Logo of book
book
本书详细记录了Podwise产品从灵感到实现变现的全过程。Podwise是一款专为播客听友设计的AI知识管理应用,通过转录、提取、总结等功能帮助高效管理播客内容。书中涵盖灵感、构建、发布、增长和复盘五个阶段,适合关注前沿科技、创业故事和产品增长的读者。加入硬地骇客社区,与Hacker们一起探讨技术、产品和商业,寻找利基市场,构建小而美的生意。
Logo of CLIP
CLIP
CLIP通过对比学习训练神经网络,结合图像和文本,实现自然语言指令预测。其在ImageNet零样本测试中的表现与ResNet50相当,无需使用原始标注数据。安装便捷,支持多种API,适用于零样本预测和线性探针评估,推动计算机视觉领域发展。
Logo of Qix
Qix
页面提供丰富的深度学习、机器学习、Golang、PostgreSQL数据库、分布式系统和数据库系统的学习资源。用户可找到相关文档的中文翻译和详细章节链接。项目欢迎PR贡献,如发现错误信息,请通过反馈联系作者。
Logo of TTS
TTS
🐸TTS库提供多达16种语言的高级文本到语音转换模型,支持低于200毫秒的流媒体延迟。它包含丰富的工具用于模型训练和微调,并且拥有超过1100种预训练模型,适用于多语言和多说话人TTS任务。此外,该库还支持高效的语料库分析和管理,为语音合成提供全面支持。
Logo of pytorch-handbook
pytorch-handbook
本开源书籍为使用PyTorch进行深度学习开发的用户提供系统化的入门指南。教程内容覆盖了从环境搭建到高级应用的各个方面,包括PyTorch基础、深度学习数学原理、神经网络、卷积神经网络、循环神经网络等,还包含实践案例与多GPU并行训练技巧。书籍持续更新,与PyTorch版本同步,适合所有深度学习研究者。
Logo of CVPR2024-Paper-Code-Interpretation
CVPR2024-Paper-Code-Interpretation
获取CVPR 2024最新论文的下载链接和详细解读。持续更新的内容包括技术直播分享、论文分类汇总及各研究方向的深入分析,帮助用户快速了解计算机视觉领域的最新动态。
Logo of TensorFlow-Tutorials
TensorFlow-Tutorials
这些教程为深度学习和TensorFlow 2 的新手提供全面指导,涵盖简单线性模型、自然语言处理和图像生成等主题。每个教程附有详细代码示例和相应的YouTube视频讲解,帮助学习者快速掌握。适合希望深入了解TensorFlow及其应用的开发者和研究人员。
Logo of lance
lance
Lance是为机器学习工作流程优化的现代列式数据格式,提供比Parquet快100倍的随机访问性能,支持矢量索引和数据版本控制。兼容pandas、DuckDB、Polars和pyarrow,适用于搜索引擎、大规模机器学习训练以及复杂数据的存储和查询,如机器人数据和大型图像。更多集成支持即将推出。
Logo of caffe
caffe
Caffe是由伯克利AI研究中心和社区贡献者开发的深度学习框架,强调高效表达、速度和模块化。用户可以通过项目网站获取详细信息,包括DIY深度学习教程、文档、参考模型和社区模型库。Caffe提供多种自定义版本,例如优化CPU和多节点支持的Intel Caffe、适用于AMD和Intel设备的OpenCL Caffe,以及Windows Caffe。社区用户可通过Gitter聊天和Google论坛进行交流,提交问题和建议。项目遵循BSD 2-Clause许可证,鼓励在研究中引用。
Logo of fastai
fastai
fastai是一个深度学习库,提供高层组件以快速实现高性能结果,同时为研究人员提供可组合的低层组件。通过分层架构和Python、PyTorch的灵活性,fastai在不牺牲易用性、灵活性和性能的情况下,实现了高效的深度学习。支持多种安装方式,包括Google Colab和conda,适用于Windows和Linux。学习资源丰富,包括书籍、免费课程和详细文档。
Logo of TornadoVM
TornadoVM
TornadoVM是一个针对OpenJDK和GraalVM的插件,能够在异构硬件上自动运行Java程序。它支持OpenCL、PTX和SPIR-V设备,包括多核CPU、专用GPU(如Intel、NVIDIA、AMD)、集成GPU(如Intel HD Graphics和ARM Mali)和FPGA(如Intel和Xilinx)。TornadoVM具有三个后端,可生成OpenCL C、NVIDIA CUDA PTX汇编和SPIR-V二进制文件,开发人员可以选择安装和运行所需的后端。
Logo of d2l-en
d2l-en
这本开源书籍使用Jupyter笔记本无缝整合深度学习的概念、背景和代码,免费提供给所有人。书中包含可运行代码、技术深度和社区讨论,帮助读者解决实际问题并成长为应用机器学习科学家。
Logo of trieve
trieve
Trieve 提供自托管解决方案,支持语义密集向量搜索、拼写容错搜索、子句高亮显示、推荐、RAG API 路由等功能。用户可自定义模型并优化混合搜索,Trieve 还支持流行度排名、重复检测等,适用于本地或公司VPC的高效搜索基础设施搭建。
Logo of keras
keras
Keras 3 提供高效的模型开发,支持计算机视觉、自然语言处理等任务。选择最快的后端(如JAX),性能提升高达350%。无缝扩展,从本地到大规模集群,适合企业和初创团队。安装简单,支持GPU,兼容tf.keras代码,避免框架锁定。
Logo of EasyOCR
EasyOCR
EasyOCR是一款支持80多种语言和主要书写系统(如拉丁文、中文、阿拉伯文等)的光学字符识别(OCR)工具。它提供简单的安装和使用指南,帮助快速实现文本检测与识别,适用于多种场景。最新版本增加了Apple Silicon支持并修复了兼容性问题。未来版本将支持手写文本识别,进一步增强其功能。
Logo of bytom
bytom
Bytom是一种区块链协议,支持用户定义、发行和转移数字资产。其官方golang实现提供关键管理、账户及资产管理、交易发送等功能,可通过Homebrew或源码安装。项目正在积极开发中,提供详细的安装和运行指南,并欢迎社区贡献。
Logo of handson-ml
handson-ml
该项目通过Python教授机器学习基本原理,包含《Hands-on Machine Learning with Scikit-Learn and TensorFlow》书中的示例代码和习题解答。用户可以使用Colab、Binder和Deepnote在线体验这些notebooks,或通过Anaconda在本地安装项目进行学习。详细介绍了安装步骤和常见问题解决方法,帮助用户理解和应用机器学习技术。
Logo of ml-agents
ml-agents
Unity ML-Agents Toolkit是一个开源项目,利用游戏和模拟环境训练智能代理。集成了基于PyTorch的先进算法,用户可以轻松训练2D、3D和VR/AR游戏中的智能代理。支持强化学习、模仿学习和神经进化等方法,适用于NPC行为控制、自动化测试和游戏设计评估。该工具包为游戏开发者和AI研究人员提供了一个共享平台,助力在Unity丰富环境中测试AI进展,并惠及广泛的研究和开发社区。
Logo of leedl-tutorial
leedl-tutorial
李宏毅教授的深度学习教程,基于《机器学习》(2021年春)并进行了优化,涵盖卷积神经网络、生成模型和自监督学习等多个领域。教程通过详细推导和重点讲解,降低了学习难度,适合中文学习者入门深度学习。
Logo of TTS
TTS
TTS库基于最新研究成果,提供高效的文本到语音生成技术,实现了训练便捷、速度快、质量高的最佳平衡。该库包括预训练模型和数据集质量评估工具,已被广泛应用于20多种语言的产品和研究项目。支持多说话人TTS、快速模型训练、多GPU训练,并兼容PyTorch、TensorFlow和TFLite等多种平台。
Logo of streamlit
streamlit
Streamlit能够在几分钟内将Python脚本转变为交互式Web应用程序,大大缩短开发时间。用户可以创建仪表板、生成报告或开发聊天应用,并通过Community Cloud平台部署和管理这些应用。Streamlit简洁易用,支持快速原型设计和实时编辑,完全开源且免费,是开发各类数据应用的理想工具。
Logo of mediapipe
mediapipe
MediaPipe为开发者提供了一个平台,支持在移动、Web、桌面、边缘设备和物联网中集成机器学习功能。通过跨平台API和预训练模型,可快速部署和定制AI解决方案。MediaPipe还包含模型定制工具和浏览器内的可视化评估工具,支持高效开发和迭代。欢迎访问Google官方文档了解更多,并参与社区交流和贡献。
Logo of chidori
chidori
Chidori是一个开源编排器、运行时和IDE,专为构建AI代理而设计,提供状态空间探索、执行暂停与恢复等功能。支持Python和JavaScript代码执行,并具备时间旅行调试和可视化调试环境。Chidori帮助开发者创建和管理复杂的长时间运行工作流,简化AI模型的集成和操作。
Logo of opencv
opencv
OpenCV是开源的计算机视觉库,提供详尽的文档、在线课程和活跃的Q&A论坛。用户可在GitHub上报告问题和贡献代码,需遵循明确的贡献指南。此外,OpenCV支持提交社区项目和参与志愿者活动,通过多个平台获取最新的计算机视觉与AI动态。
Logo of Paddle
Paddle
PaddlePaddle是中国首个自主研发并开源的深度学习平台,提供先进技术和多样功能,包括核心框架、模型库、开发工具和服务平台。该平台广泛应用于制造、农业、企业服务等行业,已服务超过1070万开发者和23.5万企业,生成86万个模型。PaddlePaddle支持超大规模训练、兼容第三方模型、提供高性能推理引擎,并拥有丰富的行业模型库和开源资源,推动AI商业化。
Logo of distilabel
distilabel
Distilabel是专为AI工程师设计的开源框架,用于数据合成和反馈。该框架提供高质量输出、数据所有权和高效性,适用于预测和生成模型。通过提升数据质量和整合多种LLM反馈,Distilabel提高AI输出质量。支持与最新研究的整合,确保灵活性、可扩展性和容错能力。欢迎加入开源社区,参与数据集和模型的构建,享受社区资源和支持。
Logo of DeepFaceLab
DeepFaceLab
DeepFaceLab是一款广泛使用的深度换脸软件,支持面部替换、年轻化、头部替换等多种操作。超过95%的深度伪造视频都是通过DeepFaceLab制作,受到YouTube和TikTok创作者的欢迎。该软件支持多种平台,并提供丰富的教程和指南,适合视频编辑爱好者和专业人士。通过学习工作流程和提升技能,用户可以在AfterEffects或Davinci Resolve等视频编辑软件中获得最佳效果。
Logo of deep-learning-for-image-processing
deep-learning-for-image-processing
本教程介绍深度学习在图像处理中的应用,涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练。课程内容包括图像分类、目标检测、语义分割、实例分割和关键点检测,适合研究生和深度学习爱好者。所有PPT和源码均可下载,助力学习和研究。
Logo of pytorch-CycleGAN-and-pix2pix
pytorch-CycleGAN-and-pix2pix
该项目提供了PyTorch框架下的CycleGAN和pix2pix图像翻译实现,支持配对和无配对的图像翻译。最新版本引入img2img-turbo和StableDiffusion-Turbo模型,提高了训练和推理效率。项目页面包含详细的安装指南、训练和测试步骤,以及常见问题解答。适用于Linux和macOS系统,兼容最新的PyTorch版本,并提供Docker和Colab支持,便于快速上手。
Logo of cheatsheets-ai
cheatsheets-ai
提供详尽的深度学习和机器学习速查表,包括Tensorflow、Keras、Numpy等热门工具,帮助工程师和研究人员快速掌握核心知识,提高工作效率。访问AI Cheatsheets获取更多资源和最新技术信息,适用于各水平从业者。
Logo of MLAlgorithms
MLAlgorithms
该项目提供简洁清晰的机器学习算法实现代码,适合希望学习算法内部机制或从头实现算法的用户。所有算法均用Python编写,依赖于numpy、scipy和autograd库。包括深度学习、线性回归、逻辑回归、随机森林、支持向量机、K-Means、GMM、KNN、朴素贝叶斯、PCA、因子分解机、受限玻尔兹曼机、t-SNE、梯度提升树和深度Q学习等算法。
Logo of petals
petals
Petals项目让用户能够在家中或通过Google Colab运行Llama 3.1、Mixtral、Falcon和BLOOM等大型语言模型。通过分布式网络托管模型层,推理速度可提升至10倍。用户可以微调模型以满足特定任务需求,并且支持隐私保护和私人群组设置。该项目依赖社区共享GPU资源,提供详细的教程和支持,帮助用户快速上手并充分利用其功能。
Logo of stanford_alpaca
stanford_alpaca
Stanford Alpaca项目提供了一个基于52K指令数据微调的7B LLaMA模型。该项目包含数据生成代码、模型微调代码和从权重差异恢复Alpaca-7B权重的代码。模型基于Self-Instruct技术生成的数据进行微调,仅限于研究用途。注意模型尚未经过安全性微调,使用时需谨慎。
Logo of DeepSpeech
DeepSpeech
DeepSpeech是一个开源语音转文字引擎,基于百度的Deep Speech研究,并利用Google TensorFlow实现。提供详细的安装、使用和训练模型文档。最新版本及预训练模型可在GitHub获取,支持和贡献指南请参阅相应文件。
Logo of ai-renamer
ai-renamer
基于Node.js的CLI工具,利用Ollama和LM Studio模型(如Llava、Gemma、Llama等)智能识别并重命名文件。支持重命名视频、图片及其他文件,适用于Ollama或LM Studio用户,并可配置OpenAI及自定义端口。通过简单的命令行操作,提供灵活的文件命名方式和多种参数设置,满足用户需求。
Logo of annotated_deep_learning_paper_implementations
annotated_deep_learning_paper_implementations
该项目提供详细文档和解释的简明PyTorch神经网络及算法实现,涵盖Transformer、GPT-NeoX、GAN、扩散模型等前沿领域,并每周更新新实现,帮助研究者和开发者高效理解深度学习算法。
Logo of 500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code
500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code
该项目集合包括超过500个人工智能项目,涵盖机器学习、深度学习、计算机视觉和自然语言处理等多个领域。每个项目均附带代码链接,适合各层次开发者使用。项目持续更新,确保所有链接有效,用户也可提交请求和贡献代码。
Logo of gpupixel
gpupixel
GPUPixel是一个实时高性能图像和视频滤镜库,基于OpenGL/ES开发,支持iOS、Android、Mac、Windows和Linux平台。采用C++11编写,内置商用级美颜滤镜。GPUPixel体积小巧,易于编译和集成,适合需要跨平台滤镜功能的开发者。
Logo of GFPGAN
GFPGAN
GFPGAN利用预训练的StyleGAN2等人脸生成网络进行盲人脸修复。项目提供多种在线演示,包括Huggingface Gradio和Colab,支持增强背景区域,适用于各种质量的图像输入。最新1.4版本生成更多细节并保持身份一致性。无需CUDA扩展的清洁版本适用于多平台运行。
Logo of supervision
supervision
Supervision 是一个模型无关的计算机视觉工具包,支持分类、检测和分割模型的集成。用户可以加载数据集、可视化检测结果并进行区域统计。该工具包提供了丰富的注释和数据集处理功能,适用于零售和交通管理等领域。了解更多关于使用 Supervision 加速计算机视觉应用开发的信息。