Logo

#性能优化

Logo of LLaMA-Factory
LLaMA-Factory
LLaMA-Factory是一个高效的语言模型微调工具,支持多种模型和算法。该平台专注于提高微调速度,支持连续预训练、监督微调和激励建模等策略。LLaMA-Factory利用LoRA技术实现高效训练,并提供详尽的数据监控和快速推理能力。此外,新版本还增加了PiSSA算法,且支持多种开发平台如Colab和DSW,适合高质量文本生成和智能应用开发。
Logo of horovod
horovod
Horovod是一个分布式深度学习训练框架,提供对TensorFlow, Keras, PyTorch, Apache MXNet的支持。它优化了多GPU并行训练的过程,使得在多GPU上进行训练既快速又简单,无需重大代码修改。Horovod展示了高达90%的扩展效率,适合大规模深度学习应用,同时兼容NCCL和Gloo等高效的集合通信库,确保在各种环境下的高效运行。
Logo of paxml
paxml
Paxml是一个基于Jax的开源框架,致力于机器学习实验的配置与运行。该框架支持云TPU VM快速部署,同时提供PyPI和GitHub的稳定及开发版本下载。Paxml还包含丰富的文档资源和Jupyter Notebook教程,支持GPU加速,并可广泛适用于不同开发者的需求,是推动机器学习实验项目高效发展的优选工具。
Logo of ai-hub-models
ai-hub-models
Qualcomm® AI Hub Models提供了一系列性能优化的机器学习模型,适用于视觉、语音、文本和生成式AI。这些模型可以在Qualcomm设备上高效部署,并提供开源的量化、优化和部署指南。用户可以通过Hugging Face访问模型,并通过示例应用程序在本地设备上部署。支持多种操作系统和计算单元,兼容多款Snapdragon芯片,并提供详细的性能指标和文档。
Logo of web-check
web-check
Web-Check是一款综合性网站分析工具,提供深入的开源情报收集功能。它能够分析IP信息、SSL证书链、DNS记录、Cookie、爬虫规则等多个方面,帮助揭示潜在安全风险、了解服务器架构和技术栈。这个工具适用于网站管理员、安全研究人员和开发者,用于全面评估、优化和加强网站安全性。Web-Check通过直观的界面展示复杂数据,使用户能够轻松获取有价值的网站洞察。
Logo of CTranslate2
CTranslate2
CTranslate2是一个用于Transformer模型高效推理的C++和Python库,通过权重量化、层融合、批次重排序等技术,显著提升CPU和GPU上的执行速度并减少内存占用。支持多种模型类型,包括编码器-解码器、仅解码器和仅编码器模型,兼容OpenNMT-py、OpenNMT-tf、Fairseq等框架。其主要特点包括自动CPU检测、代码分发、并行和异步执行以及动态内存使用。
Logo of solid
solid
SolidJS 是一个高性能的声明式 JavaScript UI 框架。它通过编译模板到真实 DOM 节点并采用细粒度反应式更新,实现卓越性能。开发者可在应用中声明和使用状态,仅在状态变化时更新相关代码。SolidJS 集成了 JSX、上下文、Suspense、SSR 等现代特性,同时保持简洁易学和高度可组合性。
Logo of swift-identified-collections
swift-identified-collections
swift-identified-collections库为Swift开发者提供高性能数据结构,用于管理唯一标识元素集合。它解决了普通数组处理可识别元素的性能和稳定性问题。核心组件IdentifiedArray结合了OrderedDictionary的优势,提供了更易用的API。该库适用于SwiftUI应用和Composable Architecture框架开发,提高了代码效率和可靠性。
Logo of nix-output-monitor
nix-output-monitor
nix-output-monitor工具通过处理nix-build输出,提供Nix构建过程的实时监控。它显示构建树、下载状态和时间统计,支持Nix v1和v2命令。这个工具可以帮助开发者和系统管理员更好地理解和管理Nix构建过程。
Logo of You-Dont-Need-Momentjs
You-Dont-Need-Momentjs
本项目对比了原生JavaScript、Luxon、date-fns和dayjs等替代Moment.js的轻量级日期时间处理方案。通过功能和性能的详细比较,以及代码示例,帮助开发者选择合适的替代方案,优化应用性能和打包大小。
Logo of 1brc
1brc
本文介绍了一个使用Go语言实现1BRC(10亿行挑战)的开源项目。通过13次迭代优化,项目将数据处理时间从6分13秒缩短至12秒。文章详细记录了并发处理、内存管理、数据类型转换等优化技巧,为大规模数据处理提供了实用的性能优化方案。项目展示了Go语言在处理大数据时的高效性,为相关领域的开发者提供了valuable参考。
Logo of pg_jsonschema
pg_jsonschema
pg_jsonschema 是一个 PostgreSQL 扩展,为 json 和 jsonb 数据类型提供 JSON Schema 验证支持。该扩展基于 Rust 的 jsonschema crate 实现,提供高性能的验证功能,尤其在复杂模式下表现突出。它支持最新的 JSON Schema 规范,可用于约束数据库列符合特定模式,是处理 PostgreSQL 中 JSON 数据验证的有力工具。
Logo of EET
EET
EET是一个专注于Transformer模型的PyTorch推理加速引擎。它支持百川、LLaMA等大规模语言模型,提供int8量化功能,可在单GPU上高效运行超大模型。EET通过CUDA内核优化和量化算法显著提升多模态及NLP任务的推理性能,为Transformers和Fairseq提供开箱即用的加速方案。使用EET只需几行代码即可实现模型的高效部署与推理。
Logo of Google AI Gemma
Google AI Gemma
Google AI Gemma 网站展示了一系列高性能AI开放模型,旨在提供针对复杂数据、编程和科学计算的优化解决方案。Gemma系列模型,包括Gemma 1和Gemma 2,以不同的模型大小提供卓越性能,具备前沿的技术和可靠的设计,确保AI使用的安全性和责任感。
Logo of burn
burn
Burn,一个全面而高效的基于Rust的深度学习框架,致力于提供前所未有的灵活性和便携性。配备了自动内核融合、异步执行以及线程安全技术,极大提升了性能。此外,Burn通过智能内存管理和硬件优化,支持多后端架构,确保无论是云端训练还是各种硬件部署,均可实现最佳表现。
Logo of jieba-rs
jieba-rs
jieba-rs 是一个用 Rust 编写的中文分词库,提供快速和准确的分词功能。使用方法简单,通过添加到 Cargo.toml 即可使用。支持 TF-IDF 和 TextRank 关键字提取等功能,性能优异,比 cppjieba 快 33%。适用于多种开发环境,包括 NodeJS、PHP、Python 和 WebAssembly。
Logo of YOLOv5-Lite
YOLOv5-Lite
YOLOv5-Lite通过优化YOLOv5模型实现了轻量化、加速推理和简化部署。通过消融实验减少了Flops、内存占用和参数,并采用Shuffle Channel和YOLOv5 Head降低Channels。在Raspberry Pi 4B上输入320×320帧能达到至少10+ FPS。该项目提供各种测试模型和对比结果,展示在多种硬件平台上的性能,并包含详细的教程和下载链接。
Logo of ConsoleAppFramework
ConsoleAppFramework
ConsoleAppFramework是一个基于C#源代码生成器的命令行应用框架。它实现了零依赖、零开销、零反射和零分配,充分利用.NET 8和C# 12的新特性,提供出色的性能和小巧的二进制文件。框架功能丰富,包括信号处理、过滤器管道、多命令支持和依赖注入等。ConsoleAppFramework保持了灵活性和可扩展性,适合构建各种高效的命令行应用。
Logo of react-hook-form
react-hook-form
React Hook Form 是一个为 React 应用设计的轻量级表单处理工具。它专注于提升性能和优化用户及开发体验,支持原生 HTML 表单验证,可与多种 UI 库集成。这个小巧无依赖的库兼容多种主流验证工具,通过简洁的 API 实现高效灵活的表单管理。
Logo of useWorker
useWorker
useWorker是一个为React应用优化的Web Worker Hook库。它允许在不阻塞UI的情况下执行耗时操作,支持Promise模式,并提供简洁API。该库特点包括小体积、TypeScript支持、自动回收Worker实例,以及远程依赖和超时设置等功能。useWorker为开发者提供了在React项目中高效利用Web Workers的简便方法。
Logo of AGEIPort
AGEIPort
AGEIPort是阿里巴巴开源的数据导入导出框架,采用事件驱动架构设计。它支持集群和单机执行模式,提供实时任务进度反馈,并针对toB业务场景提供灵活定制。该框架在阿里巴巴集团内部广泛应用,月处理数据量达300-400亿条。AGEIPort通过标准化流程和接口设计,提高了开发效率和代码可维护性,适用于各类数据处理需求。
Logo of next-nprogress-bar
next-nprogress-bar
next-nprogress-bar是一款为Next.js应用开发的进度条组件,支持/app和/pages目录结构。它具有简洁的API,允许自定义样式和行为,适应不同的路由需求。该组件提供浅层路由、延迟显示等功能,并为app目录结构提供专用路由器。易于集成,可有效增强Next.js项目的用户体验。
Logo of react-virtuoso
react-virtuoso
React Virtuoso是一个全面的虚拟化渲染组件库,适用于列表、表格和网格。它支持变量大小项目、聊天消息列表、分组模式和响应式布局。该库具有自动内容调整、自定义组件、固定顶部项目和无限滚动等功能。React Virtuoso易于集成,并提供详细文档和示例,适合开发高性能的长列表和大数据展示界面。
Logo of pixelmatch
pixelmatch
pixelmatch是一款轻量级JavaScript图像对比工具,支持像素级比较和抗锯齿检测。无外部依赖,适用于浏览器和Node.js,支持原始数组处理,性能出色。可用于自动化测试等场景,内置命令行工具方便操作。
Logo of ml-stable-diffusion
ml-stable-diffusion
ml-stable-diffusion是一个开源项目,旨在优化Stable Diffusion模型在Apple设备上的运行。它包含用于模型转换的Python工具和用于iOS/macOS应用集成的Swift包。通过权重压缩等技术,该项目显著提升了性能和内存效率,使开发者能够在Apple平台应用中实现高质量的AI图像生成。
Logo of vectordb
vectordb
Epsilla,这款开源矢量数据库以其高性能的向量检索、成本效率及可扩展性而备受欢迎。拥有完整的数据库管理系统功能并支持深度学习与自然语言处理查询,Epsilla同时实现云原生的无服务器多租户架构,并与多种生态系统无缝集成。
Logo of Medusa
Medusa
Medusa框架通过多解码头技术加速大型语言模型(LLM)的生成,解决了草稿模型需求、系统复杂性和采样生成效率低的问题。在保持原模型性能的基础上,Medusa通过添加新解码头预测多个未来词,显著提升生成速度。最新的Medusa-2版本支持全模型训练和自我蒸馏,使任何微调后的LLM都能利用Medusa,无需原始训练数据。测试显示在不同LLM上提升了2.2-3.6倍的速度。
Logo of TNN
TNN
TNN,腾讯优图实验室开源的神经网络推理框架,提供针对移动设备和X86/NV GPUs的高效性能优化。该框架已被QQ、微视等多款应用使用,并支持各大平台包括TensorFlow、Pytorch、MxNet。
Logo of rag-experiment-accelerator
rag-experiment-accelerator
RAG Experiment Accelerator是一款面向研究人员、数据科学家和开发者的多功能工具,旨在利用Azure AI Search和RAG模式提升搜索查询实验和评估的效率。主要功能包括实验设定、Azure服务集成、搜索索引创建、多种文档加载器支持、自定义查询生成、多种搜索类型支持,以及细致的结果评估,且全程自动生成报告。最新的更新增加了内容采样功能,确保实验样本的代表性。
Logo of yjit
yjit
YJIT 是 Ruby 3.1+ 的一个官方组件,通过动态编译显著提升 Ruby 应用性能。用户可以参考 YJIT README 获取构建和使用方法。任何问题或错误可在 Shopify/ruby 仓库提交。YJIT 旨在优化动态类型语言的执行效率,特别适用于高性能生产环境。
Logo of partytown
partytown
Partytown是一个开源库,专门用于将资源密集型的第三方脚本从主线程转移到Web Worker中。通过懒加载技术,它优化网站性能,使主线程集中于核心代码执行。这种方法可以提高网页加载速度并改善用户体验。尽管Partytown仍在beta阶段,但已显示出作为网站性能优化解决方案的潜力。
Logo of paratest
paratest
ParaTest是一个专为PHPUnit设计的并行测试工具。它无需额外配置即可自动并行化测试用例或功能测试,显著提高测试效率。该工具支持代码覆盖率报告合并,可在多个并行进程中运行测试并生成统一报告。ParaTest安装简便,提供详细调试信息,并支持PHPStorm集成。对于需要优化PHP项目测试流程的开发者来说,ParaTest是一个值得考虑的开源解决方案。
Logo of pingora
pingora
Pingora是一个Rust编写的网络系统开发框架,提供HTTP 1/2代理、TLS支持、gRPC和WebSocket代理等功能。它以安全性、性能和可定制性见长,适合构建高效可靠的网络服务。Pingora在CloudFlare的生产环境中每秒处理超4000万请求,支持多种可观测性工具,并具备灵活的负载均衡和故障转移策略。
Logo of angular-movies
angular-movies
angular-movies是一个基于Angular和RxAngular的开源电影应用,利用TMDB API提供数据。项目实现了多项性能优化,如bundle size缩减和渲染效率提升,在与Next.js和Nuxt.js版本的对比中表现出色。这个示例应用为开发者提供了学习Angular和RxAngular最佳实践的机会,同时欢迎社区贡献。
Logo of CachedRepository
CachedRepository
CachedRepository项目展示了一种优化数据访问性能的缓存模式。该项目利用EF Migrations创建种子数据,实现了5秒周期的缓存刷新机制,有效提升数据加载速度。项目提供详细运行指南,帮助开发者学习如何在实际应用中实施CachedRepository模式,以改善应用程序响应时间和整体性能。
Logo of awesome-dot-net-performance
awesome-dot-net-performance
这是一个精选的 .NET 性能优化资源列表,汇集了书籍、课程、培训、会议演讲、博客及开源贡献者。涵盖基准测试、监控、调试、JIT 优化、线程和内存管理等多个领域。列表提供丰富的学习资料和工具,旨在帮助开发者提升 .NET 应用的性能和可扩展性。
Logo of ucall
ucall
UCall是一个基于JSON-RPC的远程过程调用库,性能显著优于FastAPI和gRPC。该库支持原生类型及numpy数组、PIL图像等自定义类型,适用于实际应用开发和多模态AI部署。UCall通过io_uring实现高效IO,并采用SIMD加速解析,即使在免费层服务器上也能实现卓越性能。此外,UCall还提供了简洁的Python接口和命令行工具,大大简化了远程调用过程。
Logo of criterion.rs
criterion.rs
Criterion.rs 是一个 Rust 基准测试库,提供统计分析和图表生成功能。它能精确检测和测量性能变化,支持稳定版 Rust,使用简便且结果可靠。开发者可借助 Criterion.rs 优化代码性能,及时发现性能退化问题。
Logo of llm-applications
llm-applications
本教程详细展示如何从零基础开发和部署基于检索增强生成(RAG)的LLM应用程序,并使用Anyscale技术优化其性能。揭示如何综合开发、调整各关键组件、评估性能,并高效地进行服务上线,确保应用的卓越性能和极致的扩展性。
Logo of DAMO-YOLO
DAMO-YOLO
DAMO-YOLO, 阿里巴巴DAMO实验室的先进对象检测技术,基于YOLO系列和嵌入包括神经网络架构搜索及轻量级算法在内的多项新技术,以优化性能和效率。针对广泛行业场景,提供一站式解决方案,从训练到部署全面支持。
Logo of basalt
basalt
Basalt是一个独立的机器学习框架,利用Mojo语言进行从头开发,性能媲美PyTorch等成熟框架。基于MLIR技术,Basalt通过静态图优化性能。目前,项目正在持续更新,计划支持更多操作符、图子模块和GPU等特性。尝试使用Basalt为机器学习项目带来显著加速效果。
Logo of go-audit
go-audit
go-audit是一个用Go语言编写的Linux审计日志系统,旨在替代传统的auditd守护进程。它具有类型安全和高性能的特点,输出JSON格式日志,支持多种输出方式如syslog、本地文件和Graylog2等。通过netlink与Linux内核通信,go-audit提供了安全、快速和灵活的审计日志功能。
Logo of Performance-Fish
Performance-Fish
Performance Fish是一款专为Rimworld开发的性能优化模组。通过改进游戏中的各种方法,该模组旨在提高整体帧率和运行速度,同时保持原有功能不变。适用于大型模组列表,Performance Fish与其他性能模组兼容,尤其在游戏后期发挥显著效果。模组提供灵活的设置菜单,允许自由切换各个补丁。此外,它还为Dub's Performance Analyzer增添了新功能,进一步增强了性能分析能力。该模组与大多数流行模组兼容,包括Combat Extended和Vanilla Expanded系列,但不兼容RimThreaded等少数模组。
Logo of signals
signals
Signals是一个开源的状态管理库,专注于简化应用的业务逻辑编写。它通过自动优化状态更新来提升性能,并能像原生功能一样集成到多个框架中。Signals提供信号、计算属性和副作用等核心功能,以及批处理和未跟踪执行等高级特性,支持Preact、React和Svelte等主流框架。
Logo of go-json
go-json
go-json是一个高性能JSON编解码库,完全兼容Go标准库encoding/json。它采用多项优化技术提升性能,如缓冲区重用、反射消除和指令序列编码。该库还支持自定义选项、彩色输出和动态过滤结构体字段。go-json为Go开发者提供了处理JSON数据的高效替代方案。
Logo of fast-average-color
fast-average-color
fast-average-color是一个高效的JavaScript库,用于计算图像和视频的平均或主导色彩。支持多种资源类型和计算算法,适用于浏览器环境,并兼容Web Workers和Node.js。该库具有轻量级、性能优秀的特点,适合各种色彩分析需求。
Logo of swift-protobuf
swift-protobuf
swift-protobuf是为Swift语言提供Protocol Buffer支持的开源库。它包含代码生成工具和运行时库,注重性能和安全性。支持二进制和JSON序列化,提供Swift值语义,并与其他平台的Protocol Buffer实现兼容,便于跨平台数据交换。该库简化了Swift项目中使用Protocol Buffers的过程,适用于需要高效序列化的应用场景。
Logo of UniTask
UniTask
UniTask是专为Unity设计的高效异步编程工具。它通过结构体实现零内存分配的async/await集成,支持Unity的异步操作和协程。基于PlayerLoop的任务系统可替代所有协程操作,完全运行在Unity引擎循环中,无需额外线程,兼容WebGL等平台。UniTask还提供异步LINQ、Channel等功能,并包含TaskTracker窗口用于防止内存泄漏。
Logo of coil
coil
Coil是一款专为Android和Compose Multiplatform开发的图像加载库。它通过内存和磁盘缓存、图像下采样以及自动管理请求等技术实现高效加载。该库仅依赖Kotlin、Coroutines和Okio,可与R8等代码压缩工具完美配合。Coil的API设计充分利用Kotlin语言特性,简化了使用流程,并能与Coroutines、Okio、Ktor和OkHttp等现代库无缝集成。
Logo of compose-performance
compose-performance
compose-performance项目汇集了Jetpack Compose性能优化资源,包括官方文档、技术文章和开源工具。内容涵盖Compose机制解析、稳定性问题诊断、重组优化等关键主题。项目还介绍了强跳过模式、基线配置文件等高级技术,旨在帮助开发者提升Compose应用性能。此外,项目提供了相关演讲资料和开源库,为开发高效Compose UI提供全面指导。