#开源项目
open-instruct - 开源指令微调大语言模型的完整工具集
模型微调语言模型开源项目AI训练评估基准Github
open-instruct是一个致力于指令微调预训练语言模型的开源项目。它提供了基于最新技术和公开数据集的模型微调代码,以及多项基准测试的评估工具。项目发布了包括Tülu系列在内的多个微调模型检查点。open-instruct支持全参数微调、LoRA和QLoRA等高效方法,并提供完整的训练和评估脚本。该工具集为研究人员和开发者提供了探索指令调优大语言模型的全面解决方案。
chatgpt-google-summary-extension - ChatGPT驱动的多平台网页内容智能摘要与翻译工具
GlarityChatGPT浏览器扩展网页摘要AI辅助Github开源项目
Glarity是一款开源的ChatGPT摘要扩展程序,支持YouTube、Google、Twitter等多个平台。该工具能够跨语言生成视频、搜索结果、PDF、邮件和网页的摘要,同时提供并排翻译、邮件写作辅助和网页内容问答等功能。Glarity兼容Chrome、Firefox以及iOS和macOS的Safari浏览器,旨在帮助用户快速获取关键信息,提升信息处理效率。
fish-diffusion - 开源框架简化TTS、SVS和SVC模型开发
Fish Diffusion语音合成AI模型开源项目多说话人Github
Fish Diffusion是一个开源的语音合成训练框架,专注于TTS、SVS和SVC任务。基于扩散模型,它支持多说话人合成和44.1kHz高品质输出。该项目优化了代码结构,提高了训练效率,并提供完整的环境配置和使用指南。Fish Diffusion适合研究人员和开发者探索语音合成技术,同时强调负责任的AI应用。项目特点包括简化的代码结构、多设备训练支持和半精度训练,有助于提高开发效率和降低资源消耗。此外,还提供了详细的数据集准备和模型训练指南,便于用户快速上手。
packaged - 将Python应用打包成独立可执行文件的工具
packagedPython应用打包可执行文件跨平台命令行工具Github开源项目
packaged是一个Python应用打包工具,可将Python项目转换为独立可执行文件,无需目标机器安装Python环境。它支持自定义Python版本、依赖管理和启动命令,适用于GUI、TUI和游戏开发等多种场景。packaged提供了Mandelbrot集、扫雷游戏等示例,展示了其在不同类型项目中的应用。这个工具简化了Python应用的打包和分发过程,适用于从简单脚本到复杂项目的各种需求。
doctran - 基于LLM的智能文档转换和处理框架
Doctran文档转换LLM自然语言处理OpenAIGithub开源项目
Doctran是一个基于大型语言模型的文档转换框架,通过自然语言指令处理复杂字符串。该框架提供模块化和声明式的方法,充分利用OpenAI的功能调用特性。Doctran支持提取、编辑、总结、精炼、翻译和问答生成等多种操作,简化了非结构化文本的处理过程。这个开源项目主要应用于需要高级判断的文档解析场景,例如交易标记和语义信息提取。
toolong - 强大的终端日志管理工具 支持实时跟踪与多文件处理
日志文件工具终端应用文件查看实时监控ToolongGithub开源项目
Toolong是一款功能丰富的终端日志管理工具,支持实时跟踪、语法高亮和JSONL文件处理。它能自动检测时间戳,轻松处理从小型文本到多GB的大文件。该工具为开发者和系统管理员提供了直观高效的日志分析方案,简化了日志管理和故障排查流程。Toolong还支持多文件合并和搜索功能,是一个全面的日志处理解决方案。
SRe2L - 创新的ImageNet规模数据集压缩技术
数据集蒸馏大规模数据自监督压缩ImageNetNeurIPSGithub开源项目
SRe2L项目提出了一种新颖的大规模数据集压缩方法,通过'挤压'、'恢复'和'重新标记'三个步骤实现ImageNet规模数据的高效压缩。该方法在NeurIPS 2023会议上获得spotlight展示,为数据集蒸馏领域带来新的研究视角。项目还包括SCDD和CDA等相关工作,共同推动数据集蒸馏技术在大数据时代的应用和发展。
EasyContext - 优化语言模型上下文长度至百万级的开源项目
EasyContext长上下文模型语言模型注意力机制训练技巧Github开源项目
EasyContext 是一个开源项目,致力于优化语言模型的上下文长度至 100 万个标记。项目结合序列并行、Deepspeed zero3 卸载和 Flash attention 等技术,实现了对 Llama2-7B 和 Llama2-13B 模型的全参数微调。通过最小化硬件需求,EasyContext 展示了长上下文扩展的可行性,并提供简洁的实现代码和评估结果,为自然语言处理研究和开发提供了有价值的资源。
DeeperSpeed - EleutherAI定制的DeepSpeed分支加速框架
DeepSpeedDeeperSpeedGPT-NeoXEleutherAI深度学习框架Github开源项目
DeeperSpeed是DeepSpeed库的分支,专为EleutherAI的GPT-NeoX项目优化。该项目提供两个版本:1.0版保留了训练GPT-NeoX-20B和Pythia Suite所用的稳定版本,2.0版则基于最新DeepSpeed构建并持续更新。DeeperSpeed通过优化训练流程,提高了大型语言模型的开发效率。
rag-stack - 基于RAG技术的企业级智能问答平台
RAGstack检索增强生成开源LLM向量数据库企业知识库Github开源项目
RAGstack是一个基于检索增强生成(RAG)技术的企业级智能问答平台。该项目支持Llama 2、Falcon和GPT4All等开源大语言模型,利用Qdrant向量数据库实现高效文档检索。RAGstack提供简洁的服务器和用户界面,支持PDF文档上传和智能问答。系统可在本地运行,也可轻松部署到各大主流云平台,为企业提供安全可控的私有化知识问答解决方案。
llama-cpp-wasm - 浏览器环境下运行大语言模型的WebAssembly解决方案
llama-cpp-wasmWebAssemblyAI模型在线演示JavaScript库Github开源项目
llama-cpp-wasm是一个为llama.cpp提供WebAssembly构建和绑定的开源项目。它支持在浏览器中运行大语言模型,提供单线程和多线程版本。该项目兼容多种模型,包括Qwen、StableLM和TinyLlama等,使开发者能够在Web环境中实现自然语言处理功能。项目易于集成,为浏览器端AI应用开发提供了便利。
ktransformers - 体验前沿LLM推理优化的灵活框架
KTransformersLLM推理优化大型语言模型深度学习框架GPU加速Github开源项目
KTransformers是一个灵活的Python框架,通过高级内核优化和并行策略增强Transformers性能。框架支持单行代码注入优化模块,提供Transformers兼容接口、OpenAI和Ollama标准RESTful API及简化的ChatGPT风格Web UI。专注本地部署和异构计算优化,KTransformers集成Llamafile和Marlin内核,为LLM推理优化实验提供灵活平台。
create-t3-turbo - 整合Supabase的全栈应用开发框架
T3 TurboSupabase认证Expo移动应用开发Github开源项目
create-t3-turbo是扩展自create-t3-app的全栈应用开发框架,整合Supabase Auth实现跨平台身份验证。框架提供快速启动指南,涵盖依赖设置、Supabase配置和Expo开发脚本。支持iOS和Android开发,并包含详细配置说明。该框架结合多种现代技术,为开发者提供灵活高效的应用开发环境。
mysql-backup - MySQL数据库备份恢复的开源工具
MySQL备份数据库恢复容器化配置选项开源项目Github
mysql-backup是一个开源的MySQL数据库备份恢复工具。它提供定期自动备份、多种存储选项、自定义备份计划和旧备份清理等功能。支持Docker容器和独立二进制文件两种运行方式。该工具适用于日常备份和数据恢复等多种场景,可满足MySQL数据库管理的基本需求。
DragonianVoice - 支持多种TTS、SVC和SVS技术的语音处理工具
DragonianVoiceOnnxTTSSVCDiffusionGithub开源项目
DragonianVoice提供TTS、SVC和SVS的Onnx框架推理库,支持C、Cpp及C#调用。项目与fish-speech联动,使用ggml框架重写。支持多种深度学习模型如Tacotron2、Vits和SoVitsSvc,并解决DmlEP推理错误。用户需遵守使用协议,确保合法合规使用开源项目。
manifest - 优化基础模型提示编程的Python工具包
Manifestprompt programming模型API缓存异步查询Github开源项目
Manifest是一个轻量级Python工具包,致力于简化基础模型的提示设计和迭代。该工具支持多种API模型,为生成、评分和嵌入操作提供统一接口,并通过缓存机制提升效率和可重现性。Manifest还具备异步查询、流式响应和模型池功能,为开发者提供了灵活使用各类大型语言模型的能力。
nop-entropy - 基于可逆计算实现高效软件复用的低代码平台
Nop Platform 2.0低代码平台可逆计算GraalVMQuarkusGithub开源项目
Nop Platform 2.0基于可逆计算理论开发,旨在突破低代码平台的局限,实现高效软件复用。平台支持与Quarkus、Spring和Solon框架集成,并通过GraalVM技术编译成原生可执行程序,提高启动速度。nop-entropy设计为用户友好的领域语言工作台,支持自动生成解析器、验证器、IDE插件等。平台内置分布式事务、多租户支持,既可单机运行也可作为分布式集群提供API服务,显著降低手工编码需求,支持增量开发和在线业务模块调整。
lookscanned.io - PDF在线转扫描效果工具
Look ScannedPDF处理浏览器应用在线工具文档扫描Github开源项目
Look Scanned是一款纯前端PDF处理工具,能够在浏览器中为PDF文档添加扫描效果,无需使用实体扫描设备。该工具支持实时预览、离线使用,并兼容主流浏览器和设备。用户可调整参数以优化扫描效果,使文档呈现更真实的扫描质感。Look Scanned为需要快速生成扫描版PDF的用户提供了便捷高效的解决方案,同时保证了数据隐私安全。
nuxt-pwa-module - Nuxt 3的轻量级PWA解决方案
Nuxt 3PWAVite模块配置Github开源项目
nuxt-pwa-module为Nuxt 3提供简单的PWA实现方案。该模块支持自定义Workbox服务工作器,提供usePWAIcon函数获取图标URL,并保持与Nuxt 2 PWA兼容。虽然项目已停止维护,但仍为Nuxt 3开发者提供了便捷的PWA功能。建议考虑使用Vite PWA作为替代方案。
noobnooc - 全栈开发者的技术展示与社交足迹
GitHub编程技能社交媒体个人简介技术栈Github开源项目
noobnooc的GitHub主页是一个开源项目展示平台,详细列出了这位全栈开发者的技术栈和当前项目。页面突出了其在JavaScript、TypeScript和React等领域的专长,同时提供了Twitter、GitHub和Instagram等社交媒体链接。此技术博客为开发者和潜在合作者提供了深入了解noobnooc专业能力和个人特点的机会。
helm-secrets - Helm 值文件加密解密插件
Helm加密插件安全GitOpsGithub开源项目
helm-secrets 是一个 Helm 插件,用于加密和解密 Helm 值文件。它支持使用 sops 加密值文件并存储在 Git 中,可将机密存储在云原生机密管理器中并注入到值文件或模板中。该插件兼容 ArgoCD 等 GitOps 工具,支持 sops 和 vals 等多种后端。helm-secrets 还能在 Helm 模板中评估机密引用,为用户提供灵活安全的 Helm 机密管理方案。
promptoftheyear - 2023年度AI提示词精选 助力多领域创新应用
PromptAI大语言模型GPTChatGPTGithub开源项目
Prompt Of The Year项目收录2023年影响力最大的AI提示词,涉及求职、学术、语言学习、编程等多个领域。项目展示AI在各行业的应用潜力,提供精选提示词、互动体验及原作者致谢。这是AI从业者和爱好者的重要参考资源。
BELLE - 推动中文大语言模型的开源发展与指令微调
BELLE大语言模型开源社区中文优化指令微调Github开源项目
BELLE项目致力于推动中文对话大模型的开源发展,重点关注如何利用开源预训练大语言模型构建具有指令理解能力的个性化语言模型。该项目持续公开指令训练数据、模型、训练代码和应用场景,同时评估不同训练数据和算法对模型性能的影响。BELLE专门针对中文进行优化,仅采用ChatGPT生成的数据进行模型调优,不包含其他来源的数据。
Merlion - 全面的时间序列智能分析库
Merlion时间序列机器学习异常检测预测Github开源项目
Merlion是一个功能丰富的Python时间序列分析库,集成了预测、异常检测和变点检测等多项能力。它支持单变量和多变量时间序列,提供标准化数据处理、多种算法模型、自动调参、外部变量支持等特性。Merlion还包含实用的后处理规则和灵活的评估流程,可帮助快速开发和基准测试时间序列模型。
dclm - 大型语言模型训练与评估的开源综合框架
DataComp-LM大语言模型数据处理模型训练评估Github开源项目
DataComp-LM是一个开源的大型语言模型训练和评估框架。它提供了超过300T的CommonCrawl标准语料库、基于open_lm的预训练方案和50多项评估指标。研究人员可利用该框架在411M至7B参数规模下进行数据集构建实验。通过数据集优化,DataComp-LM已显著提升了模型性能,创建了多个跨规模表现优异的高质量数据集。
ManimML - 机器学习概念动画可视化工具
ManimML机器学习可视化动画神经网络Github开源项目
ManimML是基于Manim社区库开发的开源项目,旨在为机器学习概念提供动画和可视化。该工具提供了丰富的基础可视化组件,可以轻松创建复杂机器学习概念的视频演示。ManimML支持可视化前馈神经网络、卷积神经网络、最大池化和激活函数等,并能生成前向传播动画。通过提供高级抽象,ManimML让用户能专注于内容解释而非编程细节,是机器学习教育和交流的实用工具。
FFmpeg - 开源多媒体处理框架 支持编解码转换和流媒体
FFmpeg多媒体处理音视频编解码开源软件命令行工具Github开源项目
FFmpeg是一套开源的多媒体处理框架,包含多个核心库和命令行工具。它支持广泛的编解码器、流媒体协议和容器格式,可用于音频、视频和字幕的处理与转换。FFmpeg提供libavcodec、libavformat等库,以及ffmpeg、ffplay和ffprobe等工具,为多媒体开发提供全面解决方案。
gpts-works - 综合性GPTs平台 提供探索搜索和管理功能
GPTs Works第三方GPTs商店向量搜索浏览器扩展部署Github开源项目
GPTs Works是一个集成网站、索引系统和浏览器扩展的第三方GPTs平台。它提供AI助手的探索、搜索和管理功能,使用Vercel进行部署,Vercel Storage Postgres存储数据,Zilliz Cloud实现向量存储和搜索。该项目为GPTs生态系统的发展提供支持,满足AI爱好者和开发者的需求。
modal-client - Modal Python库实现无服务器云计算按需访问
ModalPython库serverless云计算开发工具Github开源项目
Modal是一个Python库,使开发者能够从本地Python脚本访问无服务器云计算资源。支持Python 3.8至3.12版本,可通过pip快速安装。该项目提供丰富的示例应用、详细的用户指南和API参考文档。开发者可在命令行创建或链接Modal账户,便于使用这一云计算工具。
river - 实时流数据处理的在线机器学习Python库
River在线机器学习Python库流数据算法Github开源项目
River是一个专注于在线机器学习的Python库,为处理流数据提供用户友好的工具。它实现了多种算法,包括线性模型、决策树和异常检测,支持实时学习和预测。该库适用于需要持续学习、应对概念漂移或开发接近生产环境模型的场景。River注重清晰度和用户体验,单样本处理速度快,并与Python生态系统无缝集成。
llm-finetuning - Modal和axolotl驱动的大语言模型高效微调框架
LLM微调ModalaxolotlDeepSpeedLoRAGithub开源项目
这个开源项目整合了Modal和axolotl,为大语言模型微调提供了一个高效框架。它采用Deepspeed ZeRO、LoRA适配器和Flash Attention等先进技术,实现了高性能的模型训练。该框架支持云端部署,简化了资源管理流程,并可灵活适配不同模型和数据集。项目还提供了全面的配置说明和使用指南,方便开发者快速上手和定制化应用。
bigcodebench - 高难度代码生成基准测试评估LLM编程能力
BigCodeBench代码生成评估基准大语言模型编程能力Github开源项目
BigCodeBench是一个具有挑战性的代码生成基准测试,用于评估大型语言模型的实际编程能力。它提供复杂指令和多样函数调用,包括数据集、生成和评估脚本。基于EvalPlus框架,BigCodeBench实现精确评估和排名,提供预生成样本以加速研究。支持多种评估环境,采用unittest进行代码测试,为研究人员提供全面工具。
AMGX - 高性能代数多重网格GPU加速求解器库
AmgXGPU加速线性求解器多重网格法NVIDIAGithub开源项目
AMGX是NVIDIA开发的GPU加速线性求解器库,旨在加速计算密集型仿真的线性求解环节。它具有灵活的求解器组合系统,可构建复杂的嵌套求解器和预处理器。AMGX针对大规模并行计算进行了优化,支持单GPU或多GPU运算,并通过C API简化了并行处理。该库支持多精度计算、复数数据类型和分布式求解,适用于隐式非结构化方法。AMGX为科学计算和工程仿真提供了高效的GPU线性代数解决方案。
kubb - 提供TypeScript示例和文档的开源项目
Kubb开源代码生成自动化文档Github开源项目
kubb项目提供丰富的功能以及全面的文档支持,包括TypeScript示例、实时演示和详细使用说明。用户可以通过文档页面获取支持,也可以报告问题或请求新功能。结合关键贡献者的努力和不断更新的功能,kubb项目成为开发者社区的重要资源。
hcaptcha-challenger - 使用AI技术解决hCaptcha挑战的嵌入式解决方案
hCaptcha ChallengerONNXYOLOv8ResNetAI对抗Github开源项目
hCaptcha Challenger是一款通过嵌入MoE(ONNX)技术解决hCaptcha挑战的项目,无需依赖Tampermonkey脚本或第三方反机器人服务。支持ResNet、YOLOv8和ViT等多种模型,涵盖图像分类和选择题等多种挑战类型。项目提供详细的工作流程与数据集处理方法,并持续更新模型和资源,确保解决方案的高效与先进。
Kermit - 跨平台日志记录工具 简化多平台开发
Kermit日志工具跨平台软件开发编程Github开源项目
Kermit是一个跨平台日志记录工具,旨在简化多平台开发中的日志管理。通过提供统一的API,Kermit使开发者能够在不同平台间共享和管理日志,有助于提高调试效率。这个工具适用于移动应用和桌面程序开发,为开发者提供了一致的日志解决方案。
相关文章
Visual-Chinese-LLaMA-Alpaca 学习资料汇总 - 多模态中文大语言模型
2 个月前
LLM-groundedDiffusion学习资料汇总 - 用大语言模型增强文本到图像扩散模型的提示理解
2 个月前
awesome-llm-agents学习资料汇总 - 大语言模型智能体精选列表
2 个月前
ChatLLM学习资料汇总 - 轻松玩转LLM兼容OpenAI与LangChain
2 个月前
ollama-grid-search学习资料汇总-自动化评估和比较LLM模型的桌面应用
2 个月前
awesome-llm-role-playing-with-persona学习资料汇总 - 大语言模型角色扮演与人格赋予技术综述
2 个月前
NeMo-Curator学习资料汇总 - GPU加速的大语言模型数据处理工具包
2 个月前
pykoi-rlhf-finetuned-transformers学习资料汇总 - 开源RLHF统一接口
2 个月前
ChainFury入门指南 - 开源生产级LLM链式引擎
2 个月前