#Github

open-gpu-kernel-modules - NVIDIA驱动程序fork版实现RTX 4090 GPU间直接通信

NVIDIAP2P支持GPULinux驱动PCIeGithub开源项目

这个项目是NVIDIA驱动程序的一个分支，为RTX 4090显卡添加了点对点(P2P)通信支持。通过直接利用PCIe总线进行GPU间数据传输，该方案绕过了传统的MAILBOXP2P接口。项目成功实现了P2P功能，并与NCCL兼容，可显著提高多GPU系统性能。这种创新方法遵循PCIe规范，有望被纳入上游驱动程序，为NVIDIA GPU用户提供更高效的计算能力。

LightGBM - 高效梯度提升框架支持大规模数据并行学习

LightGBM梯度提升机器学习决策树数据分析Github开源项目

LightGBM是一个高效的梯度提升框架，采用树形学习算法。它具有训练速度快、内存消耗低、准确性高的特点，支持并行、分布式和GPU学习，可处理大规模数据。这个开源项目在机器学习竞赛中应用广泛，在公开数据集上的表现优于多个现有框架。LightGBM为用户提供了详细文档和丰富示例，适用于多种机器学习任务。

wmt19-en-de - Facebook FSMT英德双向机器翻译模型

机器翻译FSMTWMT19BLEUGithub开源项目TransformerHuggingface模型

Facebook AI Research团队开发的FSMT英德双向翻译模型，基于Transformer架构，在WMT19新闻翻译任务中BLEU分数达到42.83。模型支持通过Hugging Face Transformers库实现英德互译功能。该模型在WMT19数据集上训练，但在处理包含重复短语的输入时存在一定局限性。

LaTeX_OCR_PRO - 基于深度学习的多语言数学公式识别系统

LaTeX_OCR_PRO数学公式识别Seq2SeqAttention机器学习Github开源项目

LaTeX_OCR_PRO是一个开源的数学公式识别项目，结合Seq2Seq、Attention和Beam Search技术，实现了对标准、中文及手写数学公式的高精度识别。项目提供完整的环境配置、数据处理、模型训练和评估流程，在多项性能指标上达到业界领先水平。此外，LaTeX_OCR_PRO还支持训练过程和注意力机制的可视化，为相关研究和应用开发提供了有力支持。

PhotoMaker-V2 - 快速生成个性化人像照片和艺术画作

文本生成图像Huggingface开源项目模型AI绘图PhotoMaker V2人像定制Github风格化

PhotoMaker V2是一个开源的人工智能图像生成模型，通过输入面部照片和文字描述，可生成个性化的真实照片和艺术画作。该模型采用SDXL架构，支持与其他LoRA模块配合使用，扩展创作可能。目前在亚洲男性面部特征和手部细节的处理上存在局限性。

HRConvert2 - 自托管文件转换与分享工具支持445种格式

HRConvert2文件转换自托管多格式支持文件共享Github开源项目

HRConvert2是一款开源的自托管文件转换和分享工具，支持445种文件格式。该工具提供拖放式界面，在本地服务器执行转换，具备OCR和病毒扫描功能，并可生成临时分享链接。HRConvert2支持13种语言切换，提供4种配色方案，无需数据库即可运行。它易于安装，适合公共环境使用，注重隐私保护，不进行外部连接或用户跟踪。

psmoveapi - 索尼Move控制器的跨平台访问与3D追踪解决方案

PS Move API开源库Sony Move Motion Controller蓝牙USBGithub开源项目

PS Move API 是一个开源库，支持在 Linux、macOS 和 Windows 系统上通过蓝牙和 USB 连接索尼 Move 控制器，无需 PS3。功能包括蓝牙配对、LED 和震动设置、传感器读取、扩展设备支持，以及通过 OpenCV 实现 3D 空间追踪，还支持增强和虚拟现实的传感器融合。核心库使用 C 语言编写，并提供 C++ 和 Python 3 绑定，适合高效开发。

fonts - Nuxt应用的自动化网页字体优化工具

Nuxt字体优化web开发前端框架自定义字体Github开源项目

Nuxt Fonts 是一款专为 Nuxt 应用设计的网页字体优化工具。它支持多种字体提供商，具备本地字体下载功能，并利用 fontaine 和 capsize 技术实现自动字体指标优化。这个零配置模块为开发者提供了便捷的字体管理和性能优化方案，有助于提升网页加载速度和用户体验。

MLKit - Android机器学习开发的高效工具库

MLKit机器学习图像识别AndroidGoogleGithub开源项目

MLKit是一个Android机器学习工具库，集成了Google的多项视觉识别技术。它支持条码扫描、人脸检测、图像标签和对象检测等功能。开发者无需深厚的机器学习背景，即可通过简单的代码实现复杂功能。此外，MLKit还提供API支持在应用中使用自定义TensorFlow Lite模型，为开发者提供了更多灵活性。

meross_lan - 灵活控制Meross智能设备的HomeAssistant集成

智能家居Meross设备集成HomeAssistantMQTTGithub开源项目

meross_lan是一个HomeAssistant集成,支持通过HTTP、本地MQTT或Meross云MQTT控制Meross智能设备。它能自动发现设备,支持直接通信或通过Meross云账户配置。该集成兼容多数Meross产品,如开关、灯具、传感器和恒温器等,实现开关控制、调光和能耗监测等功能。此外,它还能在MQTT不可用时自动切换到HTTP通信,保证设备连接稳定性。

wav2vec2-xls-r-1b - 大规模多语言语音预训练模型支持128种语言处理

语音处理预训练Github开源项目模型Huggingface多语言模型XLS-R语音识别

Wav2Vec2-XLS-R-1B是Facebook AI开发的大规模多语言语音预训练模型，拥有10亿参数。该模型在436K小时的公开语音数据上训练，涵盖128种语言。在CoVoST-2语音翻译基准测试中平均提升7.4 BLEU分，BABEL等语音识别任务错误率降低20%-33%。适用于语音识别、翻译和分类等任务，需要16kHz采样率的语音输入进行微调。

Llama-3.2-1B - 提升2.4倍速度的语言模型微调框架

Github开源项目Unsloth模型模型微调Huggingface内存优化多语言支持Llama 3.2

Meta发布的Llama-3.2-1B是一款支持8种语言的大规模语言模型。通过集成Unsloth工具，该项目实现了模型微调速度提升2.4倍、内存占用降低58%的性能优化。项目提供Google Colab环境支持，可快速进行模型训练，并支持将成果导出为GGUF、vLLM格式或部署至Hugging Face平台。

anko-example - Anko库在Android Gradle项目中的应用示例

AnkoKotlinAndroidGradle废弃项目Github开源项目

这个项目展示了Anko库在Android Gradle项目中的配置和使用方法。虽然Anko已经被弃用，但这个示例应用仍然呈现了一些关键的Anko概念。项目可以作为新应用的模板，方便导入IntelliJ IDEA或Android Studio。开发者可以通过这个实例了解Anko如何简化Android开发过程，尽管需要注意其已过时的状态。

PaddleOCR-json - 基于PaddleOCR的跨平台离线文字识别组件

PaddleOCR-jsonOCR图像识别离线组件APIGithub开源项目

PaddleOCR-json是基于PaddleOCR开发的离线文字识别组件,支持Windows和Linux系统。该项目提供简单的API接口,兼容多种编程语言,便于快速集成OCR功能。其特点包括部署便捷、识别迅速、精度较高,支持多语言识别,适用于多种复杂场景的文字识别需求。作为开源项目,PaddleOCR-json为开发者提供了一个灵活高效的OCR解决方案。

receipt-parser-legacy - Python实现的模糊收据信息提取工具

Pythonreceipt parser图像处理文本提取开源项目Github

receipt-parser-legacy是一个Python编写的模糊收据解析工具，可从扫描收据中提取店铺、日期和总额等关键信息。此项目既可独立运行，也可集成到iOS和Android应用中。支持Docker部署，使用方便。项目源于黑客马拉松，目前已在PyPi上发布，方便开发者使用和扩展。

bitnet_b1_58-large - BitNet b1.58复现项目展示1比特量化语言模型的效能

语言模型Github1比特量化开源项目BitNetHuggingface模型评估模型

本项目复现了BitNet b1.58的1比特量化语言模型，采用RedPajama数据集进行了1000亿token的训练。通过实施论文中提出的训练策略，项目成功重现了700M、1.3B和3B规模模型的性能。评估结果显示，在困惑度（PPL）和多项零样本任务中，复现模型与原论文报告的数据高度一致，证实了该方法在模型压缩和维持性能方面的有效性。项目还提供了详细的评估流程和命令，方便研究者进行复现和进一步探索。通过比较不同规模模型在各项任务上的表现，该研究为大规模语言模型的高效压缩和部署提供了valuable的实践参考。

Meraj-Mini-GGUF - 多精度量化GGUF语言模型适配多平台本地部署

GGUFHuggingface人工智能开源项目模型转换模型开源模型Githubllama.cpp

Meraj-Mini-GGUF项目提供Meraj-Mini模型的GGUF格式版本，支持2-bit至8-bit量化精度。GGUF作为llama.cpp团队开发的新型模型格式，具备卓越性能和广泛兼容性。该模型可在LM Studio、text-generation-webui等主流平台运行，支持GPU加速，适合本地部署文本生成任务。项目兼容多种客户端和库，如llama.cpp、GPT4All等，为用户提供灵活的应用选择。

dotfiles - 高效开发环境配置的点文件管理工具

dotfiles配置文件GitVimBashGithub开源项目

dotfiles项目提供了一套优化的配置文件，用于快速设置新的开发环境。包含Git、shell、tmux和Vim等工具的配置，支持macOS和Ubuntu系统的自动化安装。项目允许用户自定义配置，以适应个人需求。通过简化环境配置过程，该工具旨在提高开发者的工作效率。

argo-workflows - Kubernetes上的开源工作流编排引擎

Argo WorkflowsKubernetes工作流引擎容器自动化Github开源项目

Argo Workflows是一个开源的工作流编排引擎,专为Kubernetes环境设计。它支持定义多步骤工作流,可通过任务序列或有向无环图(DAG)建模。该引擎轻量灵活,易于使用和扩展,适用于机器学习、数据处理、基础设施自动化和CI/CD等多种场景。Argo Workflows以其强大的功能和广泛的应用,成为Kubernetes生态系统中最受欢迎的工作流执行引擎之一。

kraken - 优化历史文献和多语言文本识别的开源OCR系统

OCR系统历史文字识别非拉丁文识别kraken文本识别Github开源项目

kraken是一个开源OCR系统，专注于历史文献和非拉丁文本识别。该系统提供可训练的布局分析、阅读顺序识别和字符识别功能，支持多种文字方向和脚本。kraken能够输出多种格式，并提供公共模型库和灵活的识别网络架构。该项目与eScriptorium密切合作，为用户提供全面的文本数字化解决方案。kraken目前支持Linux和Mac OS X平台。

ccextractor - 全球化开源字幕提取与处理工具

CCExtractor字幕提取开源软件视频处理多语言支持Github开源项目

CCExtractor是一款开源字幕处理工具，能从全球电视录像中提取字幕。功能包括DVD字幕提取、封闭式字幕转换和字幕翻译。适用于语言学习者和听力障碍人士，提供便捷的字幕生成服务。项目核心使用C语言开发，支持命令行和图形界面，兼容多种平台。

tubeup - 多平台视频归档工具自动上传至互联网档案馆

Tubeup视频上传Internet Archiveyt-dlp元数据Github开源项目

Tubeup是一款开源的视频归档工具，基于yt-dlp实现多平台视频下载，并自动上传至互联网档案馆。支持归档单个视频、播放列表和账户，适用于Linux和macOS系统。提供命令行界面，可自定义元数据和代理设置。具备Docker支持，便于快速部署。

CodeLlama-7b-Python-hf - Meta推出的Python专用代码生成与理解模型

大语言模型Github开源项目模型Code LlamaPython编程Huggingface人工智能代码生成

CodeLlama-7b-Python-hf作为Code Llama系列的Python特化版本，搭载70亿参数规模的优化Transformer架构。这款由Meta开发的模型通过预训练和精调，具备出色的Python代码补全和理解能力。模型支持商业及研究领域应用，使用需遵循Meta许可协议。

Inventory_Kamera - 基于OCR技术的原神游戏数据扫描工具

Inventory Kamera原神数据扫描OCR技术GOOD格式Github开源项目

Inventory Kamera是一款开源的原神游戏数据扫描工具,利用OCR技术识别游戏界面信息。它可扫描角色、武器、圣遗物、材料等数据,以GOOD格式导出JSON文件,兼容Genshin Optimizer等在线工具。该工具支持自动更新数据库,操作便捷,有助于提高游戏资源管理效率。Inventory Kamera为原神玩家提供了免费的数据整理方案。

rag-token-nq - RAG技术驱动的智能问答生成模型

RAG开源项目自然语言处理transformer模型问答系统Huggingface知识检索Github

RAG-token-nq是一个结合DPR和BART技术的智能问答模型，通过检索wiki_dpr数据集实现知识增强。模型包含问题编码器、检索器和生成器，能够针对事实性问题生成准确答案。基于uncased处理机制，该模型在知识密集型自然语言处理任务中表现优异。

PyMuPDF-Utilities - 全面的PDF和电子文档处理开发工具集

PyMuPDFPDF处理文本提取OCR文档处理Github开源项目

PyMuPDF-Utilities是一个开源项目，提供多种工具和示例，用于PDF、XPS、电子书和纯文本文件处理。项目包含OCR支持、目录处理、字体替换、文本标记和提取等功能。此外，还提供Jupyter笔记本、表格分析工具和布局保留的文本提取脚本。该项目旨在为开发者提供资源，以便于处理各种电子文档格式。

encodec_24khz - Meta AI开发的神经网络音频编解码器

模型Github实时压缩开源项目高保真音频HuggingfaceMeta AIEnCodec神经网络音频编解码器

EnCodec是Meta AI开发的神经网络音频编解码器，采用流式编码器-解码器架构和量化潜在空间。它使用多尺度频谱图对抗性训练，有效减少伪影，产生高质量音频样本。EnCodec在不同带宽下性能优异，适用于实时音频压缩、解码和各种音频处理应用。

Awesome-AGI-Agents - 全面解读AGI智能体的最新资源与开发平台

AI AgentsLLMAuto-GPTOpenAILangChainGithub开源项目

精选AGI智能体资源集合，涵盖文章、视频、论文、前沿项目和开发平台。开源项目如Auto-GPT和MetaGPT展示了自主AI智能体的应用潜力。复旦NLP与米哈游的综述论文对大语言模型驱动的Agent提供了深度解读。开发者可借助LangChain、SuperAGI等工具，快速构建和部署智能体。适用于关注AI智能体发展及其在科研、技术和应用领域前沿探索的用户。

prometheus-cpp - 现代C++的Prometheus客户端库

PrometheusC++监控指标客户端库数据模型Github开源项目

prometheus-cpp是一个专为现代C++设计的Prometheus客户端库,实现了Prometheus数据模型抽象。它支持计数器、仪表、直方图等多种指标类型,提供简洁API和自定义标签功能。该库可通过CMake或Bazel构建,适用于需要精确监控的C++项目。prometheus-cpp旨在促进指标驱动开发,帮助开发者更好地优化C++服务性能。

tesstrain - Tesseract 5训练流程自动化工具

TesseractOCR模型训练机器学习图像处理Github开源项目

tesstrain是一个基于Makefile的Tesseract 5训练工作流工具。它提供完整的OCR模型训练流程，包括数据准备、训练、评估和可视化。支持自定义模型、微调和从头训练，具有灵活的配置选项。tesstrain能生成traineddata文件和错误率图表，适用于高效开发和优化Tesseract模型。

Coderbert_finetuned_detect_vulnerability_on_MSR - RobertaForSequenceClassification微调的代码漏洞检测模型

代码安全Github开源项目漏洞检测RoBERTa模型HuggingfaceCodeBert机器学习

该项目基于CodeBert微调RobertaForSequenceClassification模型，用于检测代码漏洞。研究者从MSR数据集选取平衡样本进行训练和测试，使用'func_before'字段分类代码。模型在准确率、F1值、精确率和召回率方面表现良好，为代码安全分析提供了实用工具。测试结果显示准确率达70.23%，F1值为0.6482，精确率为79.21%，召回率为54.86%。

zotero-ocr - Zotero OCR插件实现PDF文献自动文本识别

ZoteroOCRPDFTesseract插件Github开源项目

Zotero OCR是一个开源的Zotero插件，为PDF文献提供OCR文字识别功能。该插件可为选定PDF添加识别文本，生成新的文本化PDF，或创建纯文本笔记和HTML文件。基于Tesseract OCR引擎，支持多语言识别，并提供自定义配置选项。插件安装简便，有助于提升文献管理效率。

Llama-3.1-Storm-8B - 多任务智能的高性能开源语言模型

大语言模型Llama-3.1-Storm-8BGithub开源项目模型模型微调人工智能Huggingface机器学习

Llama-3.1-Storm-8B是基于Llama-3.1-8B-Instruct改进的开源语言模型。通过自主数据筛选、定向微调和模型合并，它在10个基准测试中显著超越原始模型，包括指令遵循、知识问答、推理能力、真实性和函数调用。GPQA提升7.21%，TruthfulQA提升9%，函数调用准确率提升7.92%。支持Transformers、vLLM和Ollama等多种部署方式，为AI开发者提供高性能的通用型语言模型选择。

PointMamba - 用于点云分析的简单状态空间模型

PointMamba点云分析State Space ModelTransformersMambaGithub开源项目

该项目提出了一种名为PointMamba的模型，它通过借鉴Mamba模型在自然语言处理中的成功经验，应用在点云分析中。PointMamba采用了线性复杂度算法，在有效减少计算成本的同时，提供了卓越的全局建模能力。该模型通过空间填充曲线进行点云标记，并使用非分层结构的Mamba编码器作主干网络。综合评估表明，PointMamba在多个数据集上的表现优异，显著降低了GPU内存使用和计算量，为未来的研究提供了一个简单而有效的基准。

opus-mt-tc-big-zls-en - 南斯拉夫语系至英语的机器翻译开源模型

Github神经网络模型开源项目OPUS-MTHuggingface机器翻译自然语言处理Marian NMT

opus-mt-tc-big-zls-en是一个基于神经网络的机器翻译模型，用于南斯拉夫语系（zls）到英语（en）的翻译任务。作为OPUS-MT项目的组成部分，该模型采用Marian NMT框架开发，并已转换为PyTorch格式。模型支持包括保加利亚语、波斯尼亚语、克罗地亚语、马其顿语、斯洛文尼亚语和塞尔维亚语在内的多种南斯拉夫语言，可应用于相关语言的翻译工作。

Mask3D - 改进3D语义实例分割方法，兼容多种数据集

Mask3D3D实例分割ScanNetPyTorchICRA 2023Github开源项目

Mask3D是一个提升3D语义实例分割的开源项目，支持ScanNet、ScanNet200、S3DIS和STPLS3D数据集。项目集成了PyTorch、PyTorch Lightning和Hydra工具，提供高效的架构和训练流程，包括数据预处理、模型训练与测试。此外，Mask3D在多个挑战中表现优异，包括在ECCV 2022的Urban3D挑战中获得第二名。

相关文章

Article Cover

Visual-Chinese-LLaMA-Alpaca 学习资料汇总 - 多模态中文大语言模型

Article Cover

LLM-groundedDiffusion学习资料汇总 - 用大语言模型增强文本到图像扩散模型的提示理解

Article Cover

awesome-llm-agents学习资料汇总 - 大语言模型智能体精选列表

Article Cover

ChatLLM学习资料汇总 - 轻松玩转LLM兼容OpenAI与LangChain

Article Cover

ollama-grid-search学习资料汇总-自动化评估和比较LLM模型的桌面应用

Article Cover

awesome-llm-role-playing-with-persona学习资料汇总 - 大语言模型角色扮演与人格赋予技术综述

Article Cover

NeMo-Curator学习资料汇总 - GPU加速的大语言模型数据处理工具包

Article Cover

pykoi-rlhf-finetuned-transformers学习资料汇总 - 开源RLHF统一接口

Article Cover

ChainFury入门指南 - 开源生产级LLM链式引擎

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号