#Github

open-gpu-kernel-modules - NVIDIA驱动程序fork版实现RTX 4090 GPU间直接通信
NVIDIAP2P支持GPULinux驱动PCIeGithub开源项目
这个项目是NVIDIA驱动程序的一个分支,为RTX 4090显卡添加了点对点(P2P)通信支持。通过直接利用PCIe总线进行GPU间数据传输,该方案绕过了传统的MAILBOXP2P接口。项目成功实现了P2P功能,并与NCCL兼容,可显著提高多GPU系统性能。这种创新方法遵循PCIe规范,有望被纳入上游驱动程序,为NVIDIA GPU用户提供更高效的计算能力。
LightGBM - 高效梯度提升框架 支持大规模数据并行学习
LightGBM梯度提升机器学习决策树数据分析Github开源项目
LightGBM是一个高效的梯度提升框架,采用树形学习算法。它具有训练速度快、内存消耗低、准确性高的特点,支持并行、分布式和GPU学习,可处理大规模数据。这个开源项目在机器学习竞赛中应用广泛,在公开数据集上的表现优于多个现有框架。LightGBM为用户提供了详细文档和丰富示例,适用于多种机器学习任务。
wmt19-en-de - Facebook FSMT英德双向机器翻译模型
机器翻译FSMTWMT19BLEUGithub开源项目TransformerHuggingface模型
Facebook AI Research团队开发的FSMT英德双向翻译模型,基于Transformer架构,在WMT19新闻翻译任务中BLEU分数达到42.83。模型支持通过Hugging Face Transformers库实现英德互译功能。该模型在WMT19数据集上训练,但在处理包含重复短语的输入时存在一定局限性。
LaTeX_OCR_PRO - 基于深度学习的多语言数学公式识别系统
LaTeX_OCR_PRO数学公式识别Seq2SeqAttention机器学习Github开源项目
LaTeX_OCR_PRO是一个开源的数学公式识别项目,结合Seq2Seq、Attention和Beam Search技术,实现了对标准、中文及手写数学公式的高精度识别。项目提供完整的环境配置、数据处理、模型训练和评估流程,在多项性能指标上达到业界领先水平。此外,LaTeX_OCR_PRO还支持训练过程和注意力机制的可视化,为相关研究和应用开发提供了有力支持。
PhotoMaker-V2 - 快速生成个性化人像照片和艺术画作
文本生成图像Huggingface开源项目模型AI绘图PhotoMaker V2人像定制Github风格化
PhotoMaker V2是一个开源的人工智能图像生成模型,通过输入面部照片和文字描述,可生成个性化的真实照片和艺术画作。该模型采用SDXL架构,支持与其他LoRA模块配合使用,扩展创作可能。目前在亚洲男性面部特征和手部细节的处理上存在局限性。
HRConvert2 - 自托管文件转换与分享工具 支持445种格式
HRConvert2文件转换自托管多格式支持文件共享Github开源项目
HRConvert2是一款开源的自托管文件转换和分享工具,支持445种文件格式。该工具提供拖放式界面,在本地服务器执行转换,具备OCR和病毒扫描功能,并可生成临时分享链接。HRConvert2支持13种语言切换,提供4种配色方案,无需数据库即可运行。它易于安装,适合公共环境使用,注重隐私保护,不进行外部连接或用户跟踪。
psmoveapi - 索尼Move控制器的跨平台访问与3D追踪解决方案
PS Move API开源库Sony Move Motion Controller蓝牙USBGithub开源项目
PS Move API 是一个开源库,支持在 Linux、macOS 和 Windows 系统上通过蓝牙和 USB 连接索尼 Move 控制器,无需 PS3。功能包括蓝牙配对、LED 和震动设置、传感器读取、扩展设备支持,以及通过 OpenCV 实现 3D 空间追踪,还支持增强和虚拟现实的传感器融合。核心库使用 C 语言编写,并提供 C++ 和 Python 3 绑定,适合高效开发。
fonts - Nuxt应用的自动化网页字体优化工具
Nuxt字体优化web开发前端框架自定义字体Github开源项目
Nuxt Fonts 是一款专为 Nuxt 应用设计的网页字体优化工具。它支持多种字体提供商,具备本地字体下载功能,并利用 fontaine 和 capsize 技术实现自动字体指标优化。这个零配置模块为开发者提供了便捷的字体管理和性能优化方案,有助于提升网页加载速度和用户体验。
MLKit - Android机器学习开发的高效工具库
MLKit机器学习图像识别AndroidGoogleGithub开源项目
MLKit是一个Android机器学习工具库,集成了Google的多项视觉识别技术。它支持条码扫描、人脸检测、图像标签和对象检测等功能。开发者无需深厚的机器学习背景,即可通过简单的代码实现复杂功能。此外,MLKit还提供API支持在应用中使用自定义TensorFlow Lite模型,为开发者提供了更多灵活性。
meross_lan - 灵活控制Meross智能设备的HomeAssistant集成
智能家居Meross设备集成HomeAssistantMQTTGithub开源项目
meross_lan是一个HomeAssistant集成,支持通过HTTP、本地MQTT或Meross云MQTT控制Meross智能设备。它能自动发现设备,支持直接通信或通过Meross云账户配置。该集成兼容多数Meross产品,如开关、灯具、传感器和恒温器等,实现开关控制、调光和能耗监测等功能。此外,它还能在MQTT不可用时自动切换到HTTP通信,保证设备连接稳定性。
wav2vec2-xls-r-1b - 大规模多语言语音预训练模型支持128种语言处理
语音处理预训练Github开源项目模型Huggingface多语言模型XLS-R语音识别
Wav2Vec2-XLS-R-1B是Facebook AI开发的大规模多语言语音预训练模型,拥有10亿参数。该模型在436K小时的公开语音数据上训练,涵盖128种语言。在CoVoST-2语音翻译基准测试中平均提升7.4 BLEU分,BABEL等语音识别任务错误率降低20%-33%。适用于语音识别、翻译和分类等任务,需要16kHz采样率的语音输入进行微调。
Llama-3.2-1B - 提升2.4倍速度的语言模型微调框架
Github开源项目Unsloth模型模型微调Huggingface内存优化多语言支持Llama 3.2
Meta发布的Llama-3.2-1B是一款支持8种语言的大规模语言模型。通过集成Unsloth工具,该项目实现了模型微调速度提升2.4倍、内存占用降低58%的性能优化。项目提供Google Colab环境支持,可快速进行模型训练,并支持将成果导出为GGUF、vLLM格式或部署至Hugging Face平台。
anko-example - Anko库在Android Gradle项目中的应用示例
AnkoKotlinAndroidGradle废弃项目Github开源项目
这个项目展示了Anko库在Android Gradle项目中的配置和使用方法。虽然Anko已经被弃用,但这个示例应用仍然呈现了一些关键的Anko概念。项目可以作为新应用的模板,方便导入IntelliJ IDEA或Android Studio。开发者可以通过这个实例了解Anko如何简化Android开发过程,尽管需要注意其已过时的状态。
PaddleOCR-json - 基于PaddleOCR的跨平台离线文字识别组件
PaddleOCR-jsonOCR图像识别离线组件APIGithub开源项目
PaddleOCR-json是基于PaddleOCR开发的离线文字识别组件,支持Windows和Linux系统。该项目提供简单的API接口,兼容多种编程语言,便于快速集成OCR功能。其特点包括部署便捷、识别迅速、精度较高,支持多语言识别,适用于多种复杂场景的文字识别需求。作为开源项目,PaddleOCR-json为开发者提供了一个灵活高效的OCR解决方案。
receipt-parser-legacy - Python实现的模糊收据信息提取工具
Pythonreceipt parser图像处理文本提取开源项目Github
receipt-parser-legacy是一个Python编写的模糊收据解析工具,可从扫描收据中提取店铺、日期和总额等关键信息。此项目既可独立运行,也可集成到iOS和Android应用中。支持Docker部署,使用方便。项目源于黑客马拉松,目前已在PyPi上发布,方便开发者使用和扩展。
bitnet_b1_58-large - BitNet b1.58复现项目展示1比特量化语言模型的效能
语言模型Github1比特量化开源项目BitNetHuggingface模型评估模型
本项目复现了BitNet b1.58的1比特量化语言模型,采用RedPajama数据集进行了1000亿token的训练。通过实施论文中提出的训练策略,项目成功重现了700M、1.3B和3B规模模型的性能。评估结果显示,在困惑度(PPL)和多项零样本任务中,复现模型与原论文报告的数据高度一致,证实了该方法在模型压缩和维持性能方面的有效性。项目还提供了详细的评估流程和命令,方便研究者进行复现和进一步探索。通过比较不同规模模型在各项任务上的表现,该研究为大规模语言模型的高效压缩和部署提供了valuable的实践参考。
Meraj-Mini-GGUF - 多精度量化GGUF语言模型 适配多平台本地部署
GGUFHuggingface人工智能开源项目模型转换模型开源模型Githubllama.cpp
Meraj-Mini-GGUF项目提供Meraj-Mini模型的GGUF格式版本,支持2-bit至8-bit量化精度。GGUF作为llama.cpp团队开发的新型模型格式,具备卓越性能和广泛兼容性。该模型可在LM Studio、text-generation-webui等主流平台运行,支持GPU加速,适合本地部署文本生成任务。项目兼容多种客户端和库,如llama.cpp、GPT4All等,为用户提供灵活的应用选择。
dotfiles - 高效开发环境配置的点文件管理工具
dotfiles配置文件GitVimBashGithub开源项目
dotfiles项目提供了一套优化的配置文件,用于快速设置新的开发环境。包含Git、shell、tmux和Vim等工具的配置,支持macOS和Ubuntu系统的自动化安装。项目允许用户自定义配置,以适应个人需求。通过简化环境配置过程,该工具旨在提高开发者的工作效率。
argo-workflows - Kubernetes上的开源工作流编排引擎
Argo WorkflowsKubernetes工作流引擎容器自动化Github开源项目
Argo Workflows是一个开源的工作流编排引擎,专为Kubernetes环境设计。它支持定义多步骤工作流,可通过任务序列或有向无环图(DAG)建模。该引擎轻量灵活,易于使用和扩展,适用于机器学习、数据处理、基础设施自动化和CI/CD等多种场景。Argo Workflows以其强大的功能和广泛的应用,成为Kubernetes生态系统中最受欢迎的工作流执行引擎之一。
kraken - 优化历史文献和多语言文本识别的开源OCR系统
OCR系统历史文字识别非拉丁文识别kraken文本识别Github开源项目
kraken是一个开源OCR系统,专注于历史文献和非拉丁文本识别。该系统提供可训练的布局分析、阅读顺序识别和字符识别功能,支持多种文字方向和脚本。kraken能够输出多种格式,并提供公共模型库和灵活的识别网络架构。该项目与eScriptorium密切合作,为用户提供全面的文本数字化解决方案。kraken目前支持Linux和Mac OS X平台。
ccextractor - 全球化开源字幕提取与处理工具
CCExtractor字幕提取开源软件视频处理多语言支持Github开源项目
CCExtractor是一款开源字幕处理工具,能从全球电视录像中提取字幕。功能包括DVD字幕提取、封闭式字幕转换和字幕翻译。适用于语言学习者和听力障碍人士,提供便捷的字幕生成服务。项目核心使用C语言开发,支持命令行和图形界面,兼容多种平台。
tubeup - 多平台视频归档工具 自动上传至互联网档案馆
Tubeup视频上传Internet Archiveyt-dlp元数据Github开源项目
Tubeup是一款开源的视频归档工具,基于yt-dlp实现多平台视频下载,并自动上传至互联网档案馆。支持归档单个视频、播放列表和账户,适用于Linux和macOS系统。提供命令行界面,可自定义元数据和代理设置。具备Docker支持,便于快速部署。
CodeLlama-7b-Python-hf - Meta推出的Python专用代码生成与理解模型
大语言模型Github开源项目模型Code LlamaPython编程Huggingface人工智能代码生成
CodeLlama-7b-Python-hf作为Code Llama系列的Python特化版本,搭载70亿参数规模的优化Transformer架构。这款由Meta开发的模型通过预训练和精调,具备出色的Python代码补全和理解能力。模型支持商业及研究领域应用,使用需遵循Meta许可协议。
Inventory_Kamera - 基于OCR技术的原神游戏数据扫描工具
Inventory Kamera原神数据扫描OCR技术GOOD格式Github开源项目
Inventory Kamera是一款开源的原神游戏数据扫描工具,利用OCR技术识别游戏界面信息。它可扫描角色、武器、圣遗物、材料等数据,以GOOD格式导出JSON文件,兼容Genshin Optimizer等在线工具。该工具支持自动更新数据库,操作便捷,有助于提高游戏资源管理效率。Inventory Kamera为原神玩家提供了免费的数据整理方案。
rag-token-nq - RAG技术驱动的智能问答生成模型
RAG开源项目自然语言处理transformer模型问答系统Huggingface知识检索Github
RAG-token-nq是一个结合DPR和BART技术的智能问答模型,通过检索wiki_dpr数据集实现知识增强。模型包含问题编码器、检索器和生成器,能够针对事实性问题生成准确答案。基于uncased处理机制,该模型在知识密集型自然语言处理任务中表现优异。
PyMuPDF-Utilities - 全面的PDF和电子文档处理开发工具集
PyMuPDFPDF处理文本提取OCR文档处理Github开源项目
PyMuPDF-Utilities是一个开源项目,提供多种工具和示例,用于PDF、XPS、电子书和纯文本文件处理。项目包含OCR支持、目录处理、字体替换、文本标记和提取等功能。此外,还提供Jupyter笔记本、表格分析工具和布局保留的文本提取脚本。该项目旨在为开发者提供资源,以便于处理各种电子文档格式。
encodec_24khz - Meta AI开发的神经网络音频编解码器
模型Github实时压缩开源项目高保真音频HuggingfaceMeta AIEnCodec神经网络音频编解码器
EnCodec是Meta AI开发的神经网络音频编解码器,采用流式编码器-解码器架构和量化潜在空间。它使用多尺度频谱图对抗性训练,有效减少伪影,产生高质量音频样本。EnCodec在不同带宽下性能优异,适用于实时音频压缩、解码和各种音频处理应用。
Awesome-AGI-Agents - 全面解读AGI智能体的最新资源与开发平台
AI AgentsLLMAuto-GPTOpenAILangChainGithub开源项目
精选AGI智能体资源集合,涵盖文章、视频、论文、前沿项目和开发平台。开源项目如Auto-GPT和MetaGPT展示了自主AI智能体的应用潜力。复旦NLP与米哈游的综述论文对大语言模型驱动的Agent提供了深度解读。开发者可借助LangChain、SuperAGI等工具,快速构建和部署智能体。适用于关注AI智能体发展及其在科研、技术和应用领域前沿探索的用户。
prometheus-cpp - 现代C++的Prometheus客户端库
PrometheusC++监控指标客户端库数据模型Github开源项目
prometheus-cpp是一个专为现代C++设计的Prometheus客户端库,实现了Prometheus数据模型抽象。它支持计数器、仪表、直方图等多种指标类型,提供简洁API和自定义标签功能。该库可通过CMake或Bazel构建,适用于需要精确监控的C++项目。prometheus-cpp旨在促进指标驱动开发,帮助开发者更好地优化C++服务性能。
tesstrain - Tesseract 5训练流程自动化工具
TesseractOCR模型训练机器学习图像处理Github开源项目
tesstrain是一个基于Makefile的Tesseract 5训练工作流工具。它提供完整的OCR模型训练流程,包括数据准备、训练、评估和可视化。支持自定义模型、微调和从头训练,具有灵活的配置选项。tesstrain能生成traineddata文件和错误率图表,适用于高效开发和优化Tesseract模型。
Coderbert_finetuned_detect_vulnerability_on_MSR - RobertaForSequenceClassification微调的代码漏洞检测模型
代码安全Github开源项目漏洞检测RoBERTa模型HuggingfaceCodeBert机器学习
该项目基于CodeBert微调RobertaForSequenceClassification模型,用于检测代码漏洞。研究者从MSR数据集选取平衡样本进行训练和测试,使用'func_before'字段分类代码。模型在准确率、F1值、精确率和召回率方面表现良好,为代码安全分析提供了实用工具。测试结果显示准确率达70.23%,F1值为0.6482,精确率为79.21%,召回率为54.86%。
zotero-ocr - Zotero OCR插件实现PDF文献自动文本识别
ZoteroOCRPDFTesseract插件Github开源项目
Zotero OCR是一个开源的Zotero插件,为PDF文献提供OCR文字识别功能。该插件可为选定PDF添加识别文本,生成新的文本化PDF,或创建纯文本笔记和HTML文件。基于Tesseract OCR引擎,支持多语言识别,并提供自定义配置选项。插件安装简便,有助于提升文献管理效率。
Llama-3.1-Storm-8B - 多任务智能的高性能开源语言模型
大语言模型Llama-3.1-Storm-8BGithub开源项目模型模型微调人工智能Huggingface机器学习
Llama-3.1-Storm-8B是基于Llama-3.1-8B-Instruct改进的开源语言模型。通过自主数据筛选、定向微调和模型合并,它在10个基准测试中显著超越原始模型,包括指令遵循、知识问答、推理能力、真实性和函数调用。GPQA提升7.21%,TruthfulQA提升9%,函数调用准确率提升7.92%。支持Transformers、vLLM和Ollama等多种部署方式,为AI开发者提供高性能的通用型语言模型选择。
PointMamba - 用于点云分析的简单状态空间模型
PointMamba点云分析State Space ModelTransformersMambaGithub开源项目
该项目提出了一种名为PointMamba的模型,它通过借鉴Mamba模型在自然语言处理中的成功经验,应用在点云分析中。PointMamba采用了线性复杂度算法,在有效减少计算成本的同时,提供了卓越的全局建模能力。该模型通过空间填充曲线进行点云标记,并使用非分层结构的Mamba编码器作主干网络。综合评估表明,PointMamba在多个数据集上的表现优异,显著降低了GPU内存使用和计算量,为未来的研究提供了一个简单而有效的基准。
opus-mt-tc-big-zls-en - 南斯拉夫语系至英语的机器翻译开源模型
Github神经网络模型开源项目OPUS-MTHuggingface机器翻译自然语言处理Marian NMT
opus-mt-tc-big-zls-en是一个基于神经网络的机器翻译模型,用于南斯拉夫语系(zls)到英语(en)的翻译任务。作为OPUS-MT项目的组成部分,该模型采用Marian NMT框架开发,并已转换为PyTorch格式。模型支持包括保加利亚语、波斯尼亚语、克罗地亚语、马其顿语、斯洛文尼亚语和塞尔维亚语在内的多种南斯拉夫语言,可应用于相关语言的翻译工作。
Mask3D - 改进3D语义实例分割方法,兼容多种数据集
Mask3D3D实例分割ScanNetPyTorchICRA 2023Github开源项目
Mask3D是一个提升3D语义实例分割的开源项目,支持ScanNet、ScanNet200、S3DIS和STPLS3D数据集。项目集成了PyTorch、PyTorch Lightning和Hydra工具,提供高效的架构和训练流程,包括数据预处理、模型训练与测试。此外,Mask3D在多个挑战中表现优异,包括在ECCV 2022的Urban3D挑战中获得第二名。