#Github

GSPlayer - Swift开发的iOS视频播放器支持自定义UI和预加载功能

GSPlayer视频播放器iOS开发Swift缓存机制Github开源项目

GSPlayer是一个开源的iOS和macOS视频播放器框架，使用Swift 5开发。它提供自定义UI、简洁API、缓存机制、预加载功能、列表视图集成和全屏播放等特性。通过CocoaPods集成，GSPlayer为移动应用开发者提供了灵活高效的视频播放解决方案。

prometheus-8x7b-v2.0 - 基于Mistral的开源评估型语言模型

Prometheus 2语言模型Github开源项目RLHF人工智能评估Huggingface机器学习模型

Prometheus-8x7b-v2.0是一个基于Mistral-Instruct构建的开源评估型语言模型，通过30万条标注数据训练而成。该模型支持绝对评分和相对排名两种方式，可对其他语言模型进行细粒度评估，是GPT-4评估功能的开源替代方案。模型提供完整的使用文档，适用于语言模型性能比较和评估研究。

Qwen2.5-7B-bnb-4bit - 采用4bit量化技术加速Qwen2.5-7B模型并降低70%内存占用

大语言模型Qwen2.5开源项目Unsloth模型模型微调Huggingface深度学习Github

基于Qwen2.5-7B的量化优化版本，通过4bit量化技术将内存占用降低70%。模型拥有76亿参数，具备128K上下文长度和29种语言处理能力，支持编码、数学运算和长文本生成等功能。该版本在保持原有性能的同时实现轻量化部署，可用于后续的模型微调与定制开发。

faster-distil-whisper-large-v3 - 基于CTranslate2的Whisper语音识别优化模型

语音识别Github开源项目CTranslate2模型模型转换Huggingfacefaster-whisperWhisper

基于distil-whisper/distil-large-v3的CTranslate2转换模型，专注于提升语音识别效率。模型采用FP16格式存储权重，支持多语言转录功能，可灵活调整计算类型。项目提供完整的使用示例和转换文档，方便开发者快速集成和部署。

Qwen2.5-14B-Instruct-GGUF - 针对不同硬件环境优化的大模型量化版本

Qwen2.5-14B-Instruct模型推理开源项目模型HuggingfaceGPU运算模型量化Github人工智能模型

Qwen2.5-14B-Instruct模型的量化优化项目，通过F16到Q2_K等多种精度量化方案，将模型体积压缩至5.36GB-29.55GB范围。项目集成了ARM芯片优化版本和创新的I-quant量化技术，实现了模型性能、速度与硬件适配的平衡。量化版本涵盖了从高精度到轻量级的多个选项，方便在不同计算资源条件下部署使用。

Llama-3.2-3B-Instruct-uncensored-LoRA_final-Q4_K_M-GGUF - 高效微调的3B参数英文指令型大语言模型

深度学习Github开源项目HuggingfaceUnsloth模型训练AI开发Llama模型

Llama-3.2-3B-Instruct-uncensored-LoRA_final-Q4_K_M-GGUF是基于Llama-3.2-3B-Instruct-uncensored模型微调的开源大语言模型。该模型使用Unsloth和Huggingface的TRL库训练，提高了2倍的训练速度。由PurpleAILAB开发，采用Apache 2.0许可证，主要用于英语文本生成任务。这是一个参数量为3B的指令型模型，适合需要快速部署的应用场景。

umberto-commoncrawl-cased-v1 - 高性能意大利语预训练语言模型支持全词遮蔽技术

意大利语言模型开源项目预训练模型命名实体识别UmBERTo自然语言处理模型HuggingfaceGithub

该模型是一个意大利语预训练语言模型，基于OSCAR语料库训练，支持命名实体识别和词性标注等自然语言处理任务。模型采用全词遮蔽技术，在多个基准测试中准确率达到98%以上。开发者可通过Hugging Face平台快速部署和使用该模型。

GenSim - 利用大型语言模型实现机器人仿真任务自动生成

GenSim机器人模拟任务生成大语言模型GPTGithub开源项目

GenSim项目通过大型语言模型生成仿真环境和任务。用户可使用Gradio Demo和GPTs进行互动。本仓库提供安装及使用指南，涵盖任务生成、添加、移除，及LLM微调等。GenSim还支持多任务训练基准测试，多种生成和训练脚本。项目代码位于GitHub，供用户反馈和交流。

alisthelper - 跨平台Alist管理工具简化文件管理体验

alisthelperFlutter桌面应用开源项目文件管理Github

alisthelper是一款开源的Alist管理工具，基于Flutter开发，支持Windows和macOS平台。它提供自动启动、系统托盘最小化、开机自启和自定义启动参数等功能，简化了Alist桌面版的使用流程。这款免费无广告的应用为Alist用户提供了更高效、灵活的文件管理体验。

CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg - 基于LAION-2B数据集的卷积神经网络达到79%零样本分类准确率

Github开源项目图像分类CLIPHuggingface神经网络机器学习ConvNext模型

CLIP ConvNeXt-XXLarge是一个在LAION-2B数据集上训练的大规模视觉语言模型，总参数量12亿，图像分辨率256x256。模型采用ConvNeXt-XXLarge图像结构和ViT-H-14规模的文本编码器，在ImageNet零样本分类上达到79%准确率。主要应用于图像分类、检索等研究任务。

uniflow-llm-based-pdf-extraction-text-cleaning-data-clustering - 多源文档提取与转换的统一LLM框架

uniflowLLM接口文档提取数据转换模型微调Github开源项目

uniflow是一个开源项目，为多种文档类型提供统一的LLM接口，实现数据提取和转换。支持PDF、HTML和TXT等格式，兼容OpenAI、Google Gemini和AWS BedRock等主流LLM模型。该项目致力于解决遗留文档处理和数据准备的难题，为数据科学家提供生成隐私保护训练数据集的工具，简化LLM微调流程。uniflow还包含多个实用案例，如财务报告分析和教育资料问答生成等。

stable-video-diffusion-img2vid-xt-1-1 - 高性能图片转视频生成模型，支持1024x576像素视频制作

开源项目生成式AI模型图像转视频HuggingfaceStable Video Diffusion商业授权Github人工智能模型

Stable Video Diffusion 1.1是Stability AI开发的图像生成视频AI模型，基于SVD Image-to-Video [25 frames]优化而来。它可将单张图片转换为25帧、1024x576分辨率的短视频，采用6FPS帧率和Motion Bucket Id 127参数，输出效果比1.0版本更稳定。该模型适用于艺术创作、教育等领域，支持非商业和商业用途。用户可通过Stability AI的generative-models仓库获取和使用该模型。

L-SVD - 推动人工智能情感分析研究的大规模视频数据集

L-SVD情感识别视频数据集机器学习深度学习Github开源项目

L-SVD数据集包含20,000多个短视频片段，涵盖8种人类情绪，为情感识别研究提供重要资源。该数据集特点包括精确的情感标注、统一的视频质量和全球社区参与。L-SVD致力于推动认知科学、心理学、计算机科学和医学等领域的研究，为情感AI、机器学习和深度学习的发展奠定基础。

Qwen1.5-14B-Chat-AWQ - 高性能AWQ量化技术多语言模型完美支持32K长上下文

Transformer架构开源项目Qwen1.5模型语言模型聊天模型Huggingface多语言支持Github

Qwen1.5系列的14B参数量化版本，采用AWQ技术实现高性能与低资源消耗的平衡。模型支持多语言处理，具备32K上下文长度能力，并改进了对话质量。无需额外代码即可使用，整合了SwiGLU激活和优化的注意力机制，简化了开发流程。作为Qwen2的预览版，该模型在多个方面展现了性能提升。

uncertainty-calibration - 深度学习预测校准技术的前沿研究与实践应用

预估校准机器学习广告推荐不确定性量化模型评估Github开源项目

uncertainty-calibration项目是预估校准技术研究的综合资源库。该项目涵盖后处理方法、模型集成方法和校准理论分析等多个领域，并提供广告等实际应用案例。项目还包括评价指标、公开数据集和中文资料，为研究人员和从业者提供了全面的校准技术参考。

SoM - 创新视觉提示技术提升GPT-4V图像理解能力

GPT-4V视觉提示Set-of-Mark图像分割视觉推理Github开源项目

Set-of-Mark (SoM)通过在图像上叠加可定位标记，增强GPT-4V的视觉理解能力。该技术改善了模型在多种视觉任务中的表现，实现跨图像引用、问题解决和知识共享等应用。SoM为视觉AI领域开辟新方向，使GPT-4V能更准确地分析复杂视觉信息。

spotify_to_tidal - 将Spotify播放列表同步至Tidal的高效命令行工具

SpotifyTidal音乐同步命令行工具播放列表Github开源项目

spotify_to_tidal是一款命令行工具，用于将Spotify播放列表导入Tidal。该工具采用性能优化，适合定期同步大型音乐收藏。它支持同步全部或特定Spotify播放列表，以及'喜欢的歌曲'。这为跨平台音乐管理提供了便利的解决方案。

doctr-crnn-vgg16-bn-fascan-v1 - VGG16-CRNN文字识别模型

开源项目PyTorch模型HuggingfaceTensorFlow深度学习图像识别GithubOCR技术

doctr-crnn-vgg16-bn-fascan-v1是一个基于CRNN架构的文字识别模型，采用VGG16作为特征提取网络。模型通过DocumentFile接口支持图像处理，结合灵活的检测架构选择机制，可实现文档OCR任务。该实现同时支持TensorFlow 2和PyTorch框架，便于开发者快速部署和使用。

ShareX - 全能截屏、文件分享与生产力工具

ShareX截图工具文件共享生产力工具开源软件Github开源项目

ShareX是一款开源的截屏、文件分享和生产力工具。它集成了屏幕截图、文件上传、URL缩短等功能于一体。支持多种截图模式，如全屏、区域、窗口等，并提供图像编辑、水印添加、滚动截图和OCR文字识别功能。用户可以将文件快速上传至多个平台，支持自定义上传规则和多种云存储服务。该工具还具备任务自动化和快捷键设置功能，可大幅提升工作效率。ShareX为免费软件，专为Windows平台设计。

transformer-models - MATLAB深度学习变换器模型实现库

TransformerBERTMATLAB深度学习自然语言处理Github开源项目

该项目提供MATLAB环境下的多种深度学习变换器模型实现，包括BERT、FinBERT和GPT-2。支持文本分类、情感分析、掩码标记预测和文本摘要等自然语言处理任务。项目特点包括预训练模型加载、模型微调、详细示例和灵活API，可用于研究和实际应用。

factool - 增强型AI文本事实性检测框架

FacToolAI大语言模型事实检测生成式AIGithub开源项目

FacTool是一款专注于检测大型语言模型生成文本中事实性错误的增强型框架。该工具支持知识问答、代码生成、数学推理和科学文献综述四个领域的检测任务。通过识别错误并提供分析和修正建议，FacTool显著提升了AI生成内容的可靠性和准确性。这一创新工具为AI研究和开发提供了有力支持，有助于推动生成式AI技术的整体进步。

gpt2 - HPU处理器上运行GPT2的Gaudi配置方案

Optimum HabanaGithub模型训练开源项目硬件加速模型Huggingface机器学习人工智能

GPT2模型在Habana Gaudi处理器(HPU)上的优化配置方案，通过GaudiConfig文件实现Fused Adam优化、梯度裁剪和混合精度训练。基于Optimum Habana接口，支持单/多HPU环境下的模型加载、训练和推理，可用于各类下游任务。配置方案与Transformers库完全兼容，并提供HPU专属训练参数。

RealVisXL_V3.0 - 高度逼真的AI图像生成模型

图像模型AI绘图开源项目真实感渲染图像生成模型HuggingfaceRealVisXLGithub

RealVisXL_V3.0是一个专注于生成照片级真实感图像的AI模型。该模型能够创作SFW和NSFW内容，具有优秀的细节表现和自然质感。尽管仍处于训练阶段，RealVisXL_V3.0已展现出显著潜力。通过调整采样步骤、方法和高清修复参数，用户可以进一步优化生成效果。这个模型为视觉创作提供了强大的工具支持。

Translumo - 高精度实时屏幕翻译工具集成多OCR引擎和多语言支持

Translumo屏幕翻译OCR引擎实时翻译多语言支持Github开源项目

Translumo作为一款先进的屏幕翻译工具，能实时检测并翻译指定区域的文本内容。其核心优势在于集成了多个OCR引擎，并通过机器学习模型评分机制确保最佳识别效果。该工具具备简洁界面、低延迟特性，并针对系统性能进行了多项优化。Translumo支持多种语言的识别和翻译，专为Windows 10/11系统设计，满足了实时翻译场景的多样化需求。

tesseract-ocr-for-php - 用于PHP的Tesseract OCR封装库

Tesseract OCRPHP图像识别开源库多语言支持Github开源项目

tesseract-ocr-for-php是一个PHP封装库，提供简洁的接口调用Tesseract OCR引擎。该库支持多语言文字识别、自定义配置和多种输出格式(如HOCR、PDF)。适用于文档数字化、图像文字提取等OCR应用场景。通过Composer可快速集成到PHP项目中，简化OCR开发流程。

controlnet-openpose-sdxl-1.0 - 基于SDXL的开源人体姿态控制模型

Github开源项目人体姿态检测SDXL图像生成模型ControlNetHuggingface机器学习

controlnet-openpose-sdxl-1.0是一个基于SDXL开发的人体姿态控制模型，通过OpenPose技术实现对AI生成图像中人物姿态的控制。模型在HumanArt数据集上达到0.357 mAP指标，可用于生成真实人物和动漫风格图像。该项目基于stabilityai的SDXL基础模型开发，采用Apache 2.0许可证发布。

ballerine - 灵活的开源风险管理系统实现企业决策自动化

Ballerine风险管理开源身份验证工作流引擎Github开源项目

Ballerine是一款开源风险管理系统，为全球支付公司、电商平台和金融科技企业提供客户生命周期的自动化决策支持。该系统集成了灵活的规则和工作流引擎、插件系统、人工审核后台和前端信息收集流程。Ballerine覆盖账户开立、承保和交易监控等环节，让企业能够根据自身需求定制用户身份和风险管理策略。

papermerge - 开源文档管理系统高效数字归档全文搜索

Papermerge DMS文档管理系统OCR全文搜索开源软件Github开源项目

Papermerge开源文档管理系统专注于扫描文档处理和长期存储。系统集成OCR文本提取、全文搜索、现代化文件浏览等核心功能。支持多种文档格式，提供REST API和版本控制。作为基于Web的解决方案，Papermerge适用于需要高效数字文档管理的各类场景。

dpt-beit-large-512 - BEiT架构驱动的高性能单目深度估计模型

BEiTGithub开源项目计算机视觉DPTHuggingface单目深度估计MiDaS模型

dpt-beit-large-512是一款基于BEiT架构的单目深度估计模型,采用512x512高分辨率在140万张图像上训练。模型能从单一图像推断详细深度信息,在多项基准测试中表现卓越。作为MiDaS v3.1系列中的佼佼者,该模型在3D重建、自动驾驶等计算机视觉任务中展现出强大的深度估计能力。

MEETING_SUMMARY - 基于多数据集训练的会议对话智能摘要模型

国际市场Huggingface用户界面生产成本开源项目模型Github趋势设计多功能遥控器

MEETING_SUMMARY是一个针对会议对话内容进行智能摘要的AI模型。它通过多个数据集训练，包括cnndaily、newyorkdaily和xsum等。该模型在ROUGE评测指标上表现良好，能准确提取会议要点并生成简洁摘要。除支持常规文本摘要外，它还专注于对话场景的关键信息提取，有助于快速把握会议重点。

greek-text-summarization - 基于mT5的希腊语文本自动摘要模型助力高效内容处理

Github模型模型训练开源项目希腊语Hugging FacemT5-smallHuggingface摘要生成

该项目基于mT5-small模型开发的希腊语文本摘要系统，能够自动生成准确的文章摘要。项目已部署于Hugging Face Spaces平台，支持transformers库快速调用，为希腊语内容处理、新闻总结和文档分析等场景提供了专业的自然语言处理解决方案。

awesome - 综合Chart.js生态系统资源指南

Chart.js数据可视化图表库开源JavaScriptGithub开源项目

项目整理了Chart.js生态系统中的关键组件，包括各类资源、图表类型、插件、适配器和集成工具。详细列举了不同版本的兼容性，覆盖了样式、功能、交互和数据处理等多个方面。同时提供了多种编程语言和框架的集成方案，以及开发辅助工具，为Chart.js用户提供了全面的参考指南。

stable-diffusion-3.5-large-gguf - Stable Diffusion 3.5大型模型的GGUF量化版本

图像生成Huggingface文本转图像ComfyUI开源项目模型GithubStable Diffusion 3.5量化模型

这是Stability AI发布的Stable Diffusion 3.5大型模型的GGUF量化版本，专为ComfyUI-GGUF定制节点开发。模型继承原版所有功能及许可条款，通过GGUF格式实现更高效的部署。模型文件可直接放置于ComfyUI/models/unet目录下使用，为开发者提供文本生成图像的轻量级实现方案。

paraphrase-multilingual-mpnet-base-v2 - 跨语言句子向量化模型支持聚类和语义检索

模型Github多语言模型开源项目文本嵌入Huggingface语义搜索sentence-transformers自然语言处理

paraphrase-multilingual-mpnet-base-v2是一个基于sentence-transformers的多语言句子嵌入模型，支持50多种语言。它将句子和段落映射为768维向量，适用于聚类和语义搜索。模型易于使用，通过pip安装即可快速集成。在Sentence Embeddings Benchmark上表现出色，采用XLMRobertaModel和平均池化层结构，可有效处理不同长度的文本输入。

youdaonote-pull - 有道云笔记本地导出工具支持Markdown转换

有道云笔记导出备份PythonMarkdownGithub开源项目

youdaonote-pull是一个开源工具，用于将有道云笔记导出到本地。它支持原格式下载、Markdown转换和图片本地化。该工具在本地运行，保护数据安全。提供可执行程序，方便非技术用户使用。适合需要备份或迁移有道云笔记的用户。

opt-66b - Meta AI推出OPT系列开源预训练语言模型促进NLP研究

预训练模型OPTGithub模型开源项目自然语言模型Huggingface大语言模型文本生成

OPT是Meta AI开发的开源预训练Transformer语言模型系列,参数规模从125M到175B不等。该系列模型主要基于英语文本训练,性能可媲美GPT-3。OPT旨在促进大型语言模型的可复现研究,使更多研究者能够参与探讨其影响。这些模型可用于文本生成和下游任务评估,但也存在偏见等局限性。通过开放OPT,Meta AI期望推动自然语言处理技术的整体进步。

相关文章

Article Cover

Visual-Chinese-LLaMA-Alpaca 学习资料汇总 - 多模态中文大语言模型

Article Cover

LLM-groundedDiffusion学习资料汇总 - 用大语言模型增强文本到图像扩散模型的提示理解

Article Cover

awesome-llm-agents学习资料汇总 - 大语言模型智能体精选列表

Article Cover

ChatLLM学习资料汇总 - 轻松玩转LLM兼容OpenAI与LangChain

Article Cover

ollama-grid-search学习资料汇总-自动化评估和比较LLM模型的桌面应用

Article Cover

awesome-llm-role-playing-with-persona学习资料汇总 - 大语言模型角色扮演与人格赋予技术综述

Article Cover

NeMo-Curator学习资料汇总 - GPU加速的大语言模型数据处理工具包

Article Cover

pykoi-rlhf-finetuned-transformers学习资料汇总 - 开源RLHF统一接口

Article Cover

ChainFury入门指南 - 开源生产级LLM链式引擎

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号