Project Icon

QReader

高效稳定的Python QR码识别库

QReader是一个基于YOLOv8的Python库,专门用于识别和解码复杂场景中的QR码。该库集成了先进的QR码检测模型和图像预处理技术,能够在旋转、低分辨率等困难条件下保持较高的识别率。相较于传统方法,QReader表现更为稳定,为开发者提供了可靠的QR码读取解决方案。

manga-ocr - 日本漫画光学字符识别工具,支持多种文本处理场景
GithubManga OCRPythonTransformers光学字符识别开源项目日本放送協会
Manga OCR 是一款基于Transformer的自定义端到端模型的光学字符识别工具,专为日本漫画设计。它可以识别垂直和平行文本、带有振假名的文本、覆盖在图像上的文本、各种字体以及低质量图像。Manga OCR 支持一次性识别多行文本,适用于漫画中的文本气泡。同时,该项目还提供与GUI阅读器和HTML覆盖生成工具的集成,便于用户创建完整的阅读和挖掘工作流程。
YoloDotNet - 基于C#的Yolov8和Yolov10实时目标检测库
GithubYoloDotNet图像处理对象检测开源项目性能优化深度学习
YoloDotNet是基于.NET 8的C#库,支持Yolov8和Yolov10模型进行实时目标检测。该库集成ML.NET和ONNX运行时,并支持CUDA GPU加速,提供分类、目标检测、OBB检测、分割和姿态估计等功能。YoloDotNet在CPU和GPU上均可高效运行,适用于各种计算机视觉应用场景。
llm_aided_ocr - 提升OCR文本质量和一致性的系统
FAISSGithubLLM-Aided OCROCROpenAI APITesseract开源项目
该系统利用自然语言处理、机器学习和智能文本处理技术,将OCR输出的文本转换为高精度、格式化良好的易读文档。它解决了字符识别错误、段落结构不正确、虚构内容和格式不一致等常见OCR问题。支持从PDF到图像的转换,使用Tesseract进行OCR,并提供通过本地或API接口进行高级错误校正、智能文本分块处理和Markdown格式化等功能。此外,还采用FAISS和嵌入相似性检查进行内容过滤,确保输出文本的质量和一致性。
kraken - 优化历史文献和多语言文本识别的开源OCR系统
GithubOCR系统kraken历史文字识别开源项目文本识别非拉丁文识别
kraken是一个开源OCR系统,专注于历史文献和非拉丁文本识别。该系统提供可训练的布局分析、阅读顺序识别和字符识别功能,支持多种文字方向和脚本。kraken能够输出多种格式,并提供公共模型库和灵活的识别网络架构。该项目与eScriptorium密切合作,为用户提供全面的文本数字化解决方案。kraken目前支持Linux和Mac OS X平台。
DAVAR-Lab-OCR - 多模态文档理解开源工具箱
DAVAR-OCRGithub开源代码库开源项目文字识别文档理解算法实现
DAVAR-Lab-OCR是海康威视研究院DAVAR实验室开发的开源OCR仓库,实现了多项最新学术成果。该工具箱涵盖文本检测、识别和端到端识别等基础OCR任务,同时包含信息提取、表格识别和版面分析等文档理解功能。基于mmdetection和mmcv框架构建,具有良好的兼容性和扩展性,为OCR领域的研究和应用提供了综合解决方案。
mmyolo - YOLO算法与实时对象识别工具包
GithubMMYOLOOpenMMLabYOLO系列算法实例分割开源项目目标检测
MMYOLO是一个基于PyTorch和MMDetection的开源工具包,专注于YOLO系列算法,适用于对象检测和旋转对象检测任务。该项目提供统一的基准测试、详细文档和模块化设计,便于用户构建和扩展模型。支持YOLOv5实例分割和YOLOX-Pose等功能,显著提升训练速度,并在RTMDet模型上实现了先进的性能。
layout-parser - 文档图像分析的深度学习工具包
GithubLayout ParserOCR开源项目文档图像分析模型检测深度学习
LayoutParser提供多种深度学习模型和统一API,简化文档图像分析任务。支持布局检测、OCR、数据可视化等功能,并允许共享模型和分析流程。安装简便,可根据需求选择依赖项,是文档图像处理的理想工具。
qdrant-client - Qdrant向量搜索引擎的Python客户端库
FastEmbedGithubPython APIQdrantQdrant Client向量搜索引擎开源项目
为Qdrant向量搜索引擎提供同步和异步API,支持本地模式、REST和gRPC协议,以及FastEmbed简化接口。依赖少,适用于开发、测试和生产环境。
qulacs - 快速高效的量子电路模拟库 适用于大规模复杂和参数化电路
C++GPUGithubPythonQulacs开源项目量子电路模拟
Qulacs是一个Python/C++开发的高性能量子电路模拟库,专注于大规模、含噪声和参数化量子电路的快速模拟。它采用并行化C/C++后端,支持噪声模型、参数化量子门和电路优化。Qulacs提供GPU加速功能和丰富的量子计算研究工具。在多项基准测试中,Qulacs展现出优秀的性能,适用于广泛的量子计算研究领域。
LeYOLO - 可扩展高效的目标检测CNN架构
COCO数据集GithubLeYOLO开源项目目标检测神经网络计算效率
LeYOLO是一种新型目标检测模型系列,通过创新的CNN架构设计实现了计算效率与准确性的优化平衡。该模型引入高效主干网络缩放、快速金字塔架构网络和解耦网络中的网络检测头,大幅降低计算负载。在COCO验证集上,LeYOLO-Small仅使用4.5 GFLOP就达到38.2%的mAP,比YOLOv9-Tiny减少42%计算量。LeYOLO系列具有强大可扩展性,适用于从超低计算需求(<1 GFLOP)到高效高性能(>4 GFLOPs)的多种场景。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号