Project Icon

deplot

创新图表理解技术实现一次性视觉语言推理

DePlot是一种创新的视觉语言推理模型,通过将图表转换为线性化表格实现图表到文本的转换。该模型将推理过程分为图表到文本转换和文本推理两个步骤。DePlot能与预训练大型语言模型无缝集成,在人工编写的查询任务中,仅需一次提示就比现有最先进模型提升24.0%的性能。这一突破性技术为图表理解和视觉问答领域带来新的发展方向。

uform-gen2-dpo - 基于偏好优化的视觉语言模型 用于图像描述和视觉问答
GithubHuggingfaceUForm-Gen2-dpo图像描述多模态模型开源项目模型深度学习视觉问答
UForm-Gen2-dpo是一个经过直接偏好优化(DPO)训练的视觉语言模型,专门用于图像描述和视觉问答。该模型结合了CLIP式ViT-H/14视觉编码器和Qwen1.5-0.5B-Chat语言模型,能够生成准确的图像描述、回答图像相关问题,并支持多模态对话。在MME基准测试中,UForm-Gen2-dpo在感知、推理、OCR等多个图像理解任务上展现出优秀性能,为视觉语言处理提供了高效可靠的解决方案。
detr-doc-table-detection - 基于DETR模型的文档表格智能识别系统
DETRGithubHuggingface开源项目文档处理模型深度学习目标检测表格检测
detr-doc-table-detection是一个基于DETR架构的文档表格检测模型,能够精准识别有边框和无边框表格。该模型由Taha Douaji开发,采用ICDAR2019数据集训练,适用于各种文档分析场景。模型提供简洁的API接口,便于集成到现有系统中。作为文档信息提取的重要工具,它在提高数据处理效率方面具有显著优势。
deberta-xlarge-mnli - 高性能自然语言处理模型面向多任务学习优化
BERTDeBERTaGithubHuggingface人工智能开源项目机器学习模型自然语言处理
DeBERTa-xlarge-mnli是一个经过MNLI任务微调的大型语言模型。该模型采用解耦注意力机制和增强型掩码解码器,在多项NLU任务中表现优异。它在SQuAD、GLUE基准测试等任务上的成绩超越了BERT和RoBERTa,为复杂的自然语言理解应用提供了强大支持。
datamapplot - Python库实现数据地图的高质量可视化
DataMapPlotGithubPython库交互式绘图开源项目数据可视化数据地图
DataMapPlot是一个用于创建数据地图可视化的Python库。它可生成适用于演示、海报和论文的静态或简单交互式数据地图图表。用户只需标记数据点簇,库即可自动处理剩余工作。DataMapPlot提供多种自定义选项,包括暗色模式、字体和颜色映射等。其核心功能集中在create_plot和create_interactive_plot两个函数上,使用简便。该工具适合各类数据可视化需求,尤其适用于科研成果展示。
MiniCPM-V-2 - 多模态语言模型,支持跨平台高效部署
GithubHuggingfaceMiniCPM-V场景文本理解多模态开源项目模型深度学习视觉问答
MiniCPM-V 2.0是一个多模态大模型,以高效端侧部署和可靠性为特色,支持OCRBench和TextVQA等基准测试。该模型结合RLHF多模态技术,减少幻觉生成,并能处理任意宽高比的高分辨率图像。MiniCPM-V 2.0可在多数GPU和PC上高效运行,拥有中英双语支持,并能够在移动设备上执行,提供多种部署选择。
nli-deberta-v3-xsmall - 使用DeBERTa模型实现自然语言推理与零样本分类
Cross-EncoderGithubHuggingfaceMultiNLISNLIzero-shot分类开源项目模型自然语言推理
该模型通过Cross-Encoder技术训练,基于microsoft/deberta-v3-xsmall,实现自然语言推理及零样本分类。其使用SNLI和MultiNLI数据进行训练,表现为:SNLI测试集91.64%的准确率,MNLI错配集87.77%的准确率。模型能识别句对的矛盾、蕴涵和中立标签,支持Python和Transformers库的调用,便于在多场景中应用。详细信息请参阅文档以提升项目中的自然语言处理效果。
plotly.py - Python交互式数据可视化库 支持多种科学与统计图表
GithubPython库plotly.py交互式图表开源开源项目数据可视化
plotly.py是基于plotly.js的开源Python数据可视化库,提供超过30种科学、统计和金融图表类型。它支持在Jupyter、HTML文件和Dash应用中创建交互式图表。该库采用声明式API,简单易用且灵活。plotly.py具备静态图像导出功能,并有详细文档和活跃的社区支持。基于MIT许可发布,适用于各类数据分析和可视化需求。
VisualDL - 参数实时追踪与多模型可视化分析工具
GithubPaddlePaddleVisualDL开源项目数据分析模型可视化训练过程
VisualDL,一款集成于PaddlePaddle的高效可视化分析工具,能够展现训练参数、模型结构与数据样本的动态图表。完美支持Python,通过实时数据追踪、多实验视图对比等功能,助力开发者清晰直观地优化和提升模型表现。
docling-models - 将PDF文档中的版式与表格结构自动识别的开源模型
DoclingGithubHuggingfacePDF文档转换TableFormer布局分析开源项目模型表结构识别
docling模型支持PDF文档的布局与表格结构分析。布局模型使用RT-DETR技术识别版式元素,如标题、脚注与图片,性能接近人类标准。TableFormer模型则在表格结构识别上表现优异,准确识别复杂表格。该项目可应用于多种需要文档处理的场景。
donut-base - Donut模型:革新文档理解的图像到文本AI技术
DonutGithubHuggingface图像到文本开源项目文档理解模型深度学习计算机视觉
Donut是一种创新的文档理解模型,无需OCR即可直接从图像生成文本。它结合了Swin Transformer视觉编码器和BART文本解码器,高效处理多种文档图像。这个预训练基础模型可针对文档分类、信息提取等任务进行微调,在文档智能处理领域应用广泛。作为开源项目,Donut为AI研究和开发提供了强大的文档处理工具。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号