indexify

构建快速数据管道实时处理非结构化数据的开源引擎

Indexify 数据管道非结构化数据提取器向量数据库 Github 开源项目

Indexify是一个开源引擎，用于构建处理非结构化数据的快速数据管道。它支持视频、音频、图像和文档处理，使用可重用提取器进行数据嵌入、转换和特征提取。系统能自动更新向量数据库和结构化数据库，支持增量提取，并提供提取器SDK。Indexify预置多种提取器，兼容多种LLM框架和存储系统，可本地运行原型。这些特性使其成为实时RAG应用和智能体的高效数据处理解决方案。

访问官网

Github

介绍相关项目

txtai - 集成语义搜索的高效嵌入式数据库解决方案

GithubLLMtxtai大型语言模型嵌入式数据库开源项目语义搜索

txtai是一个功能全面的嵌入式数据库，不仅支持语义搜索和大语言模型协同工作，还提供全流程语言模型任务处理。特色功能包括支持SQL的矢量搜索、主题建模和增强生成检索等。txtai可以在本地运行，也可以通过容器编排进行扩展，并提供多语言API绑定，以便用户快速部署和使用。

minisearch - 轻量级全文搜索引擎实现快速离线搜索体验

GithubJavaScriptMiniSearch全文搜索内存索引开源项目搜索引擎

MiniSearch是一款JavaScript编写的轻量级内存全文搜索引擎。它支持精确匹配、前缀搜索、模糊匹配和字段提升等功能，适用于数据量适中的全文搜索场景。MiniSearch可在浏览器和Node.js环境运行，支持实时索引更新和自动建议功能。无外部依赖且资源占用少，非常适合需快速响应的客户端搜索应用。

spider - 快速并发的网络爬虫和索引工具

GithubSpider并发开源项目无头浏览器流式处理网络爬虫

Spider是一个开源的网络爬虫和索引工具，以其快速并发能力著称。它提供流式处理、去中心化、Headless Chrome渲染等功能，支持HTTP代理和定时任务。Spider具备智能模式、黑白名单管理、深度控制等特性，并支持动态AI提示脚本和CSS选择器抓取。这些功能使Spider成为适用于多种网络数据采集和处理场景的强大工具。

influxdb - 开源时序数据库高效处理指标事件和实时分析

GithubInfluxDB实时分析开源开源项目数据分析时序数据库

InfluxDB作为开源时序数据库，专注于高效处理指标、事件和实时分析。该系统支持大规模时间序列数据存储和快速查询，提供云服务和本地部署选项。InfluxDB拥有活跃社区、丰富学习资源和完善生态系统，广泛应用于实时监控、物联网数据处理等领域。

thepipe - 全能多模态数据提取API 为LLM开发赋能

APIGithubLLM接口thepi.pe多模态数据提取开源项目文档处理

thepipe是一款多功能API，支持从PDF、网页、视频等多种来源提取markdown、表格和图像数据。该工具与GPT-4等视觉语言模型兼容，可轻松集成各类LLM和向量数据库。thepipe具备AI驱动的文件类型识别、版面分析和结构化数据提取能力，为多模态LLM开发提供综合支持。开发者可选择云端服务或本地部署方式使用。

solr - 开源高性能搜索引擎

Apache SolrGithub企业级开源开源项目搜索平台高性能

Apache Solr是基于Lucene的开源搜索引擎，提供高效的全文检索和实时索引功能。支持分布式搜索、灵活配置、容器化部署和集群管理。Solr具备强大的搜索和分析能力，适用于企业、电商和数据分析等场景。其丰富的功能（如facet搜索）、卓越的性能和高扩展性可满足复杂的搜索需求。凭借易用的管理界面，Solr成为构建现代搜索应用的理想选择。

airy - 流式数据处理框架赋能 AI 模型训练与实时分析

Airy CoreGithub开源开源项目数据平台机器学习流处理

Airy Core 是一个开源的流式数据处理框架，为 AI 模型训练和实时分析提供支持。它集成了多种数据源，如 Facebook、WhatsApp 等社交平台，并支持自定义连接器。Airy Core 能够融合历史和实时数据流，简化数据摄取流程，并通过预构建连接器从 Kafka 直接消费数据。基于 Apache Kafka 构建的 Airy Core 可同时处理海量事件，实现数据的实时流式传输。这一框架不仅简化了部署过程，还缩短了开发周期，同时增强了基础设施和应用的稳定性。

usearch - 快速轻量的开源向量搜索引擎

GithubHNSW算法USearch向量搜索引擎多语言支持开源项目相似度搜索

USearch是一个开源的单文件相似性搜索引擎,专注于向量和文本搜索。该引擎比FAISS性能提升10倍,支持多种编程语言和平台。USearch提供SIMD优化和自定义度量功能,具有高内存效率,可从磁盘直接查看大型索引。它兼容多种数据库,适用于语义搜索、聚类等场景,为向量搜索提供了灵活高效的解决方案。

pisa - 高效率大规模文本搜索引擎

GithubPISA信息检索倒排索引开源项目搜索引擎文本检索

PISA是一款开源的高性能文本搜索引擎，专门面向大规模文档集合。该引擎使用C++开发，具备解析、索引和分片等功能，并实现了多种索引压缩方法和查询处理算法。PISA支持构建倒排索引、执行布尔查询和文档排序，适用于信息检索研究及通用搜索系统。它可以处理包含5000万网页文档的大型语料库，并在毫秒级别内返回搜索结果，为研究人员提供了高效的实验平台。

sycamore - AI文档处理与数据抽取

Aryn Partitioning ServiceDETR AI modelGithubSycamore开源项目文档处理引擎矢量数据库

Sycamore是一个开源的AI文档处理引擎，针对ETL、RAG和LLM应用。它具备处理和丰富各类文档（如报告、幻灯片和手册）的能力，特别在PDF和嵌入图表的图像处理上表现优异。借助Aryn Partitioning Service，Sycamore实现了高效的文档分割、OCR和数据提取，极大提升了数据块分割准确性和检索效果。其DocSet抽象模型支持大规模数据处理，包括表格提取和视觉摘要，确保高质量数据可以轻松载入向量数据库和混合搜索引擎。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号