Project Icon

jcseg

轻量级中文分词和关键字提取工具,支持多种语言

Jcseg是一款基于mmseg算法的中文分词器,具备关键字、短语、句子提取及文章自动摘要功能,支持Lucene、Solr、Elasticsearch分词接口。其内置Jetty高性能Web服务器,提供多种分词模式、自定义词库、同义词匹配和拼音追加,适合多种语言客户端调用。

sonic - 快速轻量的开源搜索后端
GithubSonic全文索引开源项目性能优化搜索后端
Sonic是一个开源的搜索后端,具有快速、轻量和无模式等特点。它可以在微秒级时间内处理搜索请求,支持自然语言查询处理和搜索建议功能。相比Elasticsearch等全功能搜索引擎,Sonic提供了一种简单高效的替代方案。该项目重视性能优化和代码质量,致力于提供稳定、快速且资源占用少的搜索服务。
semantic-cache - 基于语义相似度的自然文本缓存工具 提升NLP和AI响应效率
GithubSemantic Cache向量数据库开源项目缓存优化自然语言处理语义相似度
Semantic Cache是一个基于语义相似度的自然文本缓存工具。它能够对自然文本进行分类、缓存AI响应以减少重复计算,并利用已缓存的值降低API延迟。该工具具有多语言支持、复杂查询处理能力,易于集成且可自定义。通过语义相似性存储缓存条目和处理同义词,Semantic Cache为Node.js应用程序提供了简单的API。这使得它特别适用于需要基于语义进行查询或信息检索的任务。
embedditor - 开源向量搜索优化工具,编辑GPT嵌入
EmbedditorGPTGithub向量搜索嵌入开放源代码开源项目
Embedditor是一款开源嵌入预处理编辑器,简便如微软Word,帮助编辑GPT/LLM嵌入,优化向量搜索并显著降低嵌入和存储成本。提高检索内容的关联性和准确性,支持自动化预处理,去除噪音信息和常用词汇。特性包括添加元数据、标记和筛选嵌入部分,提供美观的HTML标记和多种文件格式保存。本地部署,最大化数据控制并降低30%成本。
LLM_Web_search - 增强本地LLM的网页搜索功能,结合DuckDuckGo和多种关键词提取技术
DuckDuckGoGithubLLM_Web_searchOkapi BM25SPLADEtext-generation-webui开源项目
本项目通过特定指令增强本地LLM的网页搜索能力,使用duckduckgo-search进行搜索,并使用LangChain的上下文压缩和Okapi BM25(或SPLADE)技术提取相关信息并添加至模型输出中。支持自定义正则表达式和网页信息读取,推荐使用Llama-3-8B-instruct模型以实现高效搜索与信息提取。提供多种搜索后端与关键词检索器选项,提高兼容性和适用性。
tesseract.js - 多语言的从图像中识别文字的JavaScript库
GithubJavaScript库OCR引擎Tesseract.jsWebAssembly图像识别开源项目
Tesseract.js 是一个功能强大的 JavaScript 库,支持从图像中提取多种语言的文字,适用于浏览器和 Node.js 环境。它利用 WebAssembly 技术封装了 Tesseract OCR 引擎,支持通过 CDN、Webpack 或本地安装进行集成。该库具备低内存占用、快速处理、多种图像格式支持和并行处理功能。最新版本优化了文件大小和运行时性能,兼容多平台,适用于文档扫描和实时视频识别等应用。
opengrok - Java开发的高性能源代码搜索引擎
GithubJava开发OpenGrok开源项目源代码搜索引擎版本控制
OpenGrok是一款高性能源代码搜索引擎,支持多种编程语言和版本控制系统。提供快速搜索、交叉引用和代码导航功能,适用于大型项目。支持Docker部署,遵循语义化版本管理。由Sun Microsystems创建,现为Oracle维护的开源项目。
iresearch - 高性能独立搜索引擎库
GithubIResearch开源项目搜索引擎文档查询索引
iresearch是一个独立搜索引擎库,提供索引和存储功能。支持多版本数据管理和并发读写,通过writer接口索引,reader接口查询。查询使用树状结构,支持自定义排序插件。由多个独立段组成,包含元数据、字段信息、词典、倒排索引等。提供灵活的文档和字段抽象,以及目录、写入器、读取器等核心组件。采用C++开发,支持多种编译器,并有Python封装。
Jlama - 面向Java应用的大型语言模型推理引擎
GithubJavaJlamaLLM推理开源项目模型支持量化模型
Jlama是一款面向Java应用的大型语言模型推理引擎,提供对GPT-2、BERT等模型的支持,集成多种分词器。其功能包括闪电注意力、专家混合,同时支持多种数据类型处理。Jlama借助最新Vector API加速推理,可实现分布式处理,适合集成LLM推理的开发者使用。
open-parse - 高效复杂文档解析和语义分析库
AI应用GithubMarkdown支持Open Parse开源项目文档解析语义处理
Open Parse是一个开源的文档解析库,专注于处理复杂文档结构。它采用视觉分析方法识别文档布局,实现精确分块。该工具支持Markdown语法,具备高精度表格解析能力,并允许用户自定义后处理步骤。Open Parse集成了语义处理功能,能够模拟人类的文档分割方式,为RAG系统和AI应用提供了强大的文档处理基础。
ugrep - 高效全能的开源文件搜索工具
Githubugrep命令行工具开源软件开源项目文本搜索正则表达式
ugrep是一款开源的高性能文件搜索工具,支持Unicode和多行匹配。它能搜索压缩文件和PDF等文档,提供交互式TUI界面和类Google的布尔查询。ugrep完全兼容GNU grep,并增加了模糊搜索、二进制文件搜索等新功能。其高效的DFA正则表达式引擎保证了快速的搜索速度。ugrep支持JSON、XML等多种输出格式,是一个功能全面的现代grep替代工具。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号