#文档嵌入
llm-search - 支持多格式文档和语义重排搜索功能的问答系统
开源项目pyLLMSearch大型语言模型混合搜索文档嵌入语义搜索Github
llm-search是一款高效的问答系统,提供简易的YAML配置和与多个本地文档集的交互能力。特色包括优化的文档解析、结合HyDE技术提高搜索结果的准确性和相关性的混合搜索、聊天历史、深度链接、重新排名和定制嵌入等。适用于各类大型语言模型,如OpenAI或本地方案,提供高度定制化。此外,系统能够生成高质量的密集和稀疏嵌入,以优化搜索效果,支持多查询和与其他LLM平台的互操作性。
chatgpt-retrieval-plugin - 增强AI模型的文档访问和语义搜索能力的独立的检索后端
ChatGPTRetrieval Plugin向量数据库自然语言查询文档嵌入Github开源项目
ChatGPT检索插件是一个独立的检索后端,为AI模型提供语义搜索和文档检索功能。它利用OpenAI的嵌入模型和向量数据库技术,可处理多种数据源的文档,支持元数据过滤,并提供灵活的部署选项。该插件可与ChatGPT自定义GPT、函数调用或插件模型集成,使开发者能够构建高度定制化的文档访问系统,适用于个人用户和企业内部知识管理。
codapi - 开源交互式代码示例工具 增强文档、教育和开发体验
Codapi交互式代码示例沙箱环境文档嵌入开源项目Github
Codapi是一个开源的交互式代码示例平台,用于在产品文档、在线课程或博客文章中嵌入可执行的代码片段。该工具能自动将静态代码示例转换为迷你交互环境,支持多种编程语言、数据库和软件的沙箱执行。Codapi提供HTTP API和JavaScript小部件,便于集成和使用。其轻量级设计和Apache-2.0许可证使其易于在各种项目中应用。
scincl - 基于引用关系的科研论文嵌入模型
模型科研论文SciNCL开源项目对比学习Huggingface句子转换器Github文档嵌入
SciNCL是一个基于BERT的预训练语言模型,专门用于生成科研论文的文档级嵌入。该模型利用论文间的引用关系进行对比学习,在S2ORC引用图上训练。SciNCL在SciDocs多项评估指标上表现优异,平均得分达81.9。研究人员可以通过Sentence Transformers或Transformers库方便地使用该模型,为科研文献分析和检索提供支持。
相关文章