#嵌入
pytorch-metric-learning入门学习资料汇总 - 快速上手深度度量学习的PyTorch工具库
GenossGPT
Genoss是一个开源项目,使用GPT4ALL等模型,作为OpenAI GPT 3.5和4的替代方案。项目由Sicarator引导,支持GPT4ALL模型和嵌入。用户只需一行代码即可替换OpenAI ChatGPT API,获得相同的响应格式和功能。项目目前处于预发布阶段,未来计划支持更多模型及云服务提供商,方便用户本地或云端运行大模型。访问http://localhost:4321/docs了解更多信息。
langchain-rust
langchain-rust是LangChain在Rust中的实现,用于构建可组合的LLM应用。支持多种LLM如OpenAi、Azure OpenAi和Ollama,提供嵌入、向量存储、链式操作和多种工具集成功能。简单配置后,用户可快速启动对话链、问答链等应用。
gritlm
本页面详细介绍了生成代表性指令微调(GRIT)技术,该技术训练大型语言模型同时处理生成和嵌入任务。GritLM 7B在大规模文本嵌入基准测试(MTEB)中树立了新标杆,并在多种生成任务中表现出色。GritLM 8x7B在开放生成语言模型中表现最佳,同时在嵌入任务中保持领先。GRIT结合生成和嵌入训练,无性能损失,并提高了检索增强生成(RAG)的速度超过60%。代码和模型均已免费开放,欢迎社区贡献和使用。
embedditor
Embedditor是一款开源嵌入预处理编辑器,简便如微软Word,帮助编辑GPT/LLM嵌入,优化向量搜索并显著降低嵌入和存储成本。提高检索内容的关联性和准确性,支持自动化预处理,去除噪音信息和常用词汇。特性包括添加元数据、标记和筛选嵌入部分,提供美观的HTML标记和多种文件格式保存。本地部署,最大化数据控制并降低30%成本。
redis-arXiv-search
基于Redis Vector Search技术,实现高效的arXiv论文语义搜索。项目结合FastAPI、React和Docker等技术,并支持HuggingFace、OpenAI和Cohere的向量嵌入模型。用户只需简单设置,即可通过本地或云端的Redis部署轻松运行和定制该应用。
sqlite-vss
sqlite-vss是基于Faiss的SQLite扩展,为数据库增添向量搜索功能。这个开源工具可用于开发语义搜索、推荐系统和问答应用。它支持自定义向量和多种嵌入方式,API设计类似FTS5。sqlite-vss兼容Python、Node.js等多种编程语言,可通过pip、npm等包管理器安装。该扩展为开发者提供了在SQLite中实现高效向量相似度搜索的简便解决方案。
HugeCTR
HugeCTR是专为大规模深度学习模型设计的GPU加速推荐系统框架,支持高效训练和推理。框架在MLPerf等基准测试中性能卓越,提供直观的API接口,并具备大规模嵌入等核心功能。HugeCTR实现了模型并行训练、混合精度计算、嵌入缓存等先进特性,可高效部署超大规模嵌入的推荐模型。
buster
Buster是一款基于OpenAI API的文档智能问答机器人。它可根据任意文档源定制,支持本地部署和自定义数据导入。Buster通过相似度匹配和GPT模型生成准确回答,并可通过BusterConfig灵活配置。这款开源工具旨在提高文档查询效率,为用户提供相关且精准的文档信息。
pytorch-metric-learning
PyTorch Metric Learning提供多种损失函数、挖掘器和评估工具,支持自定义和无监督学习。该库适用于各种训练和测试需求,配有详细文档和示例,适合高效嵌入空间计算的应用场景。