Y Combinator Alum – AI 开发工具

Header Image

免责声明：此存储库由 SID Tech Inc. 的创始人和 Y Combinator 社区的其他志愿者维护。此存储库和 SID Tech Inc. 与 Y Combinator 无关，也未得到 Y Combinator 的赞助或认可。

这是一个 精心挑选的 由 YC 公司 构建的 AI 开发工具 的集合。
我们希望成为 LLM/ML 开发人员 值得信赖的起点。

概览

🔭 分析与监控
💾 向量数据库与嵌入
🎯 数据集成与检索
🚧 基础设施
🔎 LLM 服务器与微调
📝 数据集生成与处理
🔒 安全
💬 提示管理与测试
🥁 编排
🔈 音频
🤖 简化开发

分析与监控

Humanloop：Humanloop 类似于 LLM 的 datadog。它们为你提供评估 LLM 应用并采取改进措施的工具。
Helicone：捕捉 LLM 数据的最简单方式（开源）。
Langfuse：用于 LLM 应用的开源分析。(Demo / Docs)
UpTrain：开源工具包，用于评估和监控 LLM 应用的各个方面，如幻觉、偏见、语调、正确性等。(Demo / Docs)
Structured：将复杂系统日志数据转换为易于理解的见解的 LLM 工具。(Demo)
Traceloop：自信部署。自动评估并监控模型、提示和 LLM 架构的变化。
BerriAI：一个简单轻便的包，用于调用 OpenAI、Azure、Cohere 和 Anthropic API 端点。
Parea：通过严格的测试和版本控制改进并监控你的 LLM 应用性能。
Axilla：用于 TypeScript 的开源 AI 框架，覆盖整个生命周期：文档摄取与检索、持续评估、服务和监控。(Docs)
DAGWorks：为 Hamilton 提供可观察性和监控解决方案。通过一行代码变化让 Hamilton 具有血统、目录和可观察性。
HegelAI 的 PromptTools：用于提示、模型和向量数据库评估和实验的开源工具。(Demo / Docs)

向量数据库与嵌入

Supabase Vector：用于 Postgres 的开源向量工具包。使用 Supabase 客户端库来存储、索引和查询你的向量嵌入。(Demo / Docs)
LanceDB：开源、对开发者友好的多模态 AI 向量数据库。将非结构化存储成本降低 80%，并实现比 parquet 快 1000 倍的 AI 性能。(Demo / Docs)
SID.ai：全托管检索管道，使连接 Google 邮件、Notion、GDrive 或完全自定义数据等服务变得容易。一个下午内，你可以连接任何你想要的数据源，并立即扩展到数百万用户。(Demo / Docs)。

数据集成与检索

SID.ai：在一个下午内将客户数据从 GSuite、Notion、邮件等连接到你的 LLM 应用程序。只需添加一个“连接”按钮，然后调用我们的 API 来检索上下文。SID 处理嵌入、同步和托管。(Demo / Docs)
Automorphic 的 Trex'：智能地将非结构化数据转换为结构化的 JSON、SQL 或其他上下文无关的语法输出。(Demo / Docs)
Axilla：用于 TypeScript 的开源 AI 框架，覆盖整个生命周期：文档摄取与检索、持续评估、服务和监控。(Docs)
Outerbase：你的数据库接口。EZQL 是我们的开源自然语言到 SQL 代理，允许任何人向他们的数据提问。(Demo / Docs)

基础设施

Anarchy：为开发人员提供的 LLM 基础设施。使用 Anarchy 有效运行开源模型并增强其能力。
SID.ai：全托管检索管道，使连接 Google 邮件、Notion、GDrive 或完全自定义数据等服务变得容易。一个下午内，你可以连接任何你想要的数据源，并立即扩展到数百万用户。(Demo / Docs).
Ivy：用一行代码加速你的 AI。(Demo / Docs)
Pump：节省 60% AWS 费用的最快方式。Pump 使用 AI 和团购自动化节省成本，无需工程努力。
Cedana：智能迁移 AI 工作负载以提高资源利用率，启用作业级 SLA 并提高可靠性，以实现成本效益高且可扩展的培训和推理。(Demo / Docs) ## 大型语言模型服务与微调
OpenAI: 不需要介绍。(演示 / 文档)
BerriAI: 一个简单轻便的软件包，用于调用OpenAI、Azure、Cohere、Anthropic API端点。
Anarchy: 为开发者提供的大型语言模型基础设施。使用Anarchy高效运行开源模型，并增强其能力。
Ivy: 只需一行代码加速您的人工智能。(演示 / 文档)
Cedana: 智能迁移AI工作负载以提高资源利用率，支持工作级别SLA并提高可靠性，实现经济高效、可扩展的训练和推理。(演示 / 文档)
pyq AI: 开发者在云中训练和部署特定任务的AI模型的简单方法。Pyq通过提供易用的软件来处理您的数据集和任务，并输出定制的AI模型。
Flower: 用于在分布式数据上训练AI的开源框架。公司使用Flower来轻松改进其在敏感数据上无法利用的AI模型。(演示 / 文档)
FiddleCube: 在几分钟内生成高质量的数据集以微调大型语言模型。

数据集生成与处理

Scale: Scale通过结合基于AI的技术与人类在环路中，开创了数据标注行业，提供前所未有的高质量、可扩展性和效率的标注数据。(演示 / 文档)
FiddleCube: 在几分钟内生成高质量的数据集以微调大型语言模型。
pyq AI: 开发者在云中训练和部署特定任务的AI模型的简单方法。Pyq通过提供易用的软件来处理您的数据集和任务，并输出定制的AI模型。
DAGWorks的Hamilton: 描述数据流的开源微编排框架。公司使用它来建模数据和特征工程管道、提示工程和大型语言模型应用工作流。(演示)
Query Vary: 大型语言模型的测试套件。(演示 / 文档)

安全

Automorphic的Aegis: 大型语言模型的自硬化防火墙。
Flower: 用于在分布式数据上训练AI的开源框架。公司使用Flower来轻松改进其在敏感数据上无法利用的AI模型。(演示 / 文档)

提示管理与测试

Parea: 通过严格的测试和版本控制来改进和监控您的大型语言模型应用的性能。
HegelAI的PromptTools: 用于评估和实验提示、模型和向量数据库的开源工具。(演示 / 文档)
Traceloop: 自信地部署。自动评估和监控模型、提示和大型语言模型架构的变化。
Query Vary: 大型语言模型的测试套件。(演示 / 文档)
Humanloop: Humanloop就像大型语言模型的Datadog。它们为您提供评估大型语言模型应用并采取行动改进它们的工具。
UpTrain: 用于提示测试大型语言模型应用的开源工具包，通过评估幻想、偏见、语调、正确性等方面。(演示 / 文档)

编排

Sematic: 深受机器学习团队喜爱的开源编排器。它能够实现端到端管道，将模型周转时间减少80%。(演示 / 文档)
DAGWorks的Hamilton: 描述数据流的开源微编排框架。公司使用它来建模数据和特征工程管道、提示工程和大型语言模型应用工作流。(演示)
Arakoo的EdgeChains: 开源SDK，将生成性AI应用建模为配置管理。基于Jsonnet作为编排语法构建。

音频

AssemblyAI: 通过我们的安全和可扩展的API提供语音识别、自动转录、语音摘要等AI模型。(演示 / 文档)

简化开发

Sweep AI: AI驱动的初级开发者，将错误报告和功能请求转换为代码更改。开发者报告诸如“我的登录页面上的支付链接坏了”之类的错误，然后Sweep编写代码来修复它。(演示 / 文档)
Continue: 软件开发的开源自动驾驶仪——一个VS Code扩展，将ChatGPT的力量带入您的IDE。(演示 / 文档)
Tempo Labs: AI设计和原型工具，直接在您的代码库中生成和编辑React代码。
Theneo: 下一代API文档制作工具，具有AI的出色表现。在几秒钟内生成如Stripe般的API文档。(演示 / 文档)