Project Icon

lance

优化机器学习工作流程的高性能列式数据格式

Lance是为机器学习工作流程优化的现代列式数据格式,提供比Parquet快100倍的随机访问性能,支持矢量索引和数据版本控制。兼容pandas、DuckDB、Polars和pyarrow,适用于搜索引擎、大规模机器学习训练以及复杂数据的存储和查询,如机器人数据和大型图像。更多集成支持即将推出。

lancedb - 高效管理与检索嵌入的开源多模态向量数据库
GPU支持GithubLanceDB多模态数据嵌入管理开源项目矢量搜索
LanceDB 是一款开源的多模态向量数据库,具备持久存储功能,能够简化嵌入的管理与检索。它支持生产级别的向量搜索,无需管理服务器,可存储、查询和过滤向量、元数据以及多模态数据(包括文本、图片、视频、点云等)。它还支持向量相似性搜索、全文搜索和SQL查询,并提供原生的Python和JavaScript/TypeScript支持,同时实现零拷贝和自动版本管理。LanceDB 与 LangChain、LlamaIndex、Apache-Arrow、Pandas、Polars、DuckDB 等多个生态系统集成。其核心由Rust编写,基于Lance构建,专为高性能机器学习工作负载而设计。
arrow - 高效内存分析引擎 加速大数据处理
Apache ArrowGithub内存分析列式存储开源项目数据处理
Apache Arrow 是一个开源的内存分析开发平台,旨在提高大数据系统的数据处理和传输速度。它提供高效的列式内存格式、IPC格式和Flight RPC协议,并支持多种编程语言。Arrow 的核心技术包括高性能的数据结构、跨语言兼容性和零拷贝数据共享,为现代数据分析应用提供了强大的基础架构支持。
datafusion - 基于Apache Arrow的快速查询引擎 支持SQL和DataFrame API
Apache DataFusionArrowGithubRust开源项目数据处理查询引擎
Apache DataFusion是基于Rust和Apache Arrow的查询引擎,提供SQL和DataFrame API。支持CSV、Parquet、JSON和Avro格式,性能优异且可广泛定制。适用于构建特定领域查询引擎、数据库平台和数据管道,便于开发者快速起步并按需定制。其开源特性和活跃社区为项目开发提供了有力支持。
polars - 多语言支持的高性能数据分析引擎
DataFrameGithubPolars多语言支持开源项目数据处理高性能
Polars是一个基于Rust开发的高性能数据处理引擎,提供Python、Node.js和R等多语言接口。它采用Apache Arrow列式内存模型,实现惰性/即时执行、多线程和SIMD等技术,高效处理大规模数据。Polars具有强大的表达式API和查询优化能力,支持流式处理超大数据集,在TPC-H基准测试中性能优异。此外,Polars还支持SQL查询和命令行操作,是一款轻量而强大的数据分析工具。
petastorm - 开源数据访问库,支持单机或分布式训练和评估深度学习模型,直接从Apache Parquet格式数据集中读取数据
Apache ParquetGithubPetastorm分布式训练开源项目机器学习框架深度学习
Petastorm是一个开源数据访问库,支持单机或分布式训练和评估深度学习模型,直接从Apache Parquet格式数据集中读取数据。该库兼容Tensorflow、PyTorch和PySpark等主流Python机器学习框架,也可用于纯Python代码。Petastorm支持多种数据压缩格式,提供方便的API用于数据生成和读取,并支持列选择、并行读取、行过滤等功能。用户可以轻松在单机或Spark集群上生成数据集,是构建高效机器学习管道的理想工具。
deeplake - 面向 AI 的数据库,由针对深度学习应用程序优化的存储格式提供支持
AI数据库Deep LakeGithub向量存储开源项目数据版本控制深度学习
Deep Lake是一个为深度学习设计的AI数据库,提供多云和本地数据存储方案,支持动态数据类型如嵌入向量、音频、视频等。它通过即时可视化、高级查询和向量搜索功能,以及与LangChain、Weights & Biases等工具的无缝整合,优化了企业级LLM产品的部署和数据管理。该平台适用于各种规模的数据,支持无服务器架构。
litdata - 优化数据处理和流式传输工具 提升AI模型训练效率
GithubLitData云存储开源项目数据优化数据处理模型训练
LitData是一个开源的数据处理和优化工具,专注于提升AI模型训练效率。它提供并行数据处理、向量嵌入创建、分布式推理和大规模网站抓取功能。LitData优化数据集以加速模型训练,支持云端大规模数据流式传输,并实现远程数据的无本地加载使用。这些特性使LitData成为提高数据处理效率和AI模型训练速度的有力工具。
falcon - 轻量级自动机器学习库 支持一行代码训练模型
AutoMLFalconGithubONNXPython库开源项目机器学习
Falcon是一个轻量级Python库,通过单行代码即可训练生产级机器学习模型。该库提供简单易用的接口,支持多种预设配置,并可扩展集成其他框架。Falcon深度支持ONNX,实现复杂pipelines导出为单一ONNX图,便于跨平台部署。目前主要支持表格分类和回归任务,适合快速构建和集成机器学习项目。
vectordb-recipes - 探索GenAI应用构建的综合教程与实用代码示例
GenAIGithubJavaScriptLanceDBPython向量数据库开源项目
vectordb-recipes项目展示了如何利用Python和Web应用结合使用LanceDB和其他工具构建GenAI应用的完整示例和教程,实现从简单到复杂的快速开发。LanceDB无需额外设置,可直接融入Python数据生态系统,还支持类型化TypeScript SDK和服务器中的向量搜索。
LlamaIndex - 开源数据框架助力企业构建LLM应用
AI工具LLM应用LlamaIndex企业数据开源数据框架
LlamaIndex是一个用于构建大型语言模型(LLM)应用的数据框架。它支持160多种数据源和格式的加载,40多个向量存储和数据库的集成,以及LLM工作流程编排。该框架提供社区贡献的连接器、工具和数据集,并可与多种服务集成。LlamaIndex为开发者提供了构建LLM应用所需的工具和资源,简化了自定义数据源与LLM的连接过程。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号