Project Icon

arrow

高效内存分析引擎 加速大数据处理

Apache Arrow 是一个开源的内存分析开发平台,旨在提高大数据系统的数据处理和传输速度。它提供高效的列式内存格式、IPC格式和Flight RPC协议,并支持多种编程语言。Arrow 的核心技术包括高性能的数据结构、跨语言兼容性和零拷贝数据共享,为现代数据分析应用提供了强大的基础架构支持。

crate - 分布式SQL数据库解决方案,实时处理和分析大数据
CrateDBGithubSQL分布式数据库实时数据分析开源项目横向扩展
CrateDB 是一种分布式 SQL 数据库,结合了 SQL 数据库的优点和 NoSQL 的扩展性与灵活性。其集群每秒能处理数万条记录,支持标准 SQL 查询,拥有快速的分布式查询引擎,非常适合容器化部署,可在 Kubernetes、AWS 和 Azure 环境中水平扩展。其主要功能包括动态表架构、实时全文搜索、地理空间数据支持以及自愈和自动平衡的高可用集群。
weaviate - 高性能、扩展性强、多模块支持的开源向量数据库
GithubWeaviate向量数据库开源开源项目快速搜索机器学习
Weaviate 是一个云原生的开源向量数据库,采用先进的机器学习模型将文本、图片等数据转化为可搜索的向量。它不仅速度快,还具备高度灵活性,支持在导入数据时进行向量化或上传现成的向量。此外,Weaviate 可通过多种模块与 OpenAI、Cohere、HuggingFace 等热门服务和模型库集成。其设计从快速原型开发到大规模生产部署均能应对,并具备推荐、摘要和神经搜索等功能。
talaria - 分布式高可用时序数据库与事件摄取平台
GithubTalaria事件摄取大数据实时查询开源项目数据库
Talaria是为大数据系统设计的分布式时序数据库。它既可作为事件摄取平台,又可用作热数据存储,每小时可查询2-3TB数据,具有低延迟和低成本特点。Talaria支持SQL查询,兼容多种工具生态系统,并提供多种存储接口。通过Presto Thrift连接器,可与Presto无缝集成。作为开源项目,Talaria为用户提供了灵活的部署选项和自定义可能性,特别适合需要快速处理和查询大量时序数据的场景。
NVTabular - GPU加速的大规模表格数据特征工程库
GPU加速GithubNVTabular开源项目推荐系统数据预处理特征工程
NVTabular是NVIDIA Merlin框架的组件,用于处理TB级数据集和训练深度学习推荐系统。该库利用GPU加速计算,提供高级抽象以简化代码。它可处理超出内存限制的大规模数据集,使数据科学家专注于数据操作,快速准备实验数据,并加速生产模型的数据转换过程。
buffalo - 高性能开源推荐系统框架
BuffaloGithubKakao开源项目推荐系统高性能
Buffalo是一款由Kakao开发的开源推荐系统框架,具有高性能和可扩展性。它针对CPU和SSD进行了优化,同时在GPU上也有良好表现,能够有效利用系统资源。Buffalo已在多个Kakao服务的生产环境中得到验证,支持Python 3.8+,需要cmake 3.17+和支持C++14的gcc/g++编译器。该项目采用Apache 2许可证,为开发者提供了灵活的使用空间。
kernel-memory - 数据索引与自定义数据流处理解决方案
AI服务GithubKernel Memory内存处理开源项目异步API长尾关键词
Kernel Memory是一个多模态AI服务,针对AI和LLMs应用场景提供优化实践和参考架构,实现高效数据索引及自定义连续数据处理。该服务支持数据上传与查询,并可作为Web服务、Docker容器或插件与ChatGPT、Copilot和Semantic Kernel集成,有效提升数据应用效率。
tigerbeetle - 专为OLTP设计的金融交易数据库
GithubTigerBeetle开源项目数据库账户管理金融交易高性能
TigerBeetle是一款专注于金融交易的数据库,为OLTP应用提供高性能和可靠性。它支持快速部署、多节点集群和多语言客户端,实现高效的账户管理和转账操作。TigerBeetle的设计优先考虑性能和数据安全,适合需要高吞吐量和严格一致性的金融系统。该数据库旨在满足未来几十年金融交易的需求,为关键任务提供稳定支持。
dora - 数据流导向机器人架构框架 支持多语言和热重载
Githubdora-rs共享内存开源项目数据流框架机器人应用热重载
dora-rs是一款数据流导向的机器人架构框架。它集成Python、C、C++和ROS2,通过共享内存和Apache Arrow实现零拷贝数据传递,大幅提高性能。框架使用声明式数据流范式,具备热重载和自编码机器人功能。此外,dora-rs还支持开放遥测和ROS2桥接,方便快速开发高效的机器人应用。
venice - 全球工作负载的衍生数据存储平台
GithubVenice低延迟多租户多集群支持开源项目高吞吐量
Venice是一个衍生数据存储平台,提供高吞吐量的批处理和流处理数据异步摄取,低延迟的在线读取,基于CRDT的区域间主动主动复制,多集群支持和多租户水平伸缩能力。适用于Feathr等特征存储,支持离线、近线和在线工作负载的多种写操作和读取API,具有分片感知和本地缓存功能的客户端模式,满足不同性能和成本需求。
lancedb - 高效管理与检索嵌入的开源多模态向量数据库
GPU支持GithubLanceDB多模态数据嵌入管理开源项目矢量搜索
LanceDB 是一款开源的多模态向量数据库,具备持久存储功能,能够简化嵌入的管理与检索。它支持生产级别的向量搜索,无需管理服务器,可存储、查询和过滤向量、元数据以及多模态数据(包括文本、图片、视频、点云等)。它还支持向量相似性搜索、全文搜索和SQL查询,并提供原生的Python和JavaScript/TypeScript支持,同时实现零拷贝和自动版本管理。LanceDB 与 LangChain、LlamaIndex、Apache-Arrow、Pandas、Polars、DuckDB 等多个生态系统集成。其核心由Rust编写,基于Lance构建,专为高性能机器学习工作负载而设计。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号