Project Icon

beam

统一批处理和流处理的数据并行处理模型

Apache Beam是一个统一的数据处理模型,用于定义批处理和流处理的并行数据处理管道。它提供多语言SDK构建管道,并可在Apache Flink、Spark等分布式处理后端上执行。Beam支持Java、Python和Go等语言,为各类开发者提供灵活的开发环境。该项目采用统一模型处理批处理和流处理数据,支持多种编程语言,并可在多个分布式处理平台上运行。它为不同类型的开发者提供了灵活的工具,简化了大规模数据处理的复杂性。

zero-bubble-pipeline-parallelism - 流水线并行算法创新 实现零气泡和内存优化
GithubPipeline ParallelismZero Bubble内存优化开源项目模型训练深度学习
该项目开发了两种新型流水线并行算法:零气泡和可控内存流水线并行。零气泡算法几乎消除了流水线并行的气泡,保持同步语义;可控内存算法显著降低激活内存使用,同时维持或提高吞吐量。项目实现了ZB1P、ZB2P和ZBV等多种调度策略,平衡吞吐量和内存效率。另外,项目还采用优化器后验证等技术来进一步增强性能。
flowpipe - 将DevOps工作流自动化,连接云服务、人员、系统和数据
DevOpsFlowpipeGithubpipeline工作流开源项目自动化
Flowpipe是一个面向DevOps的工作流自动化平台。它通过管道功能执行HTTP调用、收集输入、发送消息和运行查询等任务。Flowpipe利用触发器基于webhook、查询或定时任务自动化工作流。作为代码驱动平台,它支持版本控制和模块化,适应现代开发需求。Flowpipe提供丰富的库模块,支持AWS、Azure、GCP等多种云服务和工具。
petastorm - 开源数据访问库,支持单机或分布式训练和评估深度学习模型,直接从Apache Parquet格式数据集中读取数据
Apache ParquetGithubPetastorm分布式训练开源项目机器学习框架深度学习
Petastorm是一个开源数据访问库,支持单机或分布式训练和评估深度学习模型,直接从Apache Parquet格式数据集中读取数据。该库兼容Tensorflow、PyTorch和PySpark等主流Python机器学习框架,也可用于纯Python代码。Petastorm支持多种数据压缩格式,提供方便的API用于数据生成和读取,并支持列选择、并行读取、行过滤等功能。用户可以轻松在单机或Spark集群上生成数据集,是构建高效机器学习管道的理想工具。
volcano - 基于Kubernetes的高性能批处理调度系统
GithubKubernetesVolcano云原生工作负载调度开源项目批处理系统
Volcano是基于Kubernetes构建的批处理系统,为机器学习、深度学习和生物信息学等高性能计算工作负载提供通用机制。它集成TensorFlow、Spark等主流框架,融合了大规模运行高性能工作负载的丰富经验。Volcano支持高效调度和资源管理,适用于大数据分析、人工智能训练等场景,能显著提升集群资源利用率和作业处理效率。Volcano在多个行业广泛应用,获得开源社区积极贡献。作为CNCF孵化项目,Volcano为云原生生态系统提供强大的批处理能力。
dataplane - 高效灵活的开源数据管道构建平台
DataplaneDockerGithubGolang工作流程开源项目数据管道
Dataplane是一款开源的高性能数据管道构建平台。该项目采用Golang开发,具有拖拽式界面、Python编辑器、权限管理等功能。它支持多时区调度、分布式计算和资源监控,适合不同规模的团队使用。Dataplane注重性能、可扩展性和安全性,能有效简化数据处理和自动化工作流程。
barfi - Python流式编程库,集成现有工作流程
BarfiFlow Based ProgrammingGithubJupyter-NotebookPythonStreamlit开源项目
Barfi是一款Python流式编程库,提供图形化编程接口,支持集成现有Python工作流程。用户可通过Barfi.Block构建模式,使用Barfi.ComputeEngine进行执行。每个Block都包含输入输出接口和用户定义的可执行函数,支持在Streamlit组件中使用,并计划增加Jupyter-Notebook小部件。未来还将添加特定领域的组件,弥补现有库的局限性。
PowerJob - 开源分布式任务调度和计算框架
GithubPowerJob任务调度分布式计算工作流开源项目灾难容错
PowerJob是一个开源分布式计算和任务调度框架,提供友好的UI界面、多样的定时策略和执行模式。支持工作流(DAG)、多语言处理器,具有容错能力和高可用性。适用于定时、广播、MapReduce和延迟任务等场景,支持水平扩展,是一个高性能、可靠的调度系统。
fugue - 统一的分布式计算框架 支持多种执行引擎
FugueGithubPySparkSQL分布式计算开源项目数据处理
Fugue是一个统一的分布式计算框架,支持在Spark、Dask和Ray等多种执行引擎上运行Python、Pandas和SQL代码。它可以轻松将现有Python和Pandas代码扩展到分布式环境,并通过FugueSQL在不同数据框架上构建端到端工作流。Fugue提供简洁的API和增强的SQL语法,实现了执行引擎的无缝切换,提高了大规模数据处理的效率和灵活性。
nflow - 灵活强大的业务流程编排工具
GithubnFlow工作流编排开源软件开源项目微服务状态机
nFlow是一款基于Java的开源业务流程编排工具,适用于微服务架构。它可用于微服务编排、保证交付计算、业务流程引擎替代和持久化有限状态机。nFlow支持代码定义工作流、可视化和嵌入式部署,具有高可用性和容错能力。它兼容多种关系型数据库,提供REST API和Explorer界面,是企业级应用可靠流程管理的理想选择。
deepflow - 适用于云原生与AI应用的深度可观测性平台
AI应用DeepFlowGithubeBPF云原生开源项目智能编码
DeepFlow项目为复杂的云原生与AI应用提供深度可观测性,通过eBPF实现零代码数据采集,涵盖全栈关联和高效访问所有观测数据。主要功能包括通用服务地图、零代码分布式追踪、连续函数分析和与主流观测堆栈的无缝集成。DeepFlow帮助开发者简化代码监测,为DevOps/SRE团队提供全面的监控与诊断能力。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号