WeDataSphere 开源组件
图像中带有蓝色"S"球的项目都是开源的。包括 DataSphere Studio、Linkis、Scriptis、Qualitis、Schedulis、Exchangis、Visualis、Prophecis、Streamis。
Apache Linkis(孵化中)
Linkis 建立了一个计算中间件层,用于解耦上层应用程序和底层数据引擎,提供标准化接口(REST、JDBC、WebSocket等),以便轻松连接到各种底层引擎(Spark、Presto、Flink等),同时还支持跨引擎上下文共享、统一任务和引擎治理及协调。
DataSphere Studio
DataSphere Studio 定位为数据应用程序开发门户,整个过程的闭环覆盖了数据应用程序开发的整个生命周期。通过统一的UI,基于工作流的图形化拖放开发体验满足从数据导入、脱敏清洗、数据分析、数据挖掘、质量检查、可视化、调度到数据输出应用等数据应用程序开发的全生命周期需求。
Scriptis
Scriptis 是一款用于交互式数据分析的脚本开发(SQL、Pyspark、HiveQL)、任务提交(Spark、Hive)、UDF、函数、资源管理和智能诊断的工具。
Qualitis
Qualitis 是一个一站式数据质量管理平台,支持对各类数据源的质量验证、通知和管理,用于解决数据处理过程中产生的各种数据质量问题。
Schedulis
Schedulis 是一个高性能的工作流任务调度系统,支持高可用和多租户金融级别特性,集成了 Linkis 计算中间件,并已融入数据应用程序开发门户 DataSphere Studio。
Exchangis
Exchangis 是一个轻量级、高度可扩展的数据交换平台,支持在结构化和非结构化异构数据源之间进行数据传输。在应用层面,它具有诸如数据权限管理和控制、节点服务的高可用性以及多租户资源隔离等业务特性。在数据层面,它还具有多样化的传输架构、模块化插件以及组件低耦合等架构特征。
Visualis
Visualis 是基于易信 Davinci 开发的开源数据可视化 Bi 工具。在此版本中,它已经集成到了数据应用程序开发门户 Datasphere Studio 中,Visualis 1.0.0 支持 Linkis 1.1.1 和 DSS 1.1.0。
Prophecis
点击前往 Github 仓库 Prophecis是由WeBank开发的一站式机器学习平台。它集成了多个开源机器学习框架,拥有机器学习计算集群的多租户管理能力,并为生产环境提供全栈容器部署和管理服务。
Streamis
Streamis是由WeBank、CtYun、Samoyed Financial Cloud和XianWeng Technology联合开发的流式应用程序开发和管理项目。
更多开源WDS组件?敬请期待...
WeDataSphere介绍
WeDataSphere是一个金融级别的一站式大数据平台开源套件。基础平台由4个层面构成:数据交换、数据分发、计算和存储;功能平台由3个层面构成:平台工具、数据工具和应用工具,针对各类用户需求提供功能性工具实现。这些构建了一个完整的大数据平台技术生态系统,提供一站式的充分组件和功能支持。
WeDataSphere核心特性
- 基础能力
依托于社区贡献的各类开源组件,如Hadoop、Spark、Hbase、KubeFlow和FFDL,WeDataSphere在基础的数据计算、存储和交换方面达到了金融级别的可靠性。同时,我们也针对这些开源版本进行了增强,解决了实际应用中的安全性、性能、可用性和可管理性等问题。
- 平台工具
包括平台门户、数据中间件(Linkis)和运维管理系统。平台门户支持产品地图、财务费用计算和云服务申请;作为数据中间件,Linkis连接具体应用程序与底层计算/存储系统,具备金融级别的多租户、资源治理和访问隔离能力,填补了开源社区和行业的空白;运维管理系统包括集群管理、配置管理、变更管理和服务请求自动化,支持一键安装、一键升级和图形化运维,提供报警、健康监测&诊断和自动恢复功能,简化了平台的运维过程。
- 数据工具
包括数据地图、数据脱敏、数据质量和跨Hadoop集群的数据交换工具。数据地图管理整个银行的通用数据资源,包含元数据管理、数据访问控制、数据血缘和正在开发的数据质量及数据模型功能。数据脱敏可以对高度机密的数据进行脱敏,防止用户直接访问。数据质量工具提供了独特的流程来定义和检测数据集的质量,并可立即报告问题。跨Hadoop集群的数据交换工具支持数据交换任务的调度、监控、统计和管理。
- 应用工具
包括开发&探索工具(Scriptis)、图形化工作流调度系统、数据可视化BI工具和机器学习支持系统。Scriptis与各种计算/存储引擎连接,提供图形界面和多语言开发支持。图形化工作流调度系统提供了工作流定义、任务执行、依赖关系展示、状态显示、历史统计和监控配置的图形界面。数据可视化BI工具通过拖拽操作和简单脚本生成各类图表,并支持定时邮件。机器学习支持系统支持多种模型训练模式,包括自研ML算法和开源ML框架,具备高性能计算集群的多租户管理能力。
WeDataSphere主要优势
![WDSAdvantages](https://yellow-cdn.veclightyear.com/ab5030c0/40b85338-203e-4b28-b8de-1ed4e005d9f2.png)
-
一站式
平台工具、数据工具和应用工具3个层面,加上强大的机器学习能力,构建了企业级大数据解决方案。
-
跨集群同步
在2个城市的3个数据中心之间实现高效可靠的大数据传输,配备了完善的数据备份和容灾方案。
-
金融级
统一的安全控制,全面采用容器/微服务,各层面实现多租户隔离。
-
无缝体验
独特的数据中间件(Linkis)将不同层面的系统连接起来,带来了数据血缘、代码可重用性和用户资源的统一。
-
开源
核心组件已经开源,其余也即将开源。
WeDataSphere社区
如需即时响应,请向我们提出issue或扫描下方二维码通过微信和QQ加入我们的群组: