WeDataSphere简介
WeDataSphere(简称WDS)是一套一站式、企业级、全连通、开源开放的大数据平台套件。它由微众银行CoreTech团队开发,旨在为企业提供全面的数据分析和应用开发能力。WeDataSphere的核心理念是通过开源的方式,汇聚社区力量,共同构建先进的大数据平台生态系统。
为什么需要构建数据平台?
在当今数字化时代,数据已成为企业的核心生产要素。构建一个强大的数据平台对企业而言至关重要,主要原因如下:
-
业务需求驱动:企业需要一个能够支持数据流动和价值挖掘的基础设施,以便从数据中获取洞察,指导业务决策。
-
技术挑战应对:随着业务增长,数据类型和规模急剧扩张,如何实现数据流通、建立全面的数据资产目录、提高数据使用效率,同时管理数据使用成本,都是技术层面需要解决的挑战。
-
用户需求满足:不同层级的用户对数据平台有不同的需求。管理者需要数据仪表盘来了解当前情况并预测未来,而数据开发人员则需要高效的开发工具和环境。
WeDataSphere的构建之路
WeDataSphere的构建过程遵循"吸引、促进、匹配"的目标,主要基于两个方面:
-
内部业务需求:作为原始出发点,满足企业自身的数据分析和应用开发需求。
-
社区共同需求:关注并解决开源社区中普遍存在的问题和需求。
在这个过程中,WeDataSphere团队还参考了业界先进产品和标准框架体系,不断优化和完善平台功能。
核心组件
WeDataSphere包含多个核心组件,每个组件都针对特定的功能领域提供解决方案:
-
Apache Linkis (孵化中):计算中间件,解决了数据平台中的连通性、可扩展性、治理和复用问题。
-
DataSphere Studio:数据应用开发和管理集成框架,提供统一的用户界面和工作流式的图形化拖拽开发体验。
-
Scriptis:交互式数据分析Web工具,支持在线编写SQL、Pyspark、HiveQL等脚本。
-
Qualitis:一站式数据质量管理平台,支持多种异构数据源的质量校验、通知和管理。
-
Exchangis:轻量级、高度可扩展的数据交换平台,支持结构化和非结构化异构数据源之间的数据传输。
-
Schedulis:高性能工作流任务调度系统,支持高可用性和多租户金融级特性。
-
Visualis:基于Davinci开发的数据可视化BI工具,已集成到DataSphere Studio中。
-
Prophecis:一站式机器学习平台,集成多个开源机器学习框架,提供全栈容器部署和管理服务。
-
Streamis:流式应用开发和管理项目,由多家机构联合开发。
WeDataSphere的核心优势
-
一站式解决方案:提供从数据应用开发到数据可视化、从批量作业到实时流式计算的丰富功能组件,满足不同场景的需求。
-
金融级可靠性:在高可用性、数据治理、数据安全等方面进行了多项增强,适合支撑核心关键业务应用。
-
全连通架构:通过DataSphere Studio和Linkis实现了组件间的无缝连接,提供更流畅的用户体验和更强大的管控功能。
-
开源开放:采用开源方式,吸引更多个人和组织参与开发和应用,共同推动大数据平台生态系统的发展。
未来展望
WeDataSphere团队将继续秉持"Community Over Code"和"The Apache Way"的开源文化,致力于:
- 创建更具协作性、开放性和多样性的社区文化
- 降低社区参与门槛
- 联合更多组织和个人共同构建先进的大数据平台套件
- 打造世界级的大数据中间件开源项目
构建大数据平台是企业数字化转型的核心,也是一项长期的战略性工作。WeDataSphere的实践经验表明,成功构建大数据平台需要持续投入资源和努力,不断进行定制、优化和迭代。只有通过这种循环往复的过程,才能建立起良性循环,实现平台的持续改进和最终成功。
社区参与
如果您对WeDataSphere感兴趣,欢迎加入我们的开源社区:
- GitHub: https://github.com/WeBankFinTech/WeDataSphere
- 邮箱: webankcoretech@gmail.com
- 微信/QQ群:
加入WeDataSphere社区,与我们一起探索大数据平台的无限可能!🚀💻🌟