Hopsworks是什么?
Hopsworks是一个用于机器学习的数据平台,具有以Python为中心的特征存储和MLOps功能。Hopsworks是一个模块化平台。您可以将其用作独立的特征存储,用于管理、治理和提供模型服务,甚至可以用它来开发和运行特征管道和训练管道。Hopsworks为ML团队提供协作环境,为开发、管理和共享ML资产(特征、模型、训练数据、批处理评分数据、日志等)提供安全、受管控的平台。
🚀 快速入门
应用 - 无服务器(测试版)
→ 前往 app.hopsworks.ai
Hopsworks以无服务器应用的形式提供,只需前往app.hopsworks.ai并使用您的Gmail或Github账户注册即可。然后您就可以运行教程或直接访问Hopsworks并亲自尝试。在深入了解更高级的用法和安装要求之前,这是首次体验平台的首选方式。
Azure、AWS 和 GCP
Managed Hopsworks是我们在云端运行Hopsworks和特征存储的平台,可直接与客户的AWS/Azure/GCP环境集成。它还可以与第三方平台(如Databricks、SageMaker和KubeFlow)无缝集成。
如果您希望在Azure、AWS或GCP环境中运行Hopsworks,请按照我们文档中的以下指南之一进行操作:
安装程序 - 本地部署
可以在本地部署Hopsworks,这意味着公司可以在自己的硬件和基础设施上运行机器学习工作负载,而不是依赖云服务提供商。这可以提供更大的灵活性、控制力和成本节约,并使公司能够满足特定的合规性和安全性要求。
在本地使用Hopsworks通常需要与Hopsworks工程团队合作,因为每个基础设施都是独特的,需要定制的部署和配置方法。该过程从评估公司现有的基础设施和需求开始,包括网络拓扑、安全策略和硬件规格。
有关本地安装的更多详细信息,请联系我们。
要求
您至少需要一台安装Hopsworks的服务器或虚拟机,至少具备以下规格:
- Centos/RHEL 8.x或Ubuntu 22.04;
- 至少32GB内存,
- 至少8个CPU核心,
- 100 GB可用硬盘空间,
- 具有sudo权限的UNIX用户账户。
🎓 文档和API
文档
Hopsworks文档包括用户指南、特征存储文档和管理指南。我们还包括概念,以帮助用户导航特征存储和MLOps的抽象和逻辑:
- 特征存储: https://docs.hopsworks.ai/3.0/concepts/fs/
- 项目: https://docs.hopsworks.ai/3.0/concepts/projects/governance/
- MLOps: https://docs.hopsworks.ai/3.0/concepts/mlops/prediction_services/
API
Hopsworks API文档分为3类;Hopsworks API涵盖项目级API,特征存储API涵盖特征组、特征视图和连接器,最后MLOps API涵盖模型注册表、服务和部署。
- Hopsworks API - https://docs.hopsworks.ai/hopsworks-api/3.0.1/generated/api/connection/
- 特征存储API - https://docs.hopsworks.ai/feature-store-api/3.0.0/generated/api/connection_api/
- MLOps API - https://docs.hopsworks.ai/machine-learning-api/3.0.0/generated/connection_api/
教程
大多数教程要求您至少拥有app.hopsworks.ai的账户。您可以探索专门的https://github.com/logicalclocks/hopsworks-tutorials存储库,其中包含我们的教程,或直接跳转到以下现有用例之一:
- 欺诈(批处理):https://github.com/logicalclocks/hopsworks-tutorials/tree/master/fraud_batch
- 欺诈(在线):https://github.com/logicalclocks/hopsworks-tutorials/tree/master/fraud_online
- 客户流失预测:https://github.com/logicalclocks/hopsworks-tutorials/tree/master/churn
📦 主要功能
基于项目的多租户和团队协作
Hopsworks提供项目作为安全沙箱,团队可以在其中协作并共享ML资产。Hopsworks独特的多租户项目模型甚至允许在共享集群中存储敏感数据,同时仍然提供跨项目边界的ML资产细粒度共享功能。项目可用于构建团队结构,使他们从原始数据到管理的特征和模型具有端到端的责任。项目还可用于为数据团队创建开发、暂存和生产环境。所有ML资产都支持版本控制、血缘和出处,为所有Hopsworks用户提供MLOps生命周期的完整视图,从特征工程到模型服务。
开发和运营
Hopsworks为数据科学提供开发工具,包括Python的conda环境、Jupyter笔记本、作业,甚至作为作业的笔记本。您可以使用捆绑的Airflow构建生产管道,甚至可以在Airflow上的笔记本中使用GPU运行ML训练管道。您可以在安装了Hopsworks集群的任意数量的GPU上训练模型,并轻松地在用户之间共享它们。您还可以在Hopsworks上运行Spark、Spark Streaming或Flink程序,并支持云中的弹性工作节点(动态添加/删除工作节点)。
可在任何平台上使用
Hopsworks作为托管平台可在AWS、Azure和GCP的云端使用,也可以安装在任何基于Linux的虚拟机(兼容Ubuntu/Redhat)上,甚至可以在与外界隔离的数据中心中使用。Hopsworks还可作为无服务器平台使用,管理和提供您的特征和模型。
🧑🤝🧑 社区
贡献
我们正在构建市场上最完整和模块化的ML平台,我们依靠您的支持不断改进Hopsworks。随时欢迎您提供建议、报告错误并为我们的库添加功能。
加入社区
- 在Hopsworks社区中提问并给我们反馈
- 加入我们的公共Slack频道
- 在Twitter上关注我们
- 查看我们所有最新的产品发布
开源
Hopsworks基于AGPL-V3许可证提供。简单来说,这意味着您可以自由使用Hopsworks,甚至可以在其基础上构建付费服务,但如果您修改源代码,您也应该将您的更改和任何基于它构建的系统作为AGPL-V3发布。