#Hadoop
TonY - 在 Apache Hadoop 上原生运行深度学习框架的框架
TonY深度学习HadoopTensorFlowPyTorchGithub开源项目
TonY框架支持在Apache Hadoop上运行深度学习任务,兼容TensorFlow、PyTorch、MXNet和Horovod。支持分布式或单节点训练,提供灵活可靠的机器学习任务执行方式,适用于Hadoop 2.6.0及以上版本,并支持GPU隔离。项目通过Gradle构建,可通过虚拟环境或Docker容器启动深度学习作业。详细配置和使用案例请参阅官方文档和示例。
accumulo - 可扩展的分布式排序键值存储系统
Apache Accumulo分布式存储大数据键值存储HadoopGithub开源项目
Apache Accumulo是一个开源的分布式排序键值存储系统,专为大规模数据存储和检索而设计。它基于Apache Hadoop的HDFS进行数据存储,并利用Apache Zookeeper实现分布式协调。Accumulo支持跨集群管理海量数据集,提供高性能、安全性和可扩展性。其独特的单元级安全机制和灵活的数据模型使其适用于各种复杂的大数据应用场景。
parquet4s - 高效实用的Scala Parquet文件操作库
Parquet4SScalaParquet文件数据序列化HadoopGithub开源项目
Parquet4S是专为Scala设计的Parquet文件处理库。该库支持使用Scala case class定义数据模式,无需额外序列化系统。兼容Apache Spark生成的文件,支持通用记录,并与Akka Streams、Pekko Streams和FS2集成。基于Parquet官方库和Hadoop Client开发,Parquet4S能连接各种Hadoop兼容存储,如AWS S3和Google Cloud Storage。支持Scala 2.12.x、2.13.x和3.3.x版本。