#大数据

AI小微智能论文 - 生成多领域专业论文的在线平台
AI辅助写作AI工具生成论文政府补助互联网技术现代物流大数据AI助手热门
自动检测平台,专业生成覆盖汽车、房地产到政府策略的多领域论文,仅需5分钟便能满足广泛学术与行业分析需求。
hbox - 高效的AI和大数据调度平台,支持多种深度学习框架
Hbox深度学习框架大数据人工智能Hadoop YarnGithub开源项目
Hbox是一个高效的调度平台,结合了大数据和人工智能技术。支持多种机器学习和深度学习框架,如TensorFlow、MXNet、PyTorch等,并运行在Hadoop Yarn上。平台支持GPU资源调度、Docker容器化和RESTful API接口管理,具备良好的扩展性和兼容性。Hbox还提供统一的数据管理和可视化界面,适用于分布式计算和模型训练。
阿里云开发者社区 - 云技术学习与交流平台
AI开发辅助编程AI工具阿里云云计算人工智能大数据开发者社区热门
阿里云开发者社区汇总了全面的云计算、大数据和人工智能资源。提供开发工具、实战教程及丰富的活动,以及一个开发者交流的平台。支持开发者掌握云技术,促进技术交流与创新。
awesome-deep-learning - 开源深度学习资源集合,覆盖书籍、课程、视频和研究论文等
深度学习机器学习神经网络人工智能大数据Github开源项目
awesome-deep-learning提供全面的开源深度学习资源集合,覆盖书籍、课程、视频和研究论文等,适合各阶段学习者深入探索。通过更新最新技术和理论,推动知识和技术的不断进步。
datascience - Python在数据科学领域的综合工具与资源探索
Python数据科学pandas机器学习Jupyter大数据Github开源项目
《Awesome Data Science with Python》提供了一套全面的数据科学资源,包含核心Python库如pandas和scikit-learn、多种数据可视化工具、机器学习技术,以及Jupyter环境优化和大数据处理方法。此外,还包括广泛的数据分析和处理教程,适用于不同层次的数据科学研究和应用。
langchain-java - 实现了LangChain在Java语言中的迁移和应用
LangChain JavaLLM大数据JavaOpenAIGithub开源项目
LangChain Java项目实现了LangChain在Java语言中的迁移和应用,方便开发者在大数据领域构建基于LLM的应用。它支持多种集成,包括OpenAI、Azure OpenAI、ChatGLM2等语言模型,以及向量存储方案如Pinecone和Milvus。项目还提供丰富的示例和快速入门指南,适用于多种应用场景。如有任何问题,可以通过GitHub提交issue或联系开发者。
resources - 综合推荐增强现实、区块链、大数据等技术的学习资源
CodeChef-VIT云计算大数据增强现实区块链Github开源项目
该页面提供增强现实、区块链、大数据、云计算、前端开发、后端开发、机器学习、游戏开发、物联网等领域的学习资源。每个主题下包含详细的资源链接,有助于快速找到所需的学习资料。此资源库旨在满足多种学习需求。
vaquarkhan - 经验丰富的云计算和大数据架构多语言开发专家
Vaquar Khan技术架构师云架构分布式系统大数据Github开源项目
经验丰富的技术架构师,个体贡献者,云架构师及多语言开发者,擅长Java, Python, Scala等编程语言,拥有在大型分布式、云计算及大数据架构方面的丰富经验,并为众多高需求客户提供服务。
Awesome-System-for-Machine-Learning - 机器学习系统研究资源汇总
Machine LearningAI系统分布式计算大数据自动化机器学习Github开源项目
此项目汇集了机器学习系统研究的丰富资源,包括数据处理、训练系统和推理系统的开源代码与论文。项目由专门团队维护并定期更新,提供书籍、视频、课程和博客等学习材料,还推荐多篇系统设计的必读白皮书和研究论文,适合各个学习阶段。
AI_Tutorial - 自动更新的AI和机器学习技术资料开源项目
人工智能机器学习大数据算法深度学习Github开源项目
AI_Tutorial是一个每日自动更新的开源项目,专注于整理人工智能、机器学习和大数据领域的高质量技术资料。资源来自开源项目官网、技术网站、知名公司博客等。项目涵盖基础知识和前沿实践,旨在提高信息获取效率,为AI工程师提供全面学习资源和解决方案参考,促进行业发展。
inlong - 高性能海量数据集成框架 支持实时处理与分析
Apache InLong数据集成大数据数据传输流处理Github开源项目
Apache InLong 是一个高性能的海量数据集成框架,支持数据摄取、同步和订阅。该框架提供自动化和可靠的数据传输,支持批处理和流处理,适用于构建实时数据分析应用。InLong 已在实际生产环境中运行多年,每日处理数十万亿级数据,具备卓越的性能、可靠性和可扩展性。
spark-cassandra-connector - Apache Spark与Apache Cassandra的高性能集成连接器
SparkCassandra数据连接器大数据分布式计算Github开源项目
spark-cassandra-connector是一个开源连接器,实现了Apache Spark和Apache Cassandra的集成。它允许将Cassandra表作为Spark RDD和Dataset/DataFrame使用,支持数据的双向读写。该连接器兼容多个Spark和Cassandra版本,支持复杂数据类型和查询优化,并提供丰富的API。最新版本引入了向量类型支持,增强了AI和RAG数据处理能力。
MapZot.AI - AI实时连锁店选址分析系统
AI工具MapZot.AI人工智能房地产选址大数据
MapZot.AI是一款基于人工智能的连锁店选址分析系统。该平台利用大数据技术,为超过14,000个品牌提供精确的选址决策支持。系统能实时监控连锁店数据,并在短时间内预测企业下一个选址。此外,MapZot.AI还具备客户分析、竞争分析和销售预测等功能,协助企业优化选址策略。
xyzt.ai - 无代码平台实现时空大数据可视化分析
AI工具数据分析可视化时空数据大数据xyzt.ai
xyzt.ai是一个专门处理和可视化时空数据的大数据分析平台。该平台无需编程即可处理数十亿条记录,支持多种数据源整合分析,适用于物联网、海事和交通等领域。通过直观的可视化界面,用户可快速获取数据洞察。xyzt.ai不仅能处理小型数据集,还可为未来大数据分析做好准备,助力企业更好地利用数据资产。
accumulo - 可扩展的分布式排序键值存储系统
Apache Accumulo分布式存储大数据键值存储HadoopGithub开源项目
Apache Accumulo是一个开源的分布式排序键值存储系统,专为大规模数据存储和检索而设计。它基于Apache Hadoop的HDFS进行数据存储,并利用Apache Zookeeper实现分布式协调。Accumulo支持跨集群管理海量数据集,提供高性能、安全性和可扩展性。其独特的单元级安全机制和灵活的数据模型使其适用于各种复杂的大数据应用场景。
awesome-data-engineering - 数据工程全面技术资源指南
数据工程数据库数据处理大数据数据存储Github开源项目
本资源列表全面覆盖数据工程领域,包括数据库、数据摄取、文件系统和序列化格式等核心技术。汇集Kafka、Hadoop、Spark等主流开源项目和创新解决方案,为数据工程实践提供系统性参考。内容涵盖从基础设施到前沿技术,是数据工程师深入学习和技术选型的重要指南。
TDengine - 高性能时序数据库助力工业物联网数据管理
TDengine时序数据库大数据物联网实时数据处理Github开源项目
TDengine是为工业物联网设计的高性能时序数据库,每天可处理PB级传感器数据。它提供实时数据摄取、存储、分析和分发功能,支持高效SQL查询、时间窗口查询和集群部署。TDengine为主流编程语言提供客户端库,适用于从独立开发者到大型企业的各类用户,助力传统行业数字化转型,充分挖掘数据价值。
talaria - 分布式高可用时序数据库与事件摄取平台
Talaria数据库大数据实时查询事件摄取Github开源项目
Talaria是为大数据系统设计的分布式时序数据库。它既可作为事件摄取平台,又可用作热数据存储,每小时可查询2-3TB数据,具有低延迟和低成本特点。Talaria支持SQL查询,兼容多种工具生态系统,并提供多种存储接口。通过Presto Thrift连接器,可与Presto无缝集成。作为开源项目,Talaria为用户提供了灵活的部署选项和自定义可能性,特别适合需要快速处理和查询大量时序数据的场景。
modin - 轻松实现pandas并行化加速
Modinpandas并行计算数据处理大数据Github开源项目
Modin是pandas的高性能替代方案,通过并行化计算显著提升数据处理速度。只需更改一行导入代码,即可利用全部CPU核心加速pandas工作流,特别适合大型数据集。Modin支持处理超出内存的数据,兼容90%以上pandas API,并支持Ray、Dask和MPI等多种计算引擎。它简化了分布式计算,让用户轻松获得性能提升。