#数据处理
unstructured - 开源非结构化数据处理工具包 - 简化LLM数据准备流程
Python机器学习第三版学习资料汇总 - 应用机器学习与深度学习的实用指南
anonymizer-beto-cased-flair
此模型结合BETO嵌入与BiLSTM-CRF架构,专为西班牙语法律文件匿名化而定制。由collective.ai在AymurAI项目框架下开发,它在布宜诺斯艾利斯刑事法院N°10试行,旨在半自动执行数据匿名化及分析,对性别暴力案提高司法透明度。因数据源于特定地区,使用者需注意跨域法律制度差异。
llmlingua-2-bert-base-multilingual-cased-meetingbank
LLMLingua-2-Bert是一个基于BERT多语言模型开发的提示词压缩工具,通过数据蒸馏技术实现任务无关的提示词压缩功能。该模型可识别并保留提示词中的关键信息,在维持原始语义的基础上减少token使用量。模型支持多语言处理,提供API接口,适用于需要控制提示词长度的各类AI应用场景。
pvnet_v2_summation
通过汇总PVNet模型的GSP层预测,该项目提供英国光伏电力的国家级预测。由openclimatefix开发,模型训练基于2017-2020年数据,并在2021年数据上进行了验证,从而提高了预测的准确性。
elasticsearch-py
elasticsearch-py是Elasticsearch的官方Python客户端库,为开发者提供全面的搜索引擎集成功能。该库支持自动发现集群节点、持久连接和负载均衡,同时确保TLS和HTTP认证的安全性。它能够轻松处理Python数据类型与JSON的转换,并提供线程安全的请求机制。通过丰富的API辅助函数,开发者可以高效地与Elasticsearch交互,简化数据索引、搜索和分析流程。
Examine
Examine是一个基于Lucene.Net的开源.NET索引搜索库。它提供简单易用的API,支持快速索引和搜索大量数据,允许配置多个独立定制的索引。Examine具有高度可扩展性,提供基于Lucene的索引实现和流畅的搜索API。该库适用于需要高性能搜索功能的.NET应用,可通过NuGet轻松集成。
awesome-opensource-data-engineering
该资源库汇集了数据工程领域的开源项目,覆盖数据分析、业务智能、数据湖和数据治理等方面。包含Apache Spark、Flink等分析工具,Debezium、Kafka等数据捕获和消息系统,以及各种数据格式、集成工具和工作流管理系统。为数据工程实践提供了全面的开源解决方案参考。
awesome-node-based-uis
本资源列表汇集了节点式用户界面开发相关的工具和库,涵盖多种编程语言的渲染器、布局算法和实用工具。同时收录了众多基于节点的应用,包括工作流自动化、AI、数据处理、3D图形等领域。为节点式UI开发者和设计师提供全面的参考资源。
batchflow
BatchFlow是一个专为大规模数据处理和复杂机器学习流程设计的Python库。它提供灵活的批处理生成、确定性和随机管道、数据集合并等功能。支持多种深度学习模型,并具有丰富的层和辅助函数,方便自定义模型。其懒加载机制和高效批处理策略适用于处理超出内存容量的大型数据集,是数据科学和机器学习项目的理想工具。
jackson
Jackson是一套面向Java和JVM平台的多功能数据处理工具集。它以高效的JSON解析和生成功能为核心,提供流式API和数据绑定能力。Jackson支持多种数据格式,如Avro、CBOR和CSV等,并通过扩展模块兼容Guava、Joda等常用Java库的数据类型。凭借其卓越的性能、灵活性和丰富的功能,Jackson成为Java生态系统中处理JSON和其他数据格式的重要工具。