Project Icon

text-dedup

文本去重工具集,支持多种去重方法和大规模数据集处理

项目提供一系列文本去重脚本,适用于各种场景,包括嵌入式去重(RETSim/UniSim)、适合大规模数据集的MinHash + MinHashLSH、64或128位SimHash、后缀数组子串去重、布隆过滤器和精确哈希去重等方法。项目支持高效处理大数据集并计划引入更多去重方法,如SuperMinHash和ProbMinHash等。用户可以根据需求来自定义脚本,灵活应用于不同的文本数据处理场景。

redun - 以高效表达和增量计算为核心的多功能工作流引擎
GithubPythonredun后端工作流引擎开源项目数据处理
redun是一个用Python实现的高效工作流框架,它通过惰性表达式定义工作流,在自动并行化、缓存和数据追溯方面表现出色。支持多种计算后端,包括线程、进程、AWS批处理和Spark作业,适用于生物信息学、化学信息学和Web数据提取等领域。其主要特性包括动态DAG创建、数据和代码变化的增量计算、缓存重用和数据追溯日志,保障了工作流的灵活性和可扩展性。
1filellm - 整合多来源数据的命令行工具
Data2LLMGithubLLM命令行工具开源项目数据聚合自动化
Data2LLM是一款命令行工具,能够高效地聚合和预处理数据,支持从本地文件、GitHub仓库、ArXiv论文、YouTube视频等多个来源提取和整合文本内容,生成适用于大型语言模型的高密度提示。工具自动检测源类型,进行文本预处理,并生成XML格式输出,复制到剪贴板,简化操作流程,提升工作效率。
clip-retrieval - 构建高效图像和文本检索系统的开源工具
Githubclip-retrieval图像嵌入开源项目文本嵌入机器学习语义搜索
clip-retrieval 提供一个建立语义搜索系统的强大工具,使得用户能够迅速实现图像和文本的嵌入计算及索引构建。该项目能在20小时内处理超过1亿的图文嵌入,支持远程查询、数据过滤以及简洁的前端用户界面,适用于学术研究和商业应用。
Lilac - 高效LLM数据集分析与优化工具
AI工具LLM数据处理数据集分析聚类语义搜索
Lilac是一款专为大型语言模型(LLM)数据质量提升设计的分析工具。它集成了数据搜索、量化和编辑功能,提供语义聚类、关键词检索和字段比较等分析方法。Lilac可在20分钟内完成百万级数据点的聚类和标题生成,每分钟可嵌入5亿个标记,实现快速处理大规模数据集、识别数据概念,并筛选适合特定任务的数据。此外,Lilac还支持PII检测和重复数据识别等特性。凭借高效的数据处理能力和直观的操作界面,Lilac成为数据科学家和AI从业者优化产品的重要助手。
LLM2Vec-Meta-Llama-3-8B-Instruct-mntp-supervised - LLM2Vec-Meta-Llama-3-8B模型——文本嵌入与语义相似度的高效工具
GithubHuggingfaceLLM2Vec-Meta-Llama-3-supervised分类句子相似度开源项目文本检索模型特征提取
LLM2Vec-Meta-Llama-3-8B-Instruct-mntp项目提供了创新的文本嵌入技术,支持文本分类、信息检索、重排序和聚类等多种任务。通过其监督模型,有效提升精度和召回率,如在Amazon反事实分类任务中准确率达79.94%,在ArguAna数据集的检索任务中各项指标优异。此项目在多种自然语言处理中展现出显著应用潜力,是评价文本语义相似度的关键工具。
borg - 开源重复数据删除备份工具
BorgBackupGithub加密备份备份软件开源软件开源项目数据去重
Borg是一个开源的重复数据删除备份程序,支持压缩和加密。它使用内容定义分块技术实现高效存储,只保存变更内容。Borg适合日常备份,可进行远程备份,备份可挂载为文件系统方便检查和恢复。支持Linux、macOS、FreeBSD等多个平台,可通过SSH进行远程备份。提供多平台单文件版本,易于使用。
denser-retriever - 多技术融合的企业级AI检索工具
AI检索器Denser RetrieverGithubxgboost向量搜索开源项目机器学习重排序
Denser Retriever是一款企业级AI检索工具,融合关键词搜索、向量数据库与机器学习重排功能,并通过xgboost技术优化。其在MTEB基准测试中表现出色,支持端到端应用,包括聊天机器人和语义搜索。项目支持Python安装,推荐使用Anaconda配置,附有详细文档和开发指南。
jcseg - 轻量级中文分词和关键字提取工具,支持多种语言
GithubJcsegJettymmseg算法中文分词关键字提取开源项目
Jcseg是一款基于mmseg算法的中文分词器,具备关键字、短语、句子提取及文章自动摘要功能,支持Lucene、Solr、Elasticsearch分词接口。其内置Jetty高性能Web服务器,提供多种分词模式、自定义词库、同义词匹配和拼音追加,适合多种语言客户端调用。
minisearch - 轻量级全文搜索引擎 实现快速离线搜索体验
GithubJavaScriptMiniSearch全文搜索内存索引开源项目搜索引擎
MiniSearch是一款JavaScript编写的轻量级内存全文搜索引擎。它支持精确匹配、前缀搜索、模糊匹配和字段提升等功能,适用于数据量适中的全文搜索场景。MiniSearch可在浏览器和Node.js环境运行,支持实时索引更新和自动建议功能。无外部依赖且资源占用少,非常适合需快速响应的客户端搜索应用。
ChineseWebText - 大规模中文网络文本数据集及其评估工具链
ChineseWebTextGithub开源项目数据评估模型网页文本处理自然语言处理高质量中文数据集
ChineseWebText是一个大规模中文网络文本数据集,总容量达1.42TB,每条文本均附带质量评分。该项目还提供了一个600GB的高质量子集,文本质量均超过90%。项目包含EvalWeb工具链,用于从原始网络数据中提取优质中文文本。EvalWeb通过数据准备、预处理和BERT评估模型对文本质量进行筛选和评估。此外,项目还开发了基于FastText的快速分类器,在保持性能的同时提高了处理效率。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号