wefe

词嵌入公平性评估框架

WEFE是一个词嵌入公平性评估框架，用于测量和缓解词嵌入模型中的偏见。它统一了现有的公平性指标，提供标准接口来封装指标、测试集和计算模型公平性。WEFE还将偏见缓解过程标准化为计算和执行两个阶段。框架支持多种安装方式，提供详细文档。WEFE致力于推动词嵌入技术的公平性发展。

访问官网

Github

文档

论文

介绍相关项目

evaluate - 多框架兼容的机器学习评估工具库

EvaluateGithub开源项目指标机器学习模型比较评估

evaluate是一个开源的机器学习评估工具库，支持Numpy、Pandas、PyTorch、TensorFlow和JAX等多种框架。它提供了数十种涵盖自然语言处理和计算机视觉等领域的常用评估指标。用户可以使用evaluate进行模型评估、性能对比和结果报告。该库还支持创建新的评估模块并推送至Hugging Face Hub，便于比较不同指标的输出。evaluate的其他特点包括类型检查、指标卡片和社区指标功能，为研究人员和开发者提供了全面的模型评估支持。

vocab-coverage - 中文语言模型识字率与词向量分布分析

BERTERNIEGithub中文认知开源项目词向量语言模型

该项目分析了多种语言模型的中文识字率与词向量分布情况，通过字符集分类和词向量空间分布的研究，了解模型在处理中文字符时的认知能力。涵盖了BERT、ERNIE、roBERTa等模型的对比，以及不同字符集的识字判定，为后续的模型评估和改进提供了参考。

evalscope - 综合性大语言模型评估开源工具

EvalScopeGithub可视化大语言模型开源项目模型集成评估框架

EvalScope是一个全面的大语言模型评估框架，集成了多种基准数据集和评估指标。该框架提供模型集成、自动评估和报告生成功能，并支持Arena模式和可视化分析。通过整合OpenCompass和VLMEvalKit评估后端，EvalScope实现了多模态评估能力。此外，它能与ModelScope SWIFT平台无缝对接，支持大模型的端到端开发流程。

e5-small-unsupervised - 无监督预训练模型用于提升文本嵌入与句子相似度

E5-small-unsupervisedGithubHuggingface句子相似性句子转换器开源项目文本嵌入无监督学习模型

该无监督对比预训练模型通过弱监督方法进行预训练，无需人为标注，实现高效的句子相似度计算和信息检索。模型具备12层架构和384维嵌入空间，适用于MS-MARCO数据集等的查询与段落编码。输入文本需使用特定前缀（如“query:”与“passage:”）以求最佳效果。模型包含详细示例代码和训练细节，适用于BEIR和MTEB基准评价，支持英文文本，文本长度限制为512个标记。

Dmeta-embedding-zh - 提供多任务处理的句子相似度与特征提取模型

Dmeta-embeddingGithubHuggingface分类句子相似度开源项目模型特征提取重排序

此开源项目专注于实现多语言特征提取与文本分类的多任务模型，适用于多种MTEB数据集场景。模型实现句子相似度的有效评估，并在分类、聚类、再排序和检索任务中展现出良好的性能。采用多种数学计算方法，如余弦相似度、曼哈顿距离、欧氏距离等，确保结果的精确性与适应性。项目支持中英文文本处理，适用于学术研究及商业应用中的多种场景。

wink-nlp - 高性能和高精度的JavaScript自然语言处理库

GithubJavaScriptwinkNLP开源项目文本分析自然语言处理高性能

这个JavaScript自然语言处理库优化了性能和精度，可显著提升NLP应用开发效率。它支持单词嵌入，代码无外部依赖，体积仅约10KB，并有近100%的测试覆盖率。主要功能包括多语言分词、句子边界检测、情感分析、词性标注和命名实体识别，适用于Node.js、浏览器和Deno环境。

ChineseWebText - 大规模中文网络文本数据集及其评估工具链

ChineseWebTextGithub开源项目数据评估模型网页文本处理自然语言处理高质量中文数据集

ChineseWebText是一个大规模中文网络文本数据集，总容量达1.42TB，每条文本均附带质量评分。该项目还提供了一个600GB的高质量子集，文本质量均超过90%。项目包含EvalWeb工具链，用于从原始网络数据中提取优质中文文本。EvalWeb通过数据准备、预处理和BERT评估模型对文本质量进行筛选和评估。此外，项目还开发了基于FastText的快速分类器，在保持性能的同时提高了处理效率。

wizmap - 交互式大规模机器学习嵌入可视化工具

GithubWizMap交互式探索多分辨率大规模数据嵌入可视化开源项目

WizMap是一款用于探索大规模机器学习嵌入的交互式可视化工具。它采用多分辨率嵌入摘要方法和地图式交互设计，便于导航和理解复杂嵌入空间。支持百万级嵌入点可视化，具备快速搜索和多模态数据处理能力。WizMap还提供嵌入演化动画展示，兼容多种计算笔记本，并支持URL共享功能。这一工具为研究人员和开发者提供了分析嵌入的有效方案。

bge-large-en-v1.5 - 高性能英语嵌入模型助力文本相似度和信息检索

GithubHuggingfaceMTEB开源项目数据集机器学习模型模型评估自然语言处理

bge-large-en-v1.5是一个英语嵌入模型,专注于文本相似度和信息检索任务。该模型在分类、聚类和检索等多个基准测试中表现优异,能有效捕捉文本语义并为NLP应用提供高质量特征表示。适用于需要处理英语文本数据的各类应用场景。

retvec - 多语言文本向量化的高效解决方案

GithubRETVecTensorFlow多语言对抗性弹性开源项目文本向量化

RETVec是一种创新的文本向量化工具，为高效处理多语言文本而开发。它具有内置的抗干扰能力，可应对各种字符级修改。该工具支持超过100种语言，无需额外的词汇表。RETVec作为一个轻量级组件，可无缝集成到TensorFlow模型中。它同时提供TensorFlow Lite和JavaScript版本，适用于移动设备和网页应用。RETVec在提升模型稳定性的同时，保证了计算效率，是文本处理任务的理想选择。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com