#维基百科

wtf_wikipedia - 高效的Wikipedia数据结构化解析工具
wtf_wikipedia维基百科解析数据提取JavaScript库Github开源项目
wtf_wikipedia是一个专业的JavaScript库,用于解析和提取Wikipedia数据。这个工具可以将复杂的维基文本转换为结构化数据,提取纯文本、链接、图片和模板等信息。支持客户端和服务器端使用,能处理完整的Wikipedia数据转储,适合进行Wikipedia数据分析和应用开发。
wikipedia-semantic-search - 多语言维基百科语义搜索引擎和RAG聊天机器人
向量索引维基百科Upstash Vector语义搜索RAG聊天机器人Github开源项目
该项目利用Upstash Vector索引数百万篇维基百科文章,构建了支持11种语言的语义搜索引擎和RAG聊天机器人。通过BGE-M3嵌入模型实现多语言支持,结合Upstash Vector实现高效向量存储和查询。项目展示了跨语言语义搜索能力,并借助Upstash RAG Chat SDK实现智能聊天功能,为开发者提供多语言信息检索和交互平台。
bert-base-japanese-char - 日语BERT模型采用字符级分词预训练
模型维基百科字符分词BERTGithub日语开源项目Huggingface机器学习
bert-base-japanese-char是一个基于日语维基百科训练的BERT模型,采用字符级分词。模型架构包括12层、768维隐藏状态和12个注意力头,词汇量4000。处理流程先用MeCab进行形态分析,再进行字符级分词。模型在约1700万个句子上训练100万步,每批次处理256个实例,每个实例包含512个标记。该模型适用于各种日语自然语言处理任务。
bert-base-japanese-v2 - 日语BERT预训练模型:全词屏蔽和Unidic分词
模型维基百科BERTGithub分词全词掩码Huggingface开源项目日语预训练模型
bert-base-japanese-v2是基于日语维基百科预训练的BERT模型,采用unidic-lite词典和全词屏蔽策略。模型架构包含12层、768维隐藏状态和12个注意力头。它结合MeCab和WordPiece算法进行分词,词表大小为32768。模型在512个token实例上进行了100万步训练,耗时约5天。该模型适用于多种日语自然语言处理任务,为研究人员和开发者提供了强大的日语语言理解工具。
distilroberta-bias - 基于DistilROBERTA架构实现的文本偏见智能识别
文本分类偏见检测维基百科Github开源项目DistilROBERTA自然语言处理Huggingface模型
模型采用distilroberta-base作为基础架构,通过wikirev-bias数据集进行微调。它能够准确区分文本是否包含偏见,将其分类为中性或偏见性内容。该模型在内容审核和文本分析领域具有广泛应用前景。
albert-xlarge-vitaminc-mnli - 基于对比证据的事实验证模型 VitaminC 提升准确性
GithubVitaminC开源项目自然语言处理模型Huggingface事实核查维基百科证据对比
VitaminC 是一个基于对比证据的事实验证模型,专门处理随时间变化的证据来源。该模型利用超过 10 万个维基百科修订版本和 40 万个声明-证据对进行训练,能够识别细微的事实变化。在对抗性事实验证和自然语言推理任务中,准确率分别提升 10% 和 6%。此外,VitaminC 还支持相关词汇标注、事实修订识别和事实一致性文本生成等功能。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号