Project Icon

plainrussian

俄语文本可读性分析与评估系统

plainrussian是一个针对俄语文本可读性分析的开源项目。该系统整合了5种经典可读性算法,并针对俄语特点进行了优化。通过API接口,用户可获取文本或网页的多项可读性指标和详细统计数据。项目还包含标注年龄的文本语料库,为开发新算法提供基础。作为全面的俄语文本分析工具,plainrussian可广泛应用于教育、出版等领域。

简明俄语 / Понятный (простой) русский язык.

为什么需要这个

评估文本的可读性对于自动确定俄语文本的复杂度是必要的。

已完成的工作

有5种美国文本可读性评估算法,它们是:

收集了带有阅读水平标记的俄语文本,包括:

  • 课外阅读文本;
  • 专家标记的成人文本;
  • 特别复杂的法律文本;
  • 等等。

所有算法都经过了针对俄语的训练 - 每个公式都根据训练样本进行了特别调整。 对所有公式应用了允许它们适用于俄语文本的系数。

基于这些公式,开发了一个特殊的网络服务,允许传入文本或链接并评估其复杂度。

API如何工作

API可通过http://api.plainrussian.ru/api/1.0/ru/measure/访问, 需要传递url参数(用于链接)或text参数(作为文本)。

url参数通过GET请求传递,示例如下:

简单文本示例:

或者:

结果如下所示:

{ metrics: { wsyllabes: { 1: 94, 2: 116, 3: 140, 4: 87, 5: 139, 6: 45, 7: 18, 8: 4, 15: 1 }, c_share: 32.142857142857146, chars: 6000, avg_slen: 46, spaces: 510, n_syllabes: 2232, n_words: 644, letters: 5170, n_sentences: 14, n_complex_words: 207, n_simple_words: 437, avg_syl: 3.4658385093167703 }, status: 0, indexes: { grade_SMOG: "研究生、第二学位、博士", grade_ari: "研究生、第二学位、博士", index_fk: 33.342906832298134, grade_cl: "研究生、第二学位、博士", grade_fk: "研究生、第二学位、博士", index_cl: 23.062857142857148, grade_dc: "研究生、第二学位、博士", index_dc: 30.300857142857147, index_ari: 32.11796894409938, index_SMOG: 34.046178356649776 } }

此外,可以使用text参数代替url参数,以便在请求中传递文本而不是文本的超链接。建议使用POST请求而不是GET请求,以避免URI大小限制。 以下是使用Python的requests库的示例:

import requests
text = "这里可以是您的文本"
response = requests.post("http://api.plainrussian.ru/api/1.0/ru/measure/", data={"text":text})
response.json()

参数含义:

indexes - 文本可读性指标集:

  • grade_SMOG - 根据SMOG公式理解文本所需的教育水平,用人类语言表述
  • grade_ari - 根据自动可读性指数公式理解文本所需的教育水平,用人类语言表述
  • grade_cl - 根据Coleman-Liau公式理解文本所需的教育水平,用人类语言表述
  • grade_fk - 根据Flesch-Kinkaid公式理解文本所需的教育水平,用人类语言表述
  • grade_dc - 根据Dale-Chale公式理解文本所需的教育水平,用人类语言表述
  • index_SMOG - 根据SMOG公式理解文本所需的教育水平,以1到无穷大的学习年数表示
  • index_ari - 根据自动可读性指数公式理解文本所需的教育水平,以1到无穷大的学习年数表示
  • index_cl - 根据Coleman-Liau公式理解文本所需的教育水平,以1到无穷大的学习年数表示
  • index_fk - 根据Flesch-Kinkaid公式理解文本所需的教育水平,以1到无穷大的学习年数表示
  • index_dc - 根据Dale-Chale公式理解文本所需的教育水平,以1到无穷大的学习年数表示

指标 - 从文本中计算得出的一组指标

  • chars - 文本中的总字符数
  • spaces - 文本中的空格数
  • letters - 文本中的字母数
  • n_words - 单词数
  • n_sentences - 句子数
  • n_complex_words - 超过4个音节的单词数
  • n_simple_words - 4个音节及以下的单词数
  • avg_slen - 每句话的平均单词数
  • avg_syl - 每个单词的平均音节数
  • c_share - 复杂单词占总单词数的百分比
  • w_syllabes - 一个字典,包含音节数和具有该音节数的单词数量

如果传入参数debug=1,还会返回传入的文本值。

以下是一些用于训练的文本示例。

  • textmetric - 用于测量俄语简易程度的代码库

textmetric中的文本文件是经过特别挑选的,带有预先的年龄标记。这使得可以基于这些指标开发自己的可读性、简易性和可理解性分析算法。

textmetric/metrics.csv - 指标列表

  • filename - textsbygrade文件夹中的文件名
  • name - 文本标题
  • grade - 理解文本所需的学习年限,专家评估
  • index_fk_rus - 使用Flesch-Kinkaid公式测量的文本复杂度(以学习年限计)
  • fk_grade_diff - Flesch-Kinkaid公式测量的复杂度与预设专家评估的差异
  • index_cl_rus - 使用Coleman-Liau公式测量的文本复杂度(以学习年限计)
  • cl_grade_diff - Coleman-Liau公式测量的复杂度与预设专家评估的差异
  • index_dc_rus - 使用Dale-Chale公式测量的文本复杂度(以学习年限计)
  • dc_grade_diff - Dale-Chale公式测量的复杂度与预设专家评估的差异
  • index_SMOG_rus - 使用SMOG公式测量的文本复杂度(以学习年限计)
  • SMOG_grade_diff - SMOG公式测量的复杂度与预设专家评估的差异
  • index_ari_rus - 使用Automatic Readability Index公式测量的文本复杂度(以学习年限计)
  • ari_grade_diff - Automatic Readability Index公式测量的复杂度与预设专家评估的差异
  • chars - 文本中的字符数
  • spaces - 空格数
  • letters - 字母数
  • n_syllabes - 总音节数
  • n_words - 总单词数
  • n_complex_words - 复杂单词数
  • n_simple_words - 简单单词数
  • n_sentences - 句子数
  • c_share - 复杂单词占比(百分比)
  • avg_syl - 每个单词的平均音节数
  • avg_slen - 每个句子的平均单词数
  • wsyllabes - 按音节数统计的单词频率字典,格式为{"音节数":"单词数"}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号