Calliar
Calliar 是一个阿拉伯书法数据集。该数据集包含 2500 个 json 文件,其中包含手动标注的阿拉伯书法笔画。本仓库包含以下论文的数据集:
Calliar:在线手写阿拉伯书法数据集
Zaid Alyafeai, Maged S. Al-shaibani, Mustafa Ghaleb, Yousif Ahmed Al-Wajih
https://arxiv.org/abs/2106.10745摘要: 书法是阿拉伯传统和文化的重要组成部分。过去,它被用于装饰房屋和清真寺。通常,这种书法是由具有审美洞察力的专家手工设计的。在过去几年里,人们通过拍摄装饰建筑的照片或使用数字设备绘制来数字化这种艺术形式,付出了相当大的努力。后者被认为是一种在线形式,通过记录设备(例如电子笔)在屏幕上的移动来跟踪绘画过程。在文献中,有许多离线数据集收集了各种阿拉伯书法风格。然而,目前还没有可用的在线阿拉伯书法数据集。在本文中,我们阐述了收集和注释名为 Calliar 的在线阿拉伯书法数据集的方法,该数据集包含 2,500 个句子。Calliar 为笔画、字符、单词和句子级别的预测进行了标注。
统计数据
数据集 | 样本数 | 单词数 | 字符数 | 笔画数 |
---|---|---|---|---|
训练集 | 2,000 | 6,065 | 24,722 | 36,561 |
验证集 | 250 | 738 | 2,946 | 4,410 |
测试集 | 250 | 753 | 3,052 | 4,601 |
数据集格式
主要有两种基本格式。
.json
每个 .json
文件包含一个笔画列表。每个列表是一个包含笔画字符和点列表的字典。像 ت
这样的复合字符被映射为原始笔画列表,即 ..ٮ
。有关映射的更多详细信息,请参阅论文和 chars.py
。
.npz
数据集的压缩格式 dataset.npz
只有 8.6 MB,使用 Ramer-Douglas-Peucker 算法减少了每个笔画的点数。此任务使用了 Python 库 rdp。.npz
格式采用与 QuickDraw 相同的方法。
可视化
vis.py
文件包含一系列 Python 方法,可以轻松地可视化数据集。以下是两个示例,用于绘制样本 json 文件和创建动画。
import glob
import matplotlib.pyplot as plt
import json
from IPython.core.display import display, HTML, Video
from vis import *
## 显示笔画的图像
drawing = json.load(open(json_path))
print(get_annotation(json_path))
data = convert_3d(drawing)
draw_strokes(data, stroke_width = 2, crop = True)
## 创建动画
create_animation(json_path)
Video("tmp/video.mp4")
样本
标注服务器
首先运行 pip install django
,然后进入 calliar_server
目录并运行
python manage.py runserver
动画
(此处省略视频链接)
引用
@misc{alyafeai2021calliar,
title={Calliar: An Online Handwritten Dataset for Arabic Calligraphy},
author={Zaid Alyafeai and Maged S. Al-shaibani and Mustafa Ghaleb and Yousif Ahmed Al-Wajih},
year={2021},
eprint={2106.10745},
archivePrefix={arXiv},
primaryClass={cs.CL}
}