Project Icon

ECDICT

开源英汉词典数据库 提供多维度词汇信息与查询功能

ECDICT是一个开源英汉词典数据库,收录数十万词条。除提供英文和中文释义外,还根据考试大纲和语料库词频进行详细标注。用户可查询单词的音标、词性、词频和考试类别等信息,以及词形变化和词干。支持CSV、SQLite和MySQL格式,并提供Python接口便于自定义查询和数据处理。该项目适用于词典开发、语言学习和自然语言处理研究。

ECDICT

免费英汉词典数据库。

简介

这是一个英文->中文的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。

最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。

其后数年根据各种资料和网友贡献词库增长到 10 万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict 的主词库也是根据 cdict 转换得到),并按照英国国家语料库的前 16 万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。

单词标注

给数据库中每个单词标注:是否是各类考试大纲词汇?以及他们在 BNC 和其他语料库里的词频顺序。BNC 词频统计的是最近几百年的历史各类英文资料,而当代语料库只统计了最近 20 年的,为什么两者都要提供呢?

很简单,quay(码头)这个词在当代语料库里排两万以外,你可能觉得是个没必要掌握的生僻词,而 BNC 里面却排在第 8906 名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多,你要看懂 19 世纪即以前的各类名著,你会发现 BNC 的词频很管用。

而你要阅读各类现代杂志,当代语料库的作用就体现出来了,比如 Taliban(塔利班),在 BNC 词频里基本就没收录(没进前 20 万词汇),而在当代语料库里,它已经冒到 6089 号了,高频中的高频。

BNC 较为全面和传统,针对性学习能帮助你阅读各类国外帝王将相的文学名著,当代语料库较为现代和实时,以和科技紧密相关。所以两者搭配,干活不累。

经过标注后,你查任何一个单词,都会告诉你这个词汇是不是四六级词汇?雅思词汇?柯林斯星级是多少?是否是牛津 3000 核心词汇?传统词频和现代词频各是多少?这样单词的重要程度你就能了解个大概了。

其次是标注动词的各个时态,每个动词有现在分词,过去式,过去分词,第三人称现在时等四种时态,用 NodeBox 和 WordNet 工具包可以方便的查询每个动词的变化形式,如此你查单词时能够给你显示出来各种变体,同时将这些变体作为新的生词再次加入到字典中,大部分字典都没法查询动词的各种时态,ECDICT 可以让你方便的查询一万多个动词(几乎所有动词)的所有派生词。

数据格式

采用 CSV 文件存储所有词条数据,用 UTF-8 进行编码,用 Excel 的话,别直接打开,否则编码是错的。在 Excel 里选择数据,来自文本,然后设定逗号分割,UTF-8 编码即可。

字段解释
word单词名称
phonetic音标,以英语英标为主
definition单词释义(英文),每行一个释义
translation单词释义(中文),每行一个释义
pos词语位置,用 "/" 分割不同位置
collins柯林斯星级
oxford是否是牛津三千核心词汇
tag字符串标签:zk/中考,gk/高考,cet4/四级 等等标签,空格分割
bnc英国国家语料库词频顺序
frq当代语料库词频顺序
exchange时态复数等变换,使用 "/" 分割不同项目,见后面表格
detailjson 扩展信息,字典形式保存例句(待添加)
audio读音音频 url (待添加)

提供一段 Python 程序来读取这些数据,可以用它转换到 SQLite 和 MySQL 的数据库里,方便你用更高级的方法筛选查询。词条数据大小写不敏感,不论从查询还是排序,还是编程接口。

词形变化

某个动词的各种时态是什么?某个形容词的比较级和最高级又是什么?某个名词的复数呢?这个单词是由哪个单词怎么演变而来的?它的原型单词(Lemma)是什么?

可能大家注意到上表有一个 Exchange 字段,它就是来做这个事情的,这是本词典一大特色之一,格式如下:

类型1:变换单词1/类型2:变换单词2

比如 perceive 这个单词的 exchange 为:

d:perceived/p:perceived/3:perceives/i:perceiving

意思是 perceive 的过去式(p) 为 perceived,过去分词(d)为 perceived, 现在分词('i')是 perceiving,第三人称单数(3)为 perceives。冒号前面具体项目为:

类型说明
p过去式(did)
d过去分词(done)
i现在分词(doing)
3第三人称单数(does)
r形容词比较级(-er)
t形容词最高级(-est)
s名词复数形式
0Lemma,如 perceived 的 Lemma 是 perceive
1Lemma 的变换形式,比如 s 代表 apples 是其 lemma 的复数形式

这个是根据 BNC 语料库和 NodeBox / WordNet 的语言处理工具生成的,有了这个 Exchange ,你的 App 能为用户提供更多信息。

编程接口

代码 stardict.py 用于操作该数据(兼容 Python 2/3),同时实现三个类:

类名说明
DictCsv用于读写 ecdict.csv 数据格式文件
StarDict用来读写 SQLite 词典数据文件,数据字段和上面相同,接口也和 CSV 版本相同
DictMySQLMySQL 版本的数据文件读写,同样字段和接口和上面两者相同

以上三个类都统一提供如下接口:

接口说明
query查询单词,可以查整数 id(CSV 里 id 为行号,其他两者是自增量)或单词字符串,返回 Python 字典
match单词匹配,匹配最相似的前 N 个单词
query_batch批量查询
count返回数据库词条总数
register注册新单词
update更新单词数据,除了 id, word 两个字段外其他都可以更新
remove删除单词
commit提交更改

在 stardict.tools 下面还有很多帮助类的接口,便于你维护词典数据:

  1. 导出两个字典数据的差异
  2. 导入差异数据到一个字典
  3. 导出成 StarDict(星际译王)的原格式(用于 DictEditor 生成字典)
  4. 导出成 mdict 的 .mdx 的源文件(用于 MdxBuilder 生成 mdx 字典)
  5. 词典格式 .csv, .db (Sqlite), mysql 之间数据互转。

词干查询

这个词干不是背单词时候的词根,而是 lemma。每个单词有很多变体,你编写一个抓词软件抓到一个过去式的动词 gave,如果字典里面没有的话,就需要词干数据库来查询,把 gave 转变为 give,再查词典数据库。

我扫描了 BNC 语料库全部 1 亿个词条语料生成的 lemma.en.txt 就是用来做这个事情,stardict.py 中 LemmaDB 这个类就是用来加载该数据并进行分析的。

你或许希望统计某些文档的词频,然后针对性的学习,那么你需要先将文章中出现的词先转换成该词的原型(lemma),网上有很多算法做这个事情,但是都不靠谱,最靠谱的方式就是数据库直接查询,著名的拼写检查库 hunspell 库就是这么干的。

用 LemmaDB 类可以方便的查询 ['gave', 'taken', 'looked', 'teeth'] 的 lemma 是 ['give', 'take', 'look', 'tooth'],也可以查找 'take' 这个词的若干种变体。

这个 lemma.en.txt 涵盖了 BNC 所有语料的各种词汇变形,95%的情况下你可以查到你想要的,这个作为首选方法,查不到再去依靠各种算法(判断词尾 -ed,-ing 等),最可靠的是数据库,算法次之。

单词词性

数据库中有一个字段 pos,就是中文里面的词性,动词还是名词,英文叫做 pos ,句子中的位置。同样是扫描语料库生成的,比如:

fuse:pos = n:46/v:54

代表 fuse 这个词有两个位置(词性),n(名词)占比 46%,v(动词)占比 54%,根据后面的比例,你可以直到该词语在语料库里各个 pos 所出现的频率。关于 pos 里各个字母的含义还可以看 这里这里

词典使用

同时支持 CSV, SQLite, MySQL 三种格式,github 上放的字典数据是 .csv,因为基于文本,便于 PR 和更改看 differ,但是本地使用 csv 很痛苦,文件大了打开速度很慢。所以自己使用时,一般都是转换成本地的 SQLite 数据库,这样快速很多,基本没有等待,查单词也很迅速。

日常使用,比如整理自己的卡片,生成 anki 数据等,SQLite 是首选,stardict.py 中提供完整的 SQLite 字典接口。如果自己要修订,建议先新生成一个比较小的 .csv,配合本地的大的 SQLite .db 数据库一起用,查一个单词时先查小的 .csv 里面有没有,没有的话再去查 SQLite 的库去,这样现在 .csv 里面把修订的工作干了,自己用一段时间没大问题,数据比较稳定的时候,一次性从 .csv 中合并到大的 SQLite 数据库中。 不合并也行,同时使用两个库。

如果你要提交 PR,可以把你的整个 SQLite 数据库导回 .csv 格式,然后在网上提交 differ 或者 patch。本地可能有多个 SQLite 数据库,一个就是这个 ECDICT 的数据,一些可能是你从其他什么某些资料里面导出来的比较好的释义例句等,就是你日积月累整理收集的各种材料。

生成 Anki 卡片的时候,你可以优先使用你自己的库的信息,你自己的库里没有了,再找 ECDICT。而 ECDICT 里面的各种词频标注,考试大纲标注,也可以给你提供不同层次的参考。比如你想把托福里面去除六级的词汇筛选出来(很多重合),这时 EDICT 本身的标注信息就能 随着时间的推移,单词最初可能是一个词组,然后变成用连字符连接的复合词,最后因为使用频繁,连字符也被省略了。许多词典可能无法完全包含"long-time/long time/longtime"这类词的所有形式,但首次搜索失败时,可以匹配相同词干的单词,然后定位到该单词的其他形式。

许多词典,如星际译王,都不包含"strip"字段,因此尽管词典中有该单词,但由于输入了错误的形式,导致无法查询。而ECDICT作为一个负责任的词典数据库,能让你通过"sw"这个字段查询单词的各种形式。

文字处理

linguist.py中包含一些简单的WordNet和NodeBox封装。

简明英汉增强版

使用ECDICT的数据,生成了《简明英汉字典增强版》的词典库,可在GoldenDict、欧陆、MDict、StarDict、BlueDict、EDWin中加载,还有Kindle格式,可在Kindle上使用。这是全网收词量最多的本地化词典,解决了联网查词时网速慢、广告多和效率低的问题。

简明英汉增强版-说明和下载

文档索引

欢迎贡献

采用CSV格式是为了方便在GitHub上提交PR、管理差异,欢迎大家提交各类词条增补。

TODO

(列出已完成和待完成的任务)

历史

(列出项目的重要更新历史)

应用

T.vim vim的翻译插件。 Trans.nvim neovim的翻译插件。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号