项目概述
该项目是一个希伯来语隐喻识别模型,主要用于判断句子中的动词是以隐喻方式还是字面方式使用。这是在以色列理工学院(Technion)电气工程与计算机科学学院开展的一个研究项目。
技术实现
该模型是基于avichr/heBERT模型在HebrewMetaphors数据集上进行微调得到的。模型支持20个希伯来语动词的隐喻识别,包括"做梦"、"切割"、"飞行"等常用动词。在评估集上取得了较好的成果,准确率高达95.10%。
训练细节
模型采用了以下主要训练参数:
- 学习率设定为2e-05
- 训练批次大小为16
- 评估批次大小为16
- 随机种子为42
- 优化器采用Adam
- 学习率调度器类型为线性
- 训练轮数为15轮
训练过程中,模型的性能逐步提升:
- 第1轮准确率就达到93.79%
- 到第11轮时达到最高准确率95.48%
- 最终稳定在95.10%的准确率
技术框架
项目使用了多个主流深度学习框架:
- Transformers 4.30.2
- PyTorch 2.0.1
- Datasets 2.13.1
- Tokenizers 0.13.3
项目团队
这是一个学术研究项目,由以下成员完成:
- Doron Ben-chorin
- Matan Ben-chorin
- Tomer Tzipori 在Dr. Oren Mishali的指导下进行。该团队欢迎相关领域的合作与交流。
应用价值
这个模型在自然语言处理领域具有重要价值,可以帮助计算机更好地理解人类语言中的隐喻用法,对于提升机器翻译、文本理解等任务的性能具有积极意义。项目的高准确率也证明了这种方法在处理希伯来语隐喻识别任务上的有效性。