LogicKor
韩语语言模型多领域思维能力基准测试
基准测试网站
注意
欢迎提交PR。 我们也接受基准测试结果的自我报告。请通过issue或PR提交。💕
- 建议:在提交PR之前,请通过
make format && make check
检查代码格式。(需要安装black、isort、ruff依赖)
仓库
本仓库包含LogicKor基准测试的推理和评估代码以及数据集。
评估示例
使用GPU 0,1,model_len为4096
1. 生成推理结果
python generator.py --model yanolja/EEVE-Korean-Instruct-10.8B-v1.0 --gpu_devices 0,1 --model_len 4096
2. 使用Judge模型进行评估
OpenAI
python evaluator.py -o ./generated/yanolja/EEVE-Korean-Instruct-10.8B-v1.0 -k sk-somethingsomething -t 30
Azure
export AZURE_ENDPOINT=$AZURE_ENDPOINT
export AZURE_DEPLOYMENT_NAME=$AZURE_DEPLOYMENT_NAME
export AZURE_API_VERSION=$AZURE_API_VERSION
python evaluator.py --azure -o ./generated/yanolja/EEVE-Korean-Instruct-10.8B-v1.0 -k sk-somethingsomething -t 30
3. 查看结果
python score.py -p ./evaluated/yanolja/EEVE-Korean-Instruct-10.8B-v1.0/default.jsonl