Project Icon

Flow-Judge-v0.1-AWQ

高效的开源小型模型用于多领域AI评估

Flow-Judge-v0.1-AWQ是一个源自Phi-3.5-mini-instruct的开源模型,专为多领域LLM系统评估而设计。尽管体积小巧,这款3.8B模型在多种评分尺度下表现出色,支持定性反馈,并生成结构化评估结果,非常适合需要利用自定义评分标准进行高效低成本评估的开发者和企业。

项目介绍:Flow-Judge-v0.1-AWQ

项目背景

Flow-Judge-v0.1-AWQ是一个由Flow AI开发的小型语言模型,专为评估大型语言模型(LLM)系统的多个领域而设计。基于microsoft/Phi-3.5-mini-instruct模型,这一版本通过量化技术有效减少了系统的资源占用,同时仍保持高性能输出。

核心特点

自定义评估

Flow Judge的一个主要特点是允许用户根据自身需求自定义评估标准和评分系统。这种灵活性有助于实现高度定制化的评估方案,精确测量特定任务的性能。

  • 多种评分尺度:支持三种评分机制,包括简单的通过/不通过、三档Likert评分(从负面到正面)、以及更精确的五档Likert评分(从强烈负面到强烈正面)。这种多样化的选择允许用户精细化捕捉文本质量或情感上的细微差别。

简单易懂的结果

Flow Judge提供结构化的评估输出,包括定性反馈和定量评分。

  • 定性反馈:提供详细的评价反馈,解释其为某一输出部分打分的理由,并突出指出问题区域。
  • 定量评分:根据评分标准返回相应的数值评分,无论是二进制评分还是三分或五分制评分系统。

技术细节

模型量化

Flow-Judge-v0.1-AWQ通过AWQ safetensors量化技术进行优化。以下是其量化配置:

quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4, "version": "GEMM" }
model = AutoAWQForCausalLM.from_pretrained(merged_path, **{"low_cpu_mem_usage": True, "use_cache": False}, 
attn_implementation="flash_attention_2", torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(lora_path, trust_remote_code=False)
model.quantize(tokenizer, quant_config=quant_config)
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

使用环境

要运行Flow-Judge模型,建议硬件配置包括:

  • 至少4 GB VRAM的现代显卡(例如NVIDIA RTX系列)
  • 最少8 GB的系统内存
  • 至少10GB的存储空间以保存模型文件和相关依赖项。

适用场景

Flow Judge适用于定制大型语言模型系统的评估任务,支持开发者和公司以更具成本效益和快速的方式评估模型。这在快速发展的AI领域中尤其有用,因其能够在评估中运用自定义的量表和指标。

训练过程

Flow Judge基于Phi-3.5-mini架构进行开发,并使用一些合成的训练数据集。这些数据集通过以下步骤构建:

  1. 人工策划的初始评分标准,作为基础。
  2. 合成生成多个领域的适用指标和评分标准。
  3. 生成多个输入(如用户查询和上下文信息)的训练实例。
  4. 使用双重评价策略确保数据集的质量和一致性。

在微调过程中,使用Axolotl预处理工具来保证输入数据的一致性,并采用RSLoRa进行微调。详细的微调过程可以在技术报告中查阅。

评估

Flow Judge已经在多种测试集中进行了评估,并展现出优于许多更大模型的性能。其在二元通过/不通过测试集上具有高精确度、召回率和F1分数,在Likert多档评估方法中也表现出良好的相关性。

更多细节可访问其项目网站GitHub库

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号