freshqa

搜索引擎增强技术提升大型语言模型性能

FreshLLMs 大语言模型搜索引擎增强数据集评估方法 Github 开源项目

FreshLLMs项目开发搜索引擎增强方法,提升大型语言模型性能。核心组件包括FreshQA问答数据集、FreshPrompt回答生成工具和FreshEval自动评估指标。FreshQA每周更新,保持数据时效性。FreshPrompt整合搜索结果生成回答。FreshEval提供客观评估标准。该项目为研究人员提供开放资源,助力提高语言模型的时效性和准确性,推动AI技术创新。

Github

介绍相关项目

searchGPT - 基于大型语言模型（LLM）的开源搜索引擎，支持网络和文件内容实时搜索

GithubsearchGPT大型语言模型开源项目文件内容搜索问答系统

searchGPT是一款基于大型语言模型（LLM）技术的开源搜索引擎，提供自然语言回答功能。支持实时网络和文件内容搜索，集成OpenAI与GooseAI等LLM技术。简洁直观的界面提升用户体验。了解更多项目架构、未来发展及安装和运行指南，欢迎开发者贡献代码，特别是前端开发者。探索searchGPT的自然语言处理和搜索引擎创新优势。

farfalle - 开源AI搜索引擎，支持本地和云端模型运行

AI搜索引擎DockerFarfalleGithubLiteLLMSearXNG开源项目

Farfalle是一个开源的AI搜索引擎，支持运行本地模型（如llama3、gemma、mistral、phi3）和通过LiteLLM使用自定义模型，还可使用云端模型（如Groq/Llama3、OpenAI/gpt4-o）。该项目集成了多个搜索提供商（如Tavily、Searxng、Serper、Bing），并具备专家搜索和聊天历史功能。用户可通过Docker进行本地部署，也可使用Vercel进行前端部署。项目详细信息和使用指南可在GitHub页面找到。

Retrieval-Augmented-Visual-Question-Answering - 细粒度后期交互多模态检索视觉问答系统

FLMRGithub基准测试多模态检索开源项目视觉问答预训练模型

这个项目开发了一个基于细粒度后期交互多模态检索的视觉问答系统。系统在OK-VQA等多个基准数据集上实现了先进的检索和问答性能。它采用模块化架构,包含预训练映射网络、FLMR检索器和BLIP2读取器等关键组件。项目提供完整的代码库,支持训练和评估,并发布了预训练模型和处理后的数据集,便于研究人员进行后续研究。

spelltest - AI应用的LLM质量测试工具

AI质量保证GithubGoogle ColabSpelltest大语言模型开源项目模拟测试

高效测试大型语言模型应用，确保在各种场景下提供准确的响应。通过模拟用户交互和自动质量评估，实现无缝开发流程集成，降低手动测试成本，提高用户满意度。

lm-evaluation-harness - 统一测试生成式语言模型的多任务评估框架

GPT-NeoXGithubHugging FaceLanguage Model Evaluation HarnessOpen LLM LeaderboardvLLM开源项目

该项目提供统一框架，用于评估生成式语言模型，通过60多个标准学术基准和数百个子任务实现多样化测试。更新包括新的Open LLM Leaderboard任务、内部重构、基于配置的任务创建、Jinja2提示设计支持等高级配置选项，旨在简化和优化模型评估。支持快速高效推理、商业API、本地模型和基准测试。被广泛应用于机构如NVIDIA、Cohere、BigScience等，也支撑了🤗 Hugging Face的Open LLM Leaderboard。

PromptCraft-Robotics - 共享大语言模型在机器人领域的创新提示与模拟器支持

ChatGPTGithubOpenAIPromptCraft-Robotics仿真器开源项目机器人

PromptCraft-Robotics是一个社区平台，专注于分享和测试大语言模型在机器人领域的应用示例。用户可以提交操控、家庭机器人和物理推理等类别的提示，经社区审核后加入主仓库。项目提供基于Microsoft AirSim的机器人模拟器，帮助用户快速入门。支持OpenAI的ChatGPT及其他开源模型，为研究和开发人员提供丰富的资源和合作机会。

ps-fuzz - 加强生成式AI应用的安全评估工具

GenAIGithubLLMPrompt Fuzzer动态测试安全评估开源项目

Prompt Fuzzer 是一个开源工具，用于评估和强化生成式人工智能（GenAI）应用的系统提示安全性。它通过模拟各类基于大型语言模型（LLM）的动态攻击，提供详细的安全评估，帮助识别并修复潜在漏洞。该工具根据应用的独特配置和领域调整测试，并提供一个交互式的 Playground 界面，便于迭代改进系统提示。Prompt Fuzzer 还支持多线程测试和多种 LLM 提供商的集成，确保全面的测试覆盖。其高效功能，使其成为开发高安全性 GenAI 应用的关键工具。

gpt-prompt-engineer - 智能提示工程优化系统

AIELO评分系统GPTGithub开源项目提示工程测试

gpt-prompt-engineer是一款自动化提示工程工具，能够根据任务描述和测试用例生成、评估和排序多个提示。该工具支持多种先进AI模型，包括GPT-4、GPT-3.5-Turbo和Claude 3 Opus。通过ELO评分系统、分类功能和专门的Claude 3版本，gpt-prompt-engineer显著提升了提示工程的效率和质量。

LLMBox - 全面的大型语言模型训练与评估框架

GithubLLMBox大语言模型开源项目模型评估训练管道高效推理

LLMBox是一个综合性大型语言模型(LLM)库，集成了统一的训练流程和全面的模型评估功能。该框架旨在提供LLM训练和应用的完整解决方案，其设计注重实用性，在训练和使用过程中体现出高度的灵活性和效率。LLMBox支持多样化的训练策略和数据集，提供丰富的评估方法，并具备高效的推理和量化能力，为LLM的研究和开发提供了强大支持。

FLASK - 细粒度语言模型评估框架

FLASKGithub对齐评估开源项目技能集细粒度分析语言模型评估

FLASK是一个开源的语言模型评估框架，采用细粒度的实例级技能集作为评估指标。该框架提供任务无关的评估协议，包含模型推理、GPT-4评估和结果分析功能。FLASK还具备自动元数据标注能力，可标注领域、技能集和难度级别。项目包含详细使用说明和在线演示，为语言模型评估提供全面解决方案。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号