tdmpc2

跨领域连续控制的可扩展世界模型

TD-MPC2是一种可扩展的基于模型的强化学习算法，在104个连续控制任务中展现出色性能。该算法使用317M参数的单一模型可执行80个跨领域任务。项目提供300多个模型检查点和多任务数据集，支持状态和像素输入，为模型强化学习研究提供重要资源。

访问官网

Github

论文

介绍相关项目

Safe-Reinforcement-Learning-Baselines - 综合安全强化学习研究资源库

GithubSafe Reinforcement Learning基准测试安全强化学习开源项目环境算法

Safe-Reinforcement-Learning-Baselines项目汇集了安全强化学习领域的多种基线算法和基准环境，涵盖单智能体和多智能体场景。该资源库提供环境支持、算法实现、相关调查、学术论文和教程等全面内容，为研究人员提供系统性的安全强化学习工具和参考资料，促进该领域的持续发展和创新。

mup - 大规模神经网络的稳定超参数优化方法

GithubMaximal Update ParametrizationMuTransfer大规模神经网络开源项目深度学习超参数稳定

Maximal Update Parametrization (μP) 提供了一种适用于大规模神经网络的稳定超参数优化方法，例如预训练的Transformer等。利用μP，模型的超参数在不同大小的网络中可保持稳定，减少了在探索和扩展过程中的不确定性和脆弱性。该工具包简化了在PyTorch模型中实现μP的流程，是优化和调优深度学习模型的强大工具。

Deep-RL-Keras - 模块化实现深度强化学习算法，支持A2C、A3C、DDPG、DDQN

Actor-Critic算法GithubKeras优化算法开源项目深度Q学习深度增强学习

本项目在Keras框架下实现了多种常用的深度强化学习算法模块化，包括A2C、A3C、DDPG、DDQN等。用户可以通过命令行参数运行不同的RL算法，并在OpenAI Gym环境中进行训练。项目支持模型可视化和Tensorboard监控，提供详细的算法说明和使用案例，帮助用户理解和应用这些技术。

awesome-deep-rl - 深度强化学习领域的最新研究综述与应用案例

Deep Reinforcement LearningGithubModel-basedPolicy GradientReinforcement LearningUnsupervised RL开源项目

该项目收录了深度强化学习领域的重要研究成果和应用示例，包括最新的学术论文、框架、算法和应用案例，覆盖无监督、离线、价值基础和策略梯度等多种方法。项目内容经常更新，提供最新的研究动态和工具，如2024年的HILP与2022年的EDDICT。适合从事人工智能、机器学习和强化学习的专业人员与爱好者了解该领域的最新进展。

MFTCoder - 优化代码大模型性能的多任务微调框架

CodeFuseGithubHumanEvalMFTCoder代码大语言模型多任务微调开源项目

MFTCoder是一个开源的多任务微调框架,致力于提升代码大模型性能。该框架支持多种主流开源大模型,采用LoRA和QLoRA等高效微调方法,实现多任务平衡训练。MFTCoder还开源了多个高性能代码大模型和高质量数据集,在HumanEval等基准测试中表现优异。这一框架旨在促进代码大模型领域的协作与创新。

mamba - 线性时间序列建模的突破性架构

GithubMamba序列建模开源项目深度学习状态空间模型线性时间复杂度

Mamba是一种创新的状态空间模型架构，专为信息密集型任务如语言建模而设计。基于结构化状态空间模型，Mamba采用选择性状态空间实现线性时间复杂度的序列建模，突破了传统亚二次方模型的限制。该项目提供多个预训练模型，支持多种硬件平台的推理和评估，展现了优越的性能和灵活性。

MAmmoTH2-7B-Plus - 增强大型语言模型推理能力的创新研究

GithubHuggingfaceMAmmoTH2大语言模型开源项目指令微调数学推理模型

MAmmoTH2项目通过创新的指令微调技术，提升大型语言模型在推理基准上的显著表现。该项目高效采集了来自预训练网络语料的1000万条指令-响应对，成功开发出无需特定领域数据且在MATH与GSM8K基准上表现优异的模型。MAmmoTH2-Plus进一步基于公共数据进行训练，在推理与聊天机器人领域设定了新标准。本项目展示了一种获取大规模优质指令数据的高性价比方法，提供了增强大型语言模型推理能力的全新视角。

MiniCPM-V-2_6 - 高性能多模态语言模型实现单图多图视频智能理解

GithubHuggingfaceMiniCPM-V人工智能图像理解多模态大语言模型开源项目模型视频理解

MiniCPM-V 2.6是一个高效的多模态大语言模型，仅用8B参数就达到了GPT-4V级别的表现。该模型支持单图、多图和视频理解，在多项基准测试中成绩优异。它具备出色的性能、多图和视频理解能力、强大的OCR功能以及多语言支持。MiniCPM-V 2.6还以其高效率和易用性著称，可轻松部署在包括手机和平板电脑在内的各种设备上。

mlc-llm - 通用大语言模型高性能部署引擎

AI模型优化GithubMLC LLMMLCEngine开源项目机器学习编译器高性能部署

MLC LLM是一款用于大语言模型的高性能部署引擎，支持用户在各种平台上开发、优化和部署AI模型。核心组件MLCEngine通过REST服务器、Python、JavaScript、iOS和Android等接口提供OpenAI兼容的API，支持AMD、NVIDIA、Apple和Intel等多种硬件平台。项目持续优化编译器和引擎，与社区共同发展。

control_v11p_sd15_mlsd - 条件控制的优化：提升大规模Diffusion模型的定制化能力

ControlNetGithubHuggingfaceStable Diffusion图像调控开源项目扩散模型文本到图像生成模型

ControlNet v1.1通过引入额外的输入条件，实现对大型Diffusion模型的精细化控制。该模型在小数据集环境下也能高效学习，并支持在个人设备上进行快速训练。借助ControlNet，Stable Diffusion等模型能够采用如边缘图、分割图和关键点等条件输入，增强控制能力，推动相关应用的发展。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com