accel-brain-code

accel-brain-code

深度学习和机器学习算法库集合

accel-brain-code是一个开源项目,集成了多个深度学习和机器学习算法库。它包括自动编码器、生成对抗网络、深度强化学习等模块,旨在通过概念验证和研发创建原型。该项目探索了AI民主化后的机器学习研发可能性,为快速开发复杂AI系统提供了基础。其功能涵盖自动摘要、强化学习、生成对抗网络等多个领域。

深度学习机器学习强化学习自动编码器生成对抗网络Github开源项目

Accel Brain Code: 从概念验证到原型

本代码库的目的是在概念验证(PoC)和研发(R&D)的背景下制作原型作为案例研究,这些内容我已经在我的网站Accel Brain(日语)和Accel Brain Co., Ltd.(日语)上撰写过。主要研究主题包括与表示学习相关的自编码器、基于能量的模型的统计机器学习、对抗生成网络(GANs)、深度强化学习如深度Q网络、半监督学习,以及用于自然语言处理的神经网络语言模型。

问题设定:"人工智能(AI)民主化"时代后的深度学习

在"人工智能(AI)民主化"时代之后,如何进行机器学习(包括深度学习)的研发?简单地实现标准机器学习库和AutoML等应用程序提供的模型和算法只会重复造轮子。如果你只是复制粘贴库中的演示代码并使用,你的研发就会陷入教条式的权威开发,或所谓的炒作驱动开发。

如果你沉迷于"AI民主化"的概念,你可能会忘记研发不仅受民主主义影响,还受资本主义影响的现实。当研发成果与标准机器学习库和AutoML等应用程序实现的模型和算法有所区别时,研发才能提供经济价值。一般来说,研发必须提供差异化因素,以最大化其实现成果的稀缺性。

另一方面,必须记住,任何研发都建立在社会结构的历史和先前研究设想的概念语义之上。许多模型和算法不仅源于研究,还源于与业务领域的关系。不考虑社会及其历史的共性和同一性,就不可能假设差异化因素。

问题解决:PoC的PoC

当整个社会(包括商业)创造出新概念时,"AI民主化"的盲点就会出现。从面向对象分析等角度将新概念分解为接口规范,并实现符合接口规范的代码,这需要时间。以这种方式创造的新AI与已经"民主化"的AI之间总会存在一些差异。

从更现实的角度来看,只是等待AI"民主化"的普通用户总是会落后。相反,那些能够通过PoC创造新概念和新AI的人将始终在以AI为主题的市场中保持领先优势。隐藏在"AI民主化"的"民主"运动背后的是"资本主义"竞争的冷酷现实。

生活窍门的生活窍门

我的PoC的基本主题是生活窍门,即任何能减轻我们生活负担并使其更易控制或更方便的技巧。考虑到许多生活窍门解决方案都是技术性的,显然产品设计和开发技术也是一种可以被"破解"的"生活",生活窍门本身也可以成为生活窍门的目的。由于这种自我逻辑,我的PoC和技术原型看似无止境的循环是由自我参照驱动,周期性地重复"生活窍门的生活窍门"。

在这种问题设定和递归解决方案中,本代码库通过信息收集、寻找最优解决方案和注意力提升器等组成进行功能分化。每个功能都可以被视为生活窍门解决方案的组成部分。这些工具使思考过程更加高效,加速我们的大脑,为本代码库中其他工具的开发提供支持。所有代码,以机器学习或数据科学算法的形式实现,都反映了概念验证(PoC)的理念。

问题解决:Accel-Brain-Base

作为原型开发的一部分,本代码库发布了一个特殊的机器学习库,Accel-Brain-Base

accel-brain-base是一个用于低成本快速开发的深度学习基础库。该库通过组合多个功能分化的模块,如受限玻尔兹曼机(RBM)、深度玻尔兹曼机(DBMs)、堆叠自编码器、基于长短期记忆(LSTM)的编码器/解码器和卷积自编码器(CAE),使得设计和实现深度学习成为可能,这必须被配置为复杂系统或系统的系统。

<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/b168b406-3eff-44f3-a493-aaa0136f782d.jpg" /> <p><a href="https://avaminzhang.wordpress.com/2012/12/07/%E3%80%90dataset%E3%80%91weizmann-horses/" target="_blank">Weizmann马匹数据集</a>中的图像。</p> </div> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/ba913a44-08cd-48bc-a12a-8bd31174aab9.gif" /> <p><strong>卷积自编码器</strong>重构的图像。</p> </div>

从功能等价和结构扩展的角度来看,该库还原型化了许多变体,如基于能量的模型和生成模型。典型例子是生成对抗网络(GANs)和对抗自编码器(AAEs)。此外,它还提供了深度强化学习,将上述神经网络应用为函数逼近器。

考虑到深度学习范式中的许多可变部分、结构联合和功能等价(这些变体不仅源于研究,还源于与业务领域的关系),从面向对象设计的共性/可变性分析角度出发,该库提供了定义深度学习算法骨架的抽象类,将一些步骤推迟到具体变体算法(如深度玻尔兹曼机堆叠自编码器基于LSTM的编码器/解码器卷积自编码器)的客户端子类中。该库中的抽象类和接口允许子类重新定义深度学习算法的某些步骤,而不改变算法的结构。

这些抽象类还可以通过实现对象流动元素的可变部分,提供新的原创模型和算法,如生成对抗网络(GANs)深度强化学习神经网络语言模型

文档

完整文档可在 https://code.accel-brain.com/Accel-Brain-Base/README.html 上获取。该文档包含有关功能可重用性、功能可扩展性和功能可扩展性的信息。

问题解决方案:自动摘要库:pysummarization

pysummarization 是一个用于自动摘要、文档抽象和文本过滤的 Python3 库。

该库的功能是使用一种自然语言处理方法进行自动摘要。它使您能够创建原始文档或经文本聚类过滤的网络抓取文本的主要要点摘要。

文档

完整文档可在 https://code.accel-brain.com/Automatic-Summarization/ 上获取。该文档包含有关功能可重用性、功能可扩展性和功能可扩展性的信息。

问题解决方案:强化学习库:pyqlearning

pyqlearning 是一个用于实现强化学习和深度强化学习的 Python 库,特别是用于 Q-Learning、深度 Q 网络和多智能体深度 Q 网络,这些可以通过模拟退火、自适应模拟退火和量子蒙特卡罗方法等退火模型进行优化。

根据强化学习问题设置,Q-Learning 是一种时序差分学习(TD 学习),可以被视为蒙特卡罗方法和动态规划方法的混合。作为蒙特卡罗方法,TD 学习算法可以在没有环境模型的情况下通过经验学习。这种学习算法是动态规划方法中引导方法的功能扩展。

Q-Learning 的共性/可变性

在这个库中,Q-Learning 可以分为Epsilon Greedy Q-LearningBoltzmann Q-Learning。这些算法在功能上是等效的,但它们的结构在概念上应该有所区分。

考虑到 Q-learning 范式中的许多可变部分和功能扩展,从共性/可变性分析的角度来实践面向对象设计,该库提供了一个抽象类,定义了 Q-Learning 算法操作中的骨架,将一些步骤推迟到具体变体算法(如 Epsilon Greedy Q-Learning 和 Boltzmann Q-Learning)的客户端子类中。这个库中的抽象类允许子类重新定义 Q-Learning 算法的某些步骤,而不改变算法的结构。

深度 Q 网络解决简单迷宫问题

demo/search_maze_by_deep_q_network.ipynb 是一个 Jupyter notebook,展示了基于深度 Q 网络的迷宫求解算法,与深度卷积神经网络(Deep CNNs)紧密耦合。深度学习的功能是泛化,而 CNNs 是一个函数逼近器。在这个notebook中,可以从功能角度比较几个功能等效的模型,如 CNN、长短期记忆(LSTM)网络,以及松散耦合 CNN 和 LSTM 的模型。

<div align="center"> <p><a href="https://github.com/chimera0/accel-brain-code/blob/master/Reinforcement-Learning/demo/search_maze_by_deep_q_network.ipynb" target="_blank"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/979db887-2c6c-4cd9-979c-7ac521b630fd.gif" /></a></p> <p>使用深度强化学习解决迷宫问题。</p> </div>
  • 黑色方块代表墙壁。
  • 浅灰色方块代表通道。
  • 深灰色方块代表起点。
  • 白色方块代表终点。
追逃游戏

扩展迷宫的搜索问题可以描述追逃游戏,这是数学和计算机科学中的一类问题,其中一组试图在环境中追踪另一组成员。

这个问题可以重新描述为多智能体控制问题,涉及将全局系统状态分解为图像状态表示,信息编码在不同的通道中。这种重新表述允许我们使用卷积神经网络有效地从图像状态中提取重要特征。

demo/search_maze_by_deep_q_network.ipynb 还原型化了多智能体深度 Q 网络,以基于多智能体的图像状态表示解决追逃游戏。

<div align="center"> <table style="border: none;"> <tr> <td width="45%" align="center"> <p><a href="https://github.com/chimera0/accel-brain-code/blob/master/Reinforcement-Learning/demo/search_maze_by_deep_q_network.ipynb" target="_blank"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/425a6b26-641a-453e-9177-1257f794db5f.gif" /></a></p> <p>多智能体深度强化学习解决追逃游戏。玩家被敌人抓住。</p> </td> <td width="45%" align="center"> <p><a href="https://github.com/chimera0/accel-brain-code/blob/master/Reinforcement-Learning/demo/search_maze_by_deep_q_network.ipynb" target="_blank"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/a36c02c0-6f11-49ae-b3fa-b552a628ed32.gif" /></a></p> <p> <p>多智能体深度强化学习解决追逃游戏。玩家到达目标。</p> </td> </tr> </table> </div>
  • 黑色方块代表墙壁。
  • 浅灰色方块代表通道。
  • 深灰色方块代表起点。
  • 移动的深灰色方块代表敌人。
  • 白色方块代表终点。

组合优化问题和模拟退火。

在实际搜索和学习过程开始之前,我们需要设置许多超参数。每个参数都应该根据强化学习理论来决定,它会对训练模型产生副作用。这个问题可以被视为组合优化问题,即从有限的解决方案集中识别最优解的优化问题。在这种问题设置下,该库提供了诸如模拟退火等退火模型来搜索超参数的最佳组合。

annealing_hand_written_digits.ipynb所示,模拟退火有许多功能扩展和功能等价物。例如,自适应模拟退火,也称为超快速模拟再退火,是模拟退火的一个非常高效的版本。而量子蒙特卡罗,通常被认为是求解薛定谔方程的随机方法,是在经典计算机上模拟量子退火的最早解决方案之一。

文档

完整文档可在https://code.accel-brain.com/Reinforcement-Learning/上获取。该文档包含了功能可重用性、功能可扩展性和功能可扩展性的信息。

问题解决方案:生成对抗网络库:pygan

pygan是一个用于实现生成对抗网络(GANs)和对抗自编码器(AAEs)的Python库。

该库使得设计基于生成对抗网络(GANs)和对抗自编码器(AAEs)的统计机器学习问题相关的生成模型成为可能,以实践半监督学习的算法设计。

生成对抗网络(GANs)(Goodfellow等,2014)框架在两个神经网络之间建立了一个最小-最大对抗游戏——一个生成模型G和一个判别模型D。判别器模型D(x)是一个神经网络,计算观察到的数据点x在数据空间中是来自我们试图建模的数据分布(正样本)而不是来自我们的生成模型(负样本)的概率。同时,生成器使用函数G(z)将先验p(z)的样本z映射到数据空间。G(z)被训练以最大程度地混淆判别器,使其相信它生成的样本来自数据分布。生成器通过利用D(x)相对于x的梯度来训练,并使用该梯度修改其参数。

该库提供了对抗自编码器(AAEs),这是一种概率自编码器,使用GANs通过将自编码器隐藏层中特征点的聚合后验与任意先验分布匹配来执行变分推断(Makhzani, A.等,2015)。将聚合后验与先验匹配确保从先验空间的任何部分生成都会产生有意义的样本。因此,对抗自编码器的解码器学习了一个将施加的先验映射到数据分布的深度生成模型。

文档

完整文档可在https://code.accel-brain.com/Generative-Adversarial-Networks/上获取。该文档包含了功能可重用性、功能可扩展性和功能可扩展性的信息。

问题解决方案:算法作曲

pycomposer是一个用于通过强化学习(如Q-Learning和递归时间受限玻尔兹曼机(RTRBM))进行算法作曲或自动作曲的Python库。该库中的Q-Learning和RTRBM允许你提取MIDI轨道的旋律信息,这些模型可以学习和推断旋律的模式。此外,该库还有一个包装类,用于将Q-Learning和RTRBM推断的旋律数据转换为MIDI文件。

文档

完整文档可在https://code.accel-brain.com/Algorithmic-Composition/上获取。该文档包含了功能可重用性、功能可扩展性和功能可扩展性的信息。

问题解决方案:Cardbox

这是一个简单的卡片盒系统,使你能够找到并保存你的想法。

你可以在卡片上写下尽可能多的想法。像KJ法或思维导图工具一样,这个简单的JavaScript工具帮助我们发现你创建的卡片之间潜在的关系。标签功能允许你为卡片生成元数据,使其含义和关系易于理解。

问题解决方案:用Python实现双耳节拍和单耳节拍

AccelBrainBeat是一个用于创建双耳节拍或单耳节拍的Python库。你可以播放这些节拍并生成wav文件。频率可以选择性地设置。

这个Python脚本使你能够通过一种简化的方法使用一种通常被称为双耳节拍或单耳节拍的"脑波控制器"来控制你的精神状态。

文档

完整文档可在https://code.accel-brain.com/Binaural-Beat-and-Monaural-Beat-with-python/上获取。该文档包含了功能可重用性、功能可扩展性和功能可扩展性的信息。

问题解决方案:用JavaScript实现双耳节拍和单耳节拍

这些模块在功能上等同于AccelBrainBeat中的Python脚本。

问题解决方案:潜意识感知

这些JavaScript是用于潜意识感知实验的工具。

这是我在我的网站上进行案例研究的演示代码。

参考文献

这个库背后的基本概念、理论和方法在以下书籍中有所描述。

<div align="center"><a href="https://www.amazon.co.jp/dp/B08PV4ZQG5/" target="_blank"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/32cde3af-5f87-46c0-b2a4-763f0c0b36a5.jpg" width="160px" /></a> <p>『<a href="https://www.amazon.co.jp/dp/B08PV4ZQG5/ref=sr_1_1?dchild=1&qid=1607343553&s=digital-text&sr=1-1&text=%E6%A0%AA%E5%BC%8F%E4%BC%9A%E7%A4%BEAccel+Brain" target="_blank">「AI民主化」时代的企业内研究开发:深度学习作为「实学」的功能分析</a>』(日文)</p></div> <br /> <div align="center"><a href="https://www.amazon.co.jp/dp/B093Z533LK" target="_blank"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/3f6ac640-7bfb-4244-a51c-522d73b0387e.jpg" width="160px" /></a> <p>『<a href="https://www.amazon.co.jp/dp/B093Z533LK" target="_blank">AI对噪声交易者的投资者们:「算法战争」时代的证券投资策略</a>』(日文)</p></div> <br /> <div align="center"><a href="https://www.amazon.co.jp/dp/B0994CH3CM" target="_blank"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/a8f6cfbb-effb-4457-a76e-74412b10f369.jpg" width="160px" /></a> <p>『<a href="https://www.amazon.co.jp/dp/B0994CH3CM" target="_blank">自然语言处理的巴别塔:文档自动摘要、文本生成AI、聊天机器人的语义学</a>』(日文)</p></div> <div align="center"><a href="https://www.amazon.co.jp/dp/B09C4KYZBX" target="_blank"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/311dd081-0d81-4b82-8078-691828bc5cdd.jpg" width="160px" /></a> <p>『<a href="https://www.amazon.co.jp/dp/B09C4KYZBX" target="_blank">统计机器学习的根源:热力学、量子力学、统计力学中天才物理学家们的神学理念</a>』(日文)</p></div> <br /> <div align="center"><a href="https://www.amazon.co.jp/dp/B09JC4Z7B4" target="_blank"><img border="0" src="https://yellow-cdn.veclightyear.com/0a4dffa0/e2e87b5c-2101-49f8-af11-267102e8eac2.jpg" width="160px"></a> <p>『<a href="https://www.amazon.co.jp/dp/B09JC4Z7B4" target="_blank">数据可视化的媒体美学:混合策略的魔术师们</a>』(日文)</p></div> <div align="center"><a href="https://www.amazon.co.jp/dp/B09P4JXQWB" target="_blank"><img border="0" src="https://yellow-cdn.veclightyear.com/0a4dffa0/447e83fc-3f17-44ee-a0f9-9fd8e106a5c0.jpg" width="160px"></a> <p>『<a href="https://www.amazon.co.jp/dp/B09P4JXQWB" target="_blank">「浮士德式人类」的教育:终身学习的创业精神</a>』(日文)</p></div>

作者

  • Accel Brain株式会社

作者网址

许可证

  • GNU通用公共许可证v2.0

编辑推荐精选

AEE

AEE

AI Excel全自动制表工具

AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。

UI-TARS-desktop

UI-TARS-desktop

基于 UI-TARS 视觉语言模型的桌面应用,可通过自然语言控制计算机进行多模态操作。

UI-TARS-desktop 是一款功能强大的桌面应用,基于 UI-TARS(视觉语言模型)构建。它具备自然语言控制、截图与视觉识别、精确的鼠标键盘控制等功能,支持跨平台使用(Windows/MacOS),能提供实时反馈和状态显示,且数据完全本地处理,保障隐私安全。该应用集成了多种大语言模型和搜索方式,还可进行文件系统操作。适用于需要智能交互和自动化任务的场景,如信息检索、文件管理等。其提供了详细的文档,包括快速启动、部署、贡献指南和 SDK 使用说明等,方便开发者使用和扩展。

Wan2.1

Wan2.1

开源且先进的大规模视频生成模型项目

Wan2.1 是一个开源且先进的大规模视频生成模型项目,支持文本到图像、文本到视频、图像到视频等多种生成任务。它具备丰富的配置选项,可调整分辨率、扩散步数等参数,还能对提示词进行增强。使用了多种先进技术和工具,在视频和图像生成领域具有广泛应用前景,适合研究人员和开发者使用。

爱图表

爱图表

全流程 AI 驱动的数据可视化工具,助力用户轻松创作高颜值图表

爱图表(aitubiao.com)就是AI图表,是由镝数科技推出的一款创新型智能数据可视化平台,专注于为用户提供便捷的图表生成、数据分析和报告撰写服务。爱图表是中国首个在图表场景接入DeepSeek的产品。通过接入前沿的DeepSeek系列AI模型,爱图表结合强大的数据处理能力与智能化功能,致力于帮助职场人士高效处理和表达数据,提升工作效率和报告质量。

Qwen2.5-VL

Qwen2.5-VL

一款强大的视觉语言模型,支持图像和视频输入

Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。

HunyuanVideo

HunyuanVideo

HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。

HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。

WebUI for Browser Use

WebUI for Browser Use

一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。

WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。

xiaozhi-esp32

xiaozhi-esp32

基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。

xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。

olmocr

olmocr

一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。

olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。

飞书多维表格

飞书多维表格

飞书多维表格 ×DeepSeek R1 满血版

飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。

下拉加载更多