Architectural Evolution: 强化学习系统

从零开始的RL工程学习之路

Oct 13, 2025 思考, 算法模型

FastMCTD百倍加速决策 [论文新读]

导语 Fast-MCTD 是 KAIST 团队对传统蒙特卡洛树扩散（MCTD）的加速方案。原始 MCTD 在复杂规划任务中存在明显的计算瓶颈，因此团队尝试从并行化和稀疏化两个方向来缩短推理时间，同时维持可接受的决策质量。传统规划方法的瓶颈方法工作机制主要问题影响 ...

Aug 17, 2025 算法模型

强化学习框架: 高并发强化学习训练框架

最近整理了一下未来目标达成的强化学习框架的整体架构系统整体架构图 graph TB subgraph "Python Training Side" L[Learner<br/>PyTorch训练器] RB[ReplayBuffer<br/>经验回放缓冲区] WS[Weight Server<br/&g...

Jun 4, 2025

RL专业名词笔记

一、核心概念 Agent（智能体）：在环境中执行动作并学习策略的主体。 Environment（环境）：智能体所处的外部系统，接收智能体的动作并返回新的状态和奖励。 State（状态）：环境在某一时刻的描述，通常用向量表示。 Action（动作）：智能体在某一状态下可以采取的操作。 Reward...

May 4, 2025 算法模型

Go模型服务化: 加载ONNX模型

Go ONNX模型加载教程环境准备安装Go环境(建议version < 1.20, 发现1.20运行有问题, 本实例使用v1.17.13) 安装必要的依赖包： go get github.com/owulveryck/onnx-go go get gorgonia.org/gorgonia 项目结构 ```pl...

Mar 21, 2025 算法模型, Golang相关

DDP做强化学习分布式多机多卡训练加速

前话前文提到了ray.rllib来做分布式训练. 但对整个代码的改造会很复杂, 如果只需要简单的进行分布式多机多卡训练,还可以使用pytorch自带的DDP DDP分布式同步原理在反向传播后，通过高效的AllReduce操作同步所有GPU的梯度均值，确保各GPU使用相同的梯度更新本地模型参数，从而实现分布式训练的参数一致性. 以下为DDP训练的数据拆分示意图: 代码修改关键点...

Mar 11, 2025 算法模型, Python相关

使用Ray RLlib构建自定义强化学习环境

强化学习是机器学习中一个令人兴奋的领域，它允许AI代理通过与环境交互来学习最优策略。本文将介绍如何使用Ray RLlib框架创建自定义强化学习环境并进行训练。无论您是强化学习新手还是寻求高性能分布式训练的专家，这篇指南都能帮您快速上手。准备工作在开始前，我们需要安装必要的依赖库： pip install "ray[rllib]" gym torch 注意：如果使用mac...

Mar 6, 2025 算法模型, 开源项目学习

RL 使用Cpp动态库加速环境模拟

训练和推理强化学习时, 有些场景下的大量计算都会在环境模拟上, 这时训练的大部份时间占用会在非神经网络更新上, 此时可以通过使用多进程并发加速, 或者直接用cpp进行重构关键部分

Mar 5, 2025 Python相关, 算法模型

RL训练知识点补齐

Gym 强化学习训练在我们学习强化学习（Reinforcement Learning，简称 RL）时，如何让智能体和环境高效且可重复地交互一直是一个核心问题。OpenAI 提供的 Gym 库就是为了解决这个问题而生。它以简洁明了的 API 和丰富多样的测试场景，为我们搭建了一个标准化的平台。很多技术博客和相关资料都指出，Gym 的统一接口极大地方便了我们在切换环境、测试算法时，不必反复编...

Feb 17, 2025 算法模型

二八定律解决 PySpark

分布式思维它和普通 Pandas/Python 脚本的本质区别： Lazy Evaluation (延迟计算)：你写的所有 select, filter, join（称为 Transformations）都不会立刻执行，只是在构建一个执行计划图（DAG）。只有当你调用 show(), count(), collect(), write（称为 Actions）时，Spar...

Feb 14, 2025