好项目分享
来看看又收集到什么有趣的项目!不定期更新!
来看看又收集到什么有趣的项目!不定期更新!
最近阿里巴巴新出了一篇论文:《Let It Flow: Agentic Crafting on Rock and Roll》 我研读了几天,字里行间看到的都是我的新框架的东西,想一想自己还在做设计和开发,别人都已经发论文了,心里略感悲凉。本文做一些阅读笔记和总结。 前言 这篇论文提出了一个名为 ALE (Agentic Learning Ecosystem) 的全栈生态系统。最有意...
摘要: 本报告旨在评估不同编程语言及编译优化技术在不同复杂度(简单逻辑 vs 复杂交互)RL 环境下的性能差异。测试涵盖了从小规模标量计算到大规模矩阵运算的典型场景。 源码 1. 环境定义 仅测试使用不同语言或架构实现相同的环境的性能差异, 不测试不同算法的性能差异. 1.1 Hello World: CartPole 特征: 极简物理逻辑,仅涉及少量标量...
最近在看博客时候, 偶然发现了一个提问: 《无大算力时,作为学生,LLM 还有哪些值得做的研究?》 突发有感, 对于工作中的个人, 如果想技术提高, 又没有直接大量的资源可以使用, 那么作为工程来说, 还能学习和研究什么东西呢? 因此, 我读完全篇, 整理了一份知识图谱, 方便自己也方便大家后续在其中探索奥秘 %%{ init: { "theme": "forest", ...
逐步学习如何优化模型推理
从零开始的RL工程学习之路
导语 Fast-MCTD 是 KAIST 团队对传统蒙特卡洛树扩散(MCTD)的加速方案。原始 MCTD 在复杂规划任务中存在明显的计算瓶颈,因此团队尝试从并行化和稀疏化两个方向来缩短推理时间,同时维持可接受的决策质量。 传统规划方法的瓶颈 方法 工作机制 主要问题 影响 ...
最近整理了一下未来目标达成的强化学习框架的整体架构 系统整体架构图 graph TB subgraph "Python Training Side" L[Learner<br/>PyTorch训练器] RB[ReplayBuffer<br/>经验回放缓冲区] WS[Weight Server<br/&g...
一、核心概念 Agent(智能体):在环境中执行动作并学习策略的主体。 Environment(环境):智能体所处的外部系统,接收智能体的动作并返回新的状态和奖励。 State(状态):环境在某一时刻的描述,通常用向量表示。 Action(动作):智能体在某一状态下可以采取的操作。 Reward...
Go ONNX模型加载教程 环境准备 安装Go环境(建议version < 1.20, 发现1.20运行有问题, 本实例使用v1.17.13) 安装必要的依赖包: go get github.com/owulveryck/onnx-go go get gorgonia.org/gorgonia 项目结构 ```pl...