好项目分享

来看看又收集到什么有趣的项目！不定期更新！

Jan 2, 2026 开源项目学习

llm-training-math

LLM 训练数学公式全书本文系统整理大语言模型（LLM）训练全流程涉及的数学公式，涵盖从 Transformer 前向传播、预训练损失、优化器、正则化，到 RLHF/PPO、DPO 对齐，再到推理采样与评估指标。每个核心公式统一以「公式 / 怎么用 / 用在哪 / 为何要用」四段展开，侧重直觉理解而非严谨推导。 0. 引言与符号约定符号表（速览） ...

Jun 28, 2026 计算机基础, 开源项目学习

TimesFM论文解析

说起来大家都在卷LLM，但其实时间序列预测这个老古董领域，前段时间也被大模型范式彻底洗礼了。以前做时序，大家习惯了“一个场景训一个模型”，为了某个商品的销量预测，LGBM调参能调到吐。现在Google直接掀桌子搞了个 TimesFM，核心思路就一个：用搞GPT的那一套来降维打击时间序列。这篇论文很有意思，剥开复杂的公式，一起来看看它做了什么。拿什么架构解决什么问题？ TimesF...

Mar 18, 2026 算法模型

从QKV到VLLM的PageAttention

抱歉这篇文章格式解析有些问题，后续会修复 1. QKV 与 Attention Transformer 的核心是 Self-Attention，由 Q、K、V 三个角色协作： Q (Query)：当前 token 的「提问」—— 我在找什么？ K (Key)：所有 token 的「标签」—— 我是什么？ V (Value)：所有...

Mar 13, 2026 算法模型, 性能优化

供应链场景下百万级 SKU 异构分布式强化学习系统：RL-Infra 工程实践全解析

前言：为什么供应链需要强化学习，以及为什么它如此之难供应链的补货决策表面上是一个预测问题——预测未来需求，然后计算安全库存和补货量。但现实远比这复杂。每一个SKU的库存水平、在途量、供应商交期波动、促销计划、季节因素之间存在高度耦合。一个SKU的缺货可能导致替代品的需求暴增，连锁反应横跨整个品类。传统的运筹优化方法在面对数百万SKU、数十个仓、数百个供应商的组合爆炸时，要么求解时间不可接...

Feb 24, 2026 算法模型, 性能优化

2025：在叹息中清醒，立场鲜明地做自己

写在开头 2025是很复杂的一年。年初还在应对莫名其妙的加班和被打压的价值评估；年中人事变动后，终于开始做点想做的事；下半年生活刚安稳，年末又迎来感情波动和部门剧变，导致没法继续深耕，甚至陷入了短暂的安逸与躺平。不过还好，又拿了一年最佳绩效，算下来连续4年第一了。（至于为啥工资还是中下水平，确实有点难蚌。）现在逐渐习惯了这种高压、极快的工作与生活节奏，也慢慢懂了以前大佬跟我说的那句...

Feb 13, 2026 思考

RL-OPE 具体是什么？

什么是 OPE (Off-Policy Evaluation)? 离线策略评估 (Off-Policy Evaluation, OPE) 指的是利用由行为策略 (Behavior Policy, πb) 生成的历史数据（Log Data），来评估一个新的目标策略 (Target Policy, πe) 性能的过程。在强化学习（RL）的实际应用中（如推荐系统、供应链优化、机器人控制），直...

Jan 29, 2026 算法模型

ROME论文解读：借ROCK与ROLL构建Agent由来的笔记

最近阿里巴巴新出了一篇论文：《Let It Flow: Agentic Crafting on Rock and Roll》我研读了几天，字里行间看到的都是我的新框架的东西，想一想自己还在做设计和开发，别人都已经发论文了，心里略感悲凉。本文做一些阅读笔记和总结。前言这篇论文提出了一个名为 ALE (Agentic Learning Ecosystem) 的全栈生态系统。最有意...

Jan 15, 2026 算法模型

强化学习训练加速: 多种编译器/语言对性能的影响

摘要: 本报告旨在评估不同编程语言及编译优化技术在不同复杂度（简单逻辑 vs 复杂交互）RL 环境下的性能差异。测试涵盖了从小规模标量计算到大规模矩阵运算的典型场景。源码 1. 环境定义仅测试使用不同语言或架构实现相同的环境的性能差异, 不测试不同算法的性能差异. 1.1 Hello World: CartPole 特征: 极简物理逻辑，仅涉及少量标量...

Jan 12, 2026 性能优化, 开源项目学习

算力贫民窟下的AI研究机会

最近在看博客时候, 偶然发现了一个提问: 《无大算力时，作为学生，LLM 还有哪些值得做的研究？》突发有感, 对于工作中的个人, 如果想技术提高, 又没有直接大量的资源可以使用, 那么作为工程来说, 还能学习和研究什么东西呢? 因此, 我读完全篇, 整理了一份知识图谱, 方便自己也方便大家后续在其中探索奥秘 %%{ init: { "theme": "forest", ...

Dec 9, 2025 算法模型