算力贫民窟下的AI研究机会

Posted Dec 9, 2025

By jelech

12 min read

算力贫民窟下的AI研究机会

最近在看博客时候, 偶然发现了一个提问: 《无大算力时，作为学生，LLM 还有哪些值得做的研究？》
突发有感, 对于工作中的个人, 如果想技术提高, 又没有直接大量的资源可以使用, 那么作为工程来说, 还能学习和研究什么东西呢?

因此, 我读完全篇, 整理了一份知识图谱, 方便自己也方便大家后续在其中探索奥秘

%%{
  init: {
    "theme": "forest",
  }
}%%
mindmap
  root((算力贫民窟<br/>AI研究机会))
    AI_Infra(AI 基础设施<br/>YOUR ZONE)
      RL_Infra(RL 基建)
        PD_Separation(PD分离<br/>GPU推理/CPU采样)
        Param_Sync(参数同步<br/>解决 Staleness)
        State_Mgmt(Rollout异步<br/>吞吐优化)
      Inference_Infra(推理基建)
        KV_Offload(KV Cache 卸载<br/>PagedAttention)
        Speculative(投机采样<br/>CPU/GPU协同)
        Operator_Opt(手写算子<br/>混合精度)
    Data_Centric(数据中心 AI)
      Synthetic_Data(合成数据)
        Textbooks(高质量教科书生成)
        Filtering(筛选与清洗算法)
      Data_Dist(数据分布研究)
    Agent_Cog(Agent & 认知架构)
      System_2(System 2 逻辑)
      Architecture(架构设计)
        Memory(记忆机制)
        Reflection(反思与修正)
      Prompt_Prog(提示词编程)
        DSPy(Prompt 编译)
      Social_Sim(社会模拟)
    Efficiency(效率与微调)
      PEFT(参数高效微调)
        Dynamic_LoRA(自适应 Rank)
      Quantization(量化)
        Extreme_Bit(1.58-bit)
      Small_Model(极限推理)
        Distillation(思维链蒸馏)
    Evaluation(自动化评估)
      LLM_as_Judge(模型评模型)
      Frameworks(垂类框架)
        Agent_Eval(规划能力)
        RAGAS(RAG 指标)
    Deep_RAG(深层 RAG)
      Search_Opt(检索优化)
        Hybrid_Search(混合检索)
      Robustness(鲁棒性)
    Interp_Safety(可解释性 & 安全)
      Mech_Interp(机械可解释性)
        Model_Surgery(模型手术)
      Safety(对抗攻击)
    Training_Free(多模态 & 免训练)
      Video(免训练视频理解)
      Visual_Prog(视觉编程)

咱们得把思路打开。算力贫民窟里也能炼出金子，而且往往这地方出来的东西，比堆算力更有思考深度。

打破一个误区：并不是只有预训练（Pre-training）才叫研究，也不是只有跑得动70B模型才叫搞LLM。在大厂里，他们有卡，有资本去烧。作为学术界或者独立研究者，拼算力你永远拼不过OpenAI。我们得比技巧，比对原理的理解，比工程实现的精妙。

以下整理了一些不需要大算力，但极具价值的研究方向。这些方向尤其适合那些代码能力强、工程基础扎实的研究者。

01. AI Infra 与系统优化 (The System Hacker)

如果你懂 C++/CUDA，或者正在做 RL Infra，这里是你的主场。大模型的瓶颈不仅是计算（Compute），更是内存带宽（Memory Bandwidth）和 I/O。

RL 专属的异构计算架构（PD 分离）

RL（强化学习）有一个独特的工程痛点：CPU 负责环境交互（Environment），GPU 负责模型推理训练。数据在两者间搬运消耗了大量资源。

这里大有文章可做：

Zero-Copy 异构流水线：目前的框架经常涉及数据的序列化和反序列化。你可以尝试设计一套基于共享内存（Shared Memory）的机制，让 CPU 采集的 State 直接暴露给 GPU 读取。
参数同步策略：在分布式 RL 中，Actor 拿到的权重往往是旧的（Stale）。这种延迟对收敛有什么影响？能不能根据网络状况动态调整同步频率？这是非常硬核的 SysML 课题。

极限推理优化 (Doing More with Less)

如何在资源受限的情况下跑动大模型？

KV Cache 的分级存储 (Offloading)：长文本推理时显存很容易爆。你可以去写一个 Cache 管理器，把不常用的 KV 块踢到内存甚至 SSD，需要时再预取（Prefetch）。
投机采样 (Speculative Decoding)：用 CPU 跑一个小模型（如 Qwen-0.5B）快速生成，用 GPU 的大模型（如 Llama-3）负责验证。这是 CPU 与 GPU 协作的绝佳场景。

02. Agent 认知架构与社会模拟 (The Architect)

Agent 远不止是调调 API。真正的研究在于探索大模型的认知边界，设计它的“大脑”电路。

DSPy：提示词的“编译器”

现在的 Prompt 工程很多还是手动尝试。DSPy 提供了一个非常好的思路：把 Prompt 当成模型参数来优化。你可以研究如何构建一个自动编译器，通过输入输出样本，自动搜索最优的 Prompt 策略。这就把玄学变成了可编程的科学。

记忆架构 (Memory Hierarchy)

斯坦福的 Generative Agents（那个虚拟小镇）不仅仅是个游戏，它的核心是记忆架构。你可以去复刻并改进它的记忆流（Memory Stream），设计一套分层系统：从感觉记忆到短期工作记忆，再到长期向量检索。这涉及到数据库设计和检索算法的深度融合。

构建一个多 Agent 环境，比如虚拟公司或狼人杀。观察它们在协作过程中会出现什么涌现（Emergent）行为。比如，会不会自发形成领导者？错误（Hallucination）是如何在群体中传播的？有没有可能设计一种自我修正机制，让群体智能高于个体智能？

03. 数据中心 AI (Data-Centric AI)

以前大家把数据当矿，模型是炼丹炉。现在得反过来想：模型架构的红利吃得差不多了，真正的瓶颈在数据。

微软 Phi-1 的论文 Textbooks Are All You Need 证明了，只要数据质量足够高，小模型也能打败大模型。

合成数据流水线

你可以研究怎么用大模型（如 GPT-4）生成高质量的代码或推理题，然后设计一套过滤器（Filter）。这个过滤器不一定是模型，可以是代码编译器，也可以是逻辑检查规则。如果你能证明用清洗后的 1G 高质量数据微调出的模型，胜过用 100G 原始数据训练的模型，这就是顶级的成果。

课程学习 (Curriculum Learning)

数据喂给模型的顺序重要吗？你可以研究如何根据样本的“难度”（例如 Loss 大小）动态调整数据喂入的顺序，让模型像人类学习一样，先学简单的，再学复杂的。

04. 评估与安全性 (The Judge & The White Hat)

现在的 LLM 评估处于一个混乱阶段。传统的 BLEU、ROUGE 指标基本失效，榜单又面临刷榜问题。谁能定义好“尺子”，谁就有话语权。

LLM-as-a-Judge

用大模型去评估小模型是现在的趋势。但这中间有很多偏差（Bias）需要消除，比如模型可能倾向于更长的回答（Length Bias），或者排在前面的选项（Position Bias）。如何设计实验消除这些偏差，是非常好的研究点。

对抗攻击 (Red Teaming)

现在的模型虽然经过对齐，但依然脆弱。你可以去研究 Jailbreak（越狱），寻找那些能绕过安全检查的通用后缀（Adversarial Suffix）。这不需要训练模型，只需要通过梯度搜索或遗传算法找到那些攻击字符串。

05. 机械可解释性 (The Surgeon)

这名字听着高大上，核心目标就是搞清楚黑盒子里到底发生了什么。

模型编辑 (Model Editing)

通过 ROME 或 MEMIT 等算法，我们可以精确定位知识在模型中的位置。比如，找到模型存储“埃菲尔铁塔在巴黎”的权重区域，直接修改它，让模型认为“埃菲尔铁塔在罗马”。这是一种 Training-free 的知识更新方式，就像给软件打补丁一样。

06. 无需训练的视频理解 (The Logic Weaver)

视频本质上就是图像序列加上时间逻辑。

逻辑链视频理解

VLM（视觉大模型）在静态图像上已经很强了。我们可以利用这一点，on-the-fly 地理解视频。用现有的 VLM 处理每一帧，然后通过代码或 LLM 构建时序逻辑推理。比如，“如果 T1 帧有人举手，T2 帧球进了，判定为进球”。这种方法完全不需要昂贵的视频模型训练。

在这个领域，Insight（洞察力）比显卡更重要。你手里的代码能力，就是你最好的算力。

算法模型

机器学习笔记总结

This post is licensed under CC BY 4.0 by the author.