Post

算力贫民窟下的AI研究机会

算力贫民窟下的AI研究机会

最近在看博客时候, 偶然发现了一个提问: 《无大算力时,作为学生,LLM 还有哪些值得做的研究?
突发有感, 对于工作中的个人, 如果想技术提高, 又没有直接大量的资源可以使用, 那么作为工程来说, 还能学习和研究什么东西呢?

因此, 我读完全篇, 整理了一份知识图谱, 方便自己也方便大家后续在其中探索奥秘

%%{
  init: {
    "theme": "base",
    "themeVariables": {
      "textColor": "#ffffff",
      "primaryTextColor": "#ffffff",
      "secondaryTextColor": "#ffffff",
      "tertiaryTextColor": "#ffffff",
      "quaternaryTextColor": "#ffffff",
      "nodeTextColor": "#ffffff",
      "rootTextColor": "#ffffff",
      "primaryColor": "#4F46E5",
      "secondaryColor": "#059669",
      "tertiaryColor": "#D97706",
      "quaternaryColor": "#DB2777",
      "quinaryColor": "#0891B2",
      "sexternaryColor": "#7C3AED",
      "lineColor": "#94a3b8"
    }
  }
}%%
mindmap
  root((算力贫民窟<br/>AI研究机会))
    AI_Infra(AI 基础设施<br/>YOUR ZONE)
      RL_Infra(RL 基建)
        PD_Separation(PD分离<br/>GPU推理/CPU采样)
        Param_Sync(参数同步<br/>解决 Staleness)
        State_Mgmt(Rollout异步<br/>吞吐优化)
      Inference_Infra(推理基建)
        KV_Offload(KV Cache 卸载<br/>PagedAttention)
        Speculative(投机采样<br/>CPU/GPU协同)
        Operator_Opt(手写算子<br/>混合精度)
    Data_Centric(数据中心 AI)
      Synthetic_Data(合成数据)
        Textbooks(高质量教科书生成)
        Filtering(筛选与清洗算法)
      Data_Dist(数据分布研究)
    Agent_Cog(Agent & 认知架构)
      System_2(System 2 逻辑)
      Architecture(架构设计)
        Memory(记忆机制)
        Reflection(反思与修正)
      Prompt_Prog(提示词编程)
        DSPy(Prompt 编译)
      Social_Sim(社会模拟)
    Efficiency(效率与微调)
      PEFT(参数高效微调)
        Dynamic_LoRA(自适应 Rank)
      Quantization(量化)
        Extreme_Bit(1.58-bit)
      Small_Model(极限推理)
        Distillation(思维链蒸馏)
    Evaluation(自动化评估)
      LLM_as_Judge(模型评模型)
      Frameworks(垂类框架)
        Agent_Eval(规划能力)
        RAGAS(RAG 指标)
    Deep_RAG(深层 RAG)
      Search_Opt(检索优化)
        Hybrid_Search(混合检索)
      Robustness(鲁棒性)
    Interp_Safety(可解释性 & 安全)
      Mech_Interp(机械可解释性)
        Model_Surgery(模型手术)
      Safety(对抗攻击)
    Training_Free(多模态 & 免训练)
      Video(免训练视频理解)
      Visual_Prog(视觉编程)

咱们得把思路打开。算力贫民窟里也能炼出金子,而且往往这地方出来的东西,比堆算力更有思考深度。

打破一个误区:并不是只有预训练(Pre-training)才叫研究,也不是只有跑得动70B模型才叫搞LLM。在大厂里,他们有卡,有资本去烧。作为学术界或者独立研究者,拼算力你永远拼不过OpenAI。我们得比技巧,比对原理的理解,比工程实现的精妙。

以下整理了一些不需要大算力,但极具价值的研究方向。这些方向尤其适合那些代码能力强、工程基础扎实的研究者。


01. AI Infra 与 系统优化 (The System Hacker)

如果你懂 C++/CUDA,或者正在做 RL Infra,这里是你的主场。大模型的瓶颈不仅是计算(Compute),更是内存带宽(Memory Bandwidth)和 I/O。

RL 专属的异构计算架构(PD 分离)

RL(强化学习)有一个独特的工程痛点:CPU 负责环境交互(Environment),GPU 负责模型推理训练。数据在两者间搬运消耗了大量资源。

这里大有文章可做:

  • Zero-Copy 异构流水线:目前的框架经常涉及数据的序列化和反序列化。你可以尝试设计一套基于共享内存(Shared Memory)的机制,让 CPU 采集的 State 直接暴露给 GPU 读取。

  • 参数同步策略:在分布式 RL 中,Actor 拿到的权重往往是旧的(Stale)。这种延迟对收敛有什么影响?能不能根据网络状况动态调整同步频率?这是非常硬核的 SysML 课题。

极限推理优化 (Doing More with Less)

如何在资源受限的情况下跑动大模型?

  • KV Cache 的分级存储 (Offloading):长文本推理时显存很容易爆。你可以去写一个 Cache 管理器,把不常用的 KV 块踢到内存甚至 SSD,需要时再预取(Prefetch)。

  • 投机采样 (Speculative Decoding):用 CPU 跑一个小模型(如 Qwen-0.5B)快速生成,用 GPU 的大模型(如 Llama-3)负责验证。这是 CPU 与 GPU 协作的绝佳场景。


02. Agent 认知架构与社会模拟 (The Architect)

Agent 远不止是调调 API。真正的研究在于探索大模型的认知边界,设计它的“大脑”电路。

DSPy:提示词的“编译器”

现在的 Prompt 工程很多还是手动尝试。DSPy 提供了一个非常好的思路:把 Prompt 当成模型参数来优化。 你可以研究如何构建一个自动编译器,通过输入输出样本,自动搜索最优的 Prompt 策略。这就把玄学变成了可编程的科学。

记忆架构 (Memory Hierarchy)

斯坦福的 Generative Agents(那个虚拟小镇)不仅仅是个游戏,它的核心是记忆架构。 你可以去复刻并改进它的记忆流(Memory Stream),设计一套分层系统:从感觉记忆到短期工作记忆,再到长期向量检索。这涉及到数据库设计和检索算法的深度融合。

社会模拟 (Social Simulation)

构建一个多 Agent 环境,比如虚拟公司或狼人杀。 观察它们在协作过程中会出现什么涌现(Emergent)行为。比如,会不会自发形成领导者?错误(Hallucination)是如何在群体中传播的?有没有可能设计一种自我修正机制,让群体智能高于个体智能?


03. 数据中心 AI (Data-Centric AI)

以前大家把数据当矿,模型是炼丹炉。现在得反过来想:模型架构的红利吃得差不多了,真正的瓶颈在数据。

微软 Phi-1 的论文 Textbooks Are All You Need 证明了,只要数据质量足够高,小模型也能打败大模型。

合成数据流水线

你可以研究怎么用大模型(如 GPT-4)生成高质量的代码或推理题,然后设计一套过滤器(Filter)。这个过滤器不一定是模型,可以是代码编译器,也可以是逻辑检查规则。 如果你能证明用清洗后的 1G 高质量数据微调出的模型,胜过用 100G 原始数据训练的模型,这就是顶级的成果。

课程学习 (Curriculum Learning)

数据喂给模型的顺序重要吗? 你可以研究如何根据样本的“难度”(例如 Loss 大小)动态调整数据喂入的顺序,让模型像人类学习一样,先学简单的,再学复杂的。


04. 评估与安全性 (The Judge & The White Hat)

现在的 LLM 评估处于一个混乱阶段。传统的 BLEU、ROUGE 指标基本失效,榜单又面临刷榜问题。谁能定义好“尺子”,谁就有话语权。

LLM-as-a-Judge

用大模型去评估小模型是现在的趋势。但这中间有很多偏差(Bias)需要消除,比如模型可能倾向于更长的回答(Length Bias),或者排在前面的选项(Position Bias)。如何设计实验消除这些偏差,是非常好的研究点。

对抗攻击 (Red Teaming)

现在的模型虽然经过对齐,但依然脆弱。 你可以去研究 Jailbreak(越狱),寻找那些能绕过安全检查的通用后缀(Adversarial Suffix)。这不需要训练模型,只需要通过梯度搜索或遗传算法找到那些攻击字符串。


05. 机械可解释性 (The Surgeon)

这名字听着高大上,核心目标就是搞清楚黑盒子里到底发生了什么。

模型编辑 (Model Editing)

通过 ROME 或 MEMIT 等算法,我们可以精确定位知识在模型中的位置。 比如,找到模型存储“埃菲尔铁塔在巴黎”的权重区域,直接修改它,让模型认为“埃菲尔铁塔在罗马”。这是一种 Training-free 的知识更新方式,就像给软件打补丁一样。


06. 无需训练的视频理解 (The Logic Weaver)

视频本质上就是图像序列加上时间逻辑。

逻辑链视频理解

VLM(视觉大模型)在静态图像上已经很强了。我们可以利用这一点,on-the-fly 地理解视频。 用现有的 VLM 处理每一帧,然后通过代码或 LLM 构建时序逻辑推理。比如,“如果 T1 帧有人举手,T2 帧球进了,判定为进球”。这种方法完全不需要昂贵的视频模型训练。


在这个领域,Insight(洞察力)比显卡更重要。你手里的代码能力,就是你最好的算力。

This post is licensed under CC BY 4.0 by the author.