算力贫民窟下的AI研究机会
最近在看博客时候, 偶然发现了一个提问: 《无大算力时,作为学生,LLM 还有哪些值得做的研究?》
突发有感, 对于工作中的个人, 如果想技术提高, 又没有直接大量的资源可以使用, 那么作为工程来说, 还能学习和研究什么东西呢?
因此, 我读完全篇, 整理了一份知识图谱, 方便自己也方便大家后续在其中探索奥秘
%%{
init: {
"theme": "base",
"themeVariables": {
"textColor": "#ffffff",
"primaryTextColor": "#ffffff",
"secondaryTextColor": "#ffffff",
"tertiaryTextColor": "#ffffff",
"quaternaryTextColor": "#ffffff",
"nodeTextColor": "#ffffff",
"rootTextColor": "#ffffff",
"primaryColor": "#4F46E5",
"secondaryColor": "#059669",
"tertiaryColor": "#D97706",
"quaternaryColor": "#DB2777",
"quinaryColor": "#0891B2",
"sexternaryColor": "#7C3AED",
"lineColor": "#94a3b8"
}
}
}%%
mindmap
root((算力贫民窟<br/>AI研究机会))
AI_Infra(AI 基础设施<br/>YOUR ZONE)
RL_Infra(RL 基建)
PD_Separation(PD分离<br/>GPU推理/CPU采样)
Param_Sync(参数同步<br/>解决 Staleness)
State_Mgmt(Rollout异步<br/>吞吐优化)
Inference_Infra(推理基建)
KV_Offload(KV Cache 卸载<br/>PagedAttention)
Speculative(投机采样<br/>CPU/GPU协同)
Operator_Opt(手写算子<br/>混合精度)
Data_Centric(数据中心 AI)
Synthetic_Data(合成数据)
Textbooks(高质量教科书生成)
Filtering(筛选与清洗算法)
Data_Dist(数据分布研究)
Agent_Cog(Agent & 认知架构)
System_2(System 2 逻辑)
Architecture(架构设计)
Memory(记忆机制)
Reflection(反思与修正)
Prompt_Prog(提示词编程)
DSPy(Prompt 编译)
Social_Sim(社会模拟)
Efficiency(效率与微调)
PEFT(参数高效微调)
Dynamic_LoRA(自适应 Rank)
Quantization(量化)
Extreme_Bit(1.58-bit)
Small_Model(极限推理)
Distillation(思维链蒸馏)
Evaluation(自动化评估)
LLM_as_Judge(模型评模型)
Frameworks(垂类框架)
Agent_Eval(规划能力)
RAGAS(RAG 指标)
Deep_RAG(深层 RAG)
Search_Opt(检索优化)
Hybrid_Search(混合检索)
Robustness(鲁棒性)
Interp_Safety(可解释性 & 安全)
Mech_Interp(机械可解释性)
Model_Surgery(模型手术)
Safety(对抗攻击)
Training_Free(多模态 & 免训练)
Video(免训练视频理解)
Visual_Prog(视觉编程)
咱们得把思路打开。算力贫民窟里也能炼出金子,而且往往这地方出来的东西,比堆算力更有思考深度。
打破一个误区:并不是只有预训练(Pre-training)才叫研究,也不是只有跑得动70B模型才叫搞LLM。在大厂里,他们有卡,有资本去烧。作为学术界或者独立研究者,拼算力你永远拼不过OpenAI。我们得比技巧,比对原理的理解,比工程实现的精妙。
以下整理了一些不需要大算力,但极具价值的研究方向。这些方向尤其适合那些代码能力强、工程基础扎实的研究者。
01. AI Infra 与 系统优化 (The System Hacker)
如果你懂 C++/CUDA,或者正在做 RL Infra,这里是你的主场。大模型的瓶颈不仅是计算(Compute),更是内存带宽(Memory Bandwidth)和 I/O。
RL 专属的异构计算架构(PD 分离)
RL(强化学习)有一个独特的工程痛点:CPU 负责环境交互(Environment),GPU 负责模型推理训练。数据在两者间搬运消耗了大量资源。
这里大有文章可做:
Zero-Copy 异构流水线:目前的框架经常涉及数据的序列化和反序列化。你可以尝试设计一套基于共享内存(Shared Memory)的机制,让 CPU 采集的
State直接暴露给 GPU 读取。参数同步策略:在分布式 RL 中,Actor 拿到的权重往往是旧的(Stale)。这种延迟对收敛有什么影响?能不能根据网络状况动态调整同步频率?这是非常硬核的 SysML 课题。
极限推理优化 (Doing More with Less)
如何在资源受限的情况下跑动大模型?
KV Cache 的分级存储 (Offloading):长文本推理时显存很容易爆。你可以去写一个 Cache 管理器,把不常用的 KV 块踢到内存甚至 SSD,需要时再预取(Prefetch)。
投机采样 (Speculative Decoding):用 CPU 跑一个小模型(如 Qwen-0.5B)快速生成,用 GPU 的大模型(如 Llama-3)负责验证。这是 CPU 与 GPU 协作的绝佳场景。
02. Agent 认知架构与社会模拟 (The Architect)
Agent 远不止是调调 API。真正的研究在于探索大模型的认知边界,设计它的“大脑”电路。
DSPy:提示词的“编译器”
现在的 Prompt 工程很多还是手动尝试。DSPy 提供了一个非常好的思路:把 Prompt 当成模型参数来优化。 你可以研究如何构建一个自动编译器,通过输入输出样本,自动搜索最优的 Prompt 策略。这就把玄学变成了可编程的科学。
记忆架构 (Memory Hierarchy)
斯坦福的 Generative Agents(那个虚拟小镇)不仅仅是个游戏,它的核心是记忆架构。 你可以去复刻并改进它的记忆流(Memory Stream),设计一套分层系统:从感觉记忆到短期工作记忆,再到长期向量检索。这涉及到数据库设计和检索算法的深度融合。
社会模拟 (Social Simulation)
构建一个多 Agent 环境,比如虚拟公司或狼人杀。 观察它们在协作过程中会出现什么涌现(Emergent)行为。比如,会不会自发形成领导者?错误(Hallucination)是如何在群体中传播的?有没有可能设计一种自我修正机制,让群体智能高于个体智能?
03. 数据中心 AI (Data-Centric AI)
以前大家把数据当矿,模型是炼丹炉。现在得反过来想:模型架构的红利吃得差不多了,真正的瓶颈在数据。
微软 Phi-1 的论文 Textbooks Are All You Need 证明了,只要数据质量足够高,小模型也能打败大模型。
合成数据流水线
你可以研究怎么用大模型(如 GPT-4)生成高质量的代码或推理题,然后设计一套过滤器(Filter)。这个过滤器不一定是模型,可以是代码编译器,也可以是逻辑检查规则。 如果你能证明用清洗后的 1G 高质量数据微调出的模型,胜过用 100G 原始数据训练的模型,这就是顶级的成果。
课程学习 (Curriculum Learning)
数据喂给模型的顺序重要吗? 你可以研究如何根据样本的“难度”(例如 Loss 大小)动态调整数据喂入的顺序,让模型像人类学习一样,先学简单的,再学复杂的。
04. 评估与安全性 (The Judge & The White Hat)
现在的 LLM 评估处于一个混乱阶段。传统的 BLEU、ROUGE 指标基本失效,榜单又面临刷榜问题。谁能定义好“尺子”,谁就有话语权。
LLM-as-a-Judge
用大模型去评估小模型是现在的趋势。但这中间有很多偏差(Bias)需要消除,比如模型可能倾向于更长的回答(Length Bias),或者排在前面的选项(Position Bias)。如何设计实验消除这些偏差,是非常好的研究点。
对抗攻击 (Red Teaming)
现在的模型虽然经过对齐,但依然脆弱。 你可以去研究 Jailbreak(越狱),寻找那些能绕过安全检查的通用后缀(Adversarial Suffix)。这不需要训练模型,只需要通过梯度搜索或遗传算法找到那些攻击字符串。
05. 机械可解释性 (The Surgeon)
这名字听着高大上,核心目标就是搞清楚黑盒子里到底发生了什么。
模型编辑 (Model Editing)
通过 ROME 或 MEMIT 等算法,我们可以精确定位知识在模型中的位置。 比如,找到模型存储“埃菲尔铁塔在巴黎”的权重区域,直接修改它,让模型认为“埃菲尔铁塔在罗马”。这是一种 Training-free 的知识更新方式,就像给软件打补丁一样。
06. 无需训练的视频理解 (The Logic Weaver)
视频本质上就是图像序列加上时间逻辑。
逻辑链视频理解
VLM(视觉大模型)在静态图像上已经很强了。我们可以利用这一点,on-the-fly 地理解视频。 用现有的 VLM 处理每一帧,然后通过代码或 LLM 构建时序逻辑推理。比如,“如果 T1 帧有人举手,T2 帧球进了,判定为进球”。这种方法完全不需要昂贵的视频模型训练。
在这个领域,Insight(洞察力)比显卡更重要。你手里的代码能力,就是你最好的算力。