AlphaFold彻底革新了蛋白质设计,但为何AI仍未撼动小分子药物研发的根基?
2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
这是一个非常深刻且切中行业痛点的问题。的确,AlphaFold 及其后续升级版本(如 AlphaFold 3)在蛋白质结构预测和设计上取得了划时代的突破,几乎重塑了结构生物学。然而,在小分子药物研发领域,尽管有巨额资本和各类 AI 大模型的加持,却依然没有出现预期的降维打击。
AI 没能彻底击穿小分子药物研发,核心原因在于蛋白设计是一个高维但规则明确的数学问题,而小分子成药是一个多维且充满黑天箱的复杂系统工程。
具体可以拆解为以下四个核心瓶颈:
一、 数据层面的天壤之别:天文学级 VS 盲人摸象
AI 的底层逻辑是数据驱动。AlphaFold 的成功,建立在结构生物学家几十年来通过冷冻电镜、X射线晶体学等手段积攒的、格式极度标准化的 PDB(蛋白质数据库)之上。
l蛋白设计:20种天然氨基酸的组合虽然无限,但它们的空间物理规则(键角、疏水性、氢键)在PDB的数十万个高质量结构中已经被AI完全吃透了。
l小分子研发:
l化学空间巨大:潜在的小分子化合物空间高达 10^{60},而人类目前合成过并有记录的仅有一亿(10^8)量级,AI 面对的是 99.999% 没见过的未知盲区。
l公开数据有毒:现有的公开小分子生物活性数据库(如 ChEMBL)充斥着不同实验室、不同检测方法带来的批次效应(Batch Effects)和噪声。更致命的是,制药巨头最核心的阴性数据(即失败的、不结合的化合物数据)是绝对保密的,AI 只看成功案例,很难学会如何避免失败。
二、 物理靶向的复杂性:定格照与动态热舞
AlphaFold 预测的主要是蛋白质的静态快照,但药物在体内发挥作用是一个极度动态的过程。
【静态锁钥模型(传统AI认知)】 【动态诱导契合(真实生物世界)】
[ 靶点蛋白 ] ── [ 小分子 ] [ 柔性蛋白 ] ≋ ≋ [ 小分子 ]
(固定锁孔) (固定钥匙) (构象随结合而剧烈发生 >5Å 的形变)
l活性悬崖(Activity Cliffs):这是小分子 AI 最头疼的非线性问题。在化学结构上,两个分子可能 99% 相似,只是换了一个甲基,但在生物学活性上会发生剧烈突变——一个可能是神药,另一个可能完全无效或剧毒。目前的 AI 泛化模型很难敏锐地捕捉这种失之毫厘,差之千里的物理边界。
三、 成药性的木桶效应:结合仅仅是第一步
在业内有一句共识:Binding is not efficacy(结合并不等于疗效)。AlphaFold 解决的是小分子能不能贴上靶点的问题,但这只是长征的第一步。一个小分子要成为药物,必须满足严苛的 ADMET(吸收、分布、代谢、排泄、毒性)多维指标:
研发维度 | 传统/AI 筛选关注点 | 现实中的临床致死因素 |
体内过程 | 能否高亲和力结合靶点? | 分子能否通过胃肠道屏障?会不会被肝药酶瞬间代谢掉? |
选择性 | 对目标蛋白的抑制率 | 会不会误伤结构相似的激酶,导致不可耐受的毒副作用? |
剂型工艺 | 分子的三维结构优化 | 制剂(Formulation)瓶颈:分子结晶型如何?水溶性是否极差(BCS II/IV类)?能否在压片或冻干过程中保持稳定? |
目前没有任何一个 AI 模型能够把上述所有相互冲突的物理化学指标(比如:为了提高亲和力加了疏水基团,却导致水溶性彻底崩盘)进行完美的全局多目标优化。
四、 生物学黑匣子:靶点对不对,AI 说了不算
即使 AI 完美设计出了一个小分子,亲和力极高、ADMET 属性极佳,它依然可能在临床二期或三期折戟。因为人类对疾病本身的生物学机制(Biology)还没有完全搞懂。
l靶点验证失败:AI 可以帮你找到抑制 A 蛋白的最佳工具,但如果癌症或阿尔兹海默症的真正元凶其实是 B 蛋白,或者细胞通过其他信号通路产生了耐药性,那么这个完美的小分子在临床上依然是无效的。
l临床数据反馈慢:蛋白设计的对错,在实验室里用几天时间表达纯化就能验证;而小分子药物的有效性和安全性,必须经过漫长的动物实验和三期临床试验。这种长达数年、甚至十几年的反馈周期,让 AI 的数据-训练-优化闭环转动得极慢。
总结与当下(2026年)的现状
从近年(特别是2025-2026年)多家 AI 制药独角兽进入临床二/三期的反馈数据来看,AI 的核心价值在于压缩时间而非提高临床成功率。它成功将临床前(Pre-clinical)从 3-5 年缩短到了 1-2 年,并让一期临床(安全性)通过率大幅提升(达到80-90%),但到了面对真实人体复杂性的二期临床(有效性),其通过率(约40%)与传统制药模式并无本质差异。
小分子药物研发不是纯粹的数字游戏,它是化学、结构生物学、制剂工艺学和复杂人体生理学的交叉十字路口。AI 想要彻底击穿它,不仅需要更聪明的算法,更需要底层生物学机制的突破,以及高通量、标准化细胞/体内实验数据的持续喂养。
核心一句话总结
AlphaFold解决的是“蛋白结构预测”这个相对单一、确定性强的物理问题;小分子药物是“化学+生物+临床+成药性+法规”的超级复杂多约束问题,变量维度、不确定性、约束条件完全不在一个量级,AI暂时无法击穿。
下面用最直白、行业内的逻辑讲清楚,为什么蛋白被AI干穿了,小分子还没有。
一、先对比:为什么蛋白设计被AlphaFold/ESM干穿了?
1. 问题单一、物理规则稳定
蛋白本质是氨基酸序列→折叠成3D结构,物理原理(范德华力、氢键、疏水作用)是固定的、可复现的。
2. 数据极度充足、格式统一
PDB数据库几十万条高精度结构,序列是A-Z固定20个氨基酸,语言高度标准化,非常适合LLM/深度学习。
3. 目标简单:只要结构准,基本就赢了
蛋白设计核心需求:结构预测、突变预测、蛋白-蛋白对接。
AlphaFold3、ESM‑2 已经做到接近实验精度,实验室结构解析速度被吊打,所以行业直接被颠覆。
一句话:蛋白是“结构预测问题”,确定性高、规则清晰、数据干净。
二、小分子药物研发,为什么AI至今没击穿?
1. 小分子的变量维度,比蛋白高几个数量级
- 蛋白:只有20种氨基酸,序列长度有限;
- 小分子:有机化学空间理论上有10⁶⁰个可合成分子,宇宙原子也就10⁸⁰,几乎无限。
AI再强,也筛不完这个空间,搜索空间爆炸。
2. 小分子不只要“结合靶点”,还要满足几十条成药性硬约束(蛋白基本没有)
小分子药物必须同时满足:
- 靶点亲和力(能结合)
- 细胞活性
- 水溶性、脂溶性
- 代谢稳定性(不被肝酶快速代谢)
- 无毒性、无脱靶、无遗传毒性
- 口服吸收、血脑屏障
- 合成难度、成本、专利空间
- 晶型、盐型、制剂稳定性
蛋白只需要结构/功能对就行;小分子是几十项硬指标同时达标,是多目标最优解,互相冲突。
AI能做出“结合很强的分子”,但99%都有毒、不吸收、代谢快、做不出来。
3. 蛋白是静态结构;小分子作用是动态+环境敏感,极难模拟
- 蛋白结构基本稳定,AlphaFold预测的是静态结构;
- 小分子和蛋白结合是动态构象变化:蛋白口袋会变、溶剂环境变、pH变、离子浓度变。
分子对接/AI预测的结合模式,经常和实验完全不符,这是AI最大短板。
4. 化学合成不确定性极大,AI不懂“现实实验室能不能做出来”
AI可以一秒生成一万个漂亮分子,但:
- 合成路线长、产率低
- 中间体不稳定、副反应多
- 手性中心难控制
- 试剂昂贵、放大生产困难
AlphaFold不用考虑“能不能做实验”;小分子AI必须落地到化学合成,而化学合成是高度经验性、黑盒的。
5. 数据极度碎片化、质量差,不像蛋白那样干净统一
- 蛋白:PDB、Uniprot,数据统一、标准、可验证;
- 小分子:
- 文献数据有大量假阳性、假阴性
- 不同实验室条件不同,结果不可复现
- 专利数据不全、隐藏关键条件
- 毒性、代谢数据极度稀缺
AI本质靠数据吃饭,小分子数据脏、少、不一致,模型天然不准。
6. 临床不确定性:动物有效 ≠ 人有效,这是AI最大盲区
小分子药物最大翻车点在临床:
- 细胞有效 → 动物无效
- 动物有效 → 人体无效
- 人体有效 → 有毒副作用
蛋白药物相对靶点明确、作用机制简单;小分子经常脱靶、代谢产物有毒,临床黑盒效应极强。
AI完全无法预测人体层面的复杂生理反馈。
7. 专利壁垒极高,AI生成分子很容易撞专利
小分子研发一半工作量是专利规避,骨架、取代基、合成路线都要绕开。
AI只看分子结构,不懂专利逻辑、权利要求范围,经常生成专利已覆盖分子。
三、最精炼总结
1. 蛋白:物理问题,规则清晰,数据干净,目标单一 → AI彻底碾压实验
2. 小分子:化学+生物+代谢+毒理+临床+合成+法规+专利,超级多约束,搜索空间无限,动态变化强,数据差,临床黑盒
→ AI只能辅助,无法击穿,只能做加速筛选、优化、预测,不能替代全流程。
四、延伸:未来多久能击穿?
- 蛋白:已经击穿;
- 抗体/多肽:5年内大概率被AI深度改造;
- 小分子:至少10–15年,除非出现革命性化学大模型+大规模高质量临床数据库。


请先 登录后发表评论 ~