遗传密码的起源：为什么是这20种氨基酸？

🟡 活跃争论 · 📅 2026年3月 · ⏱ 阅读约14分钟

想象你是宇宙最初的化学家，手边有数十种氨基酸可供选择，却只能挑出约20种来构建整个生命世界的蛋白质库。为什么是这20种？是物理化学的铁律，还是历史的偶然冻结？还是说，生命在几十亿年前悄悄算了一道我们至今才开始读懂的优化题？

📋 目录

密码是什么？先从根问起
三种经典解释的江湖
为什么偏偏是20种？
宇宙先送来哪些氨基酸
冻结与锁定：一旦定下就难逃
信息论视角：密码是有噪信道里的奇迹
多阶段、多约束的综合图景

密码是什么？先从根问起

遗传密码，本质上是一张翻译对照表：DNA/RNA链上的三联体碱基（密码子），逐一对应着组装蛋白质时所用的氨基酸。这张表有64个密码子，编码了20种标准氨基酸，外加3个终止信号。几乎所有地球生命——从深海热泉的古菌到你神经元末梢的蛋白激酶——共享的正是这同一张表。

跟爱因斯坦一起想一下：这张表是”发现”的，还是”发明”的？万有引力定律在人类出现之前已经成立；而遗传密码，却是某种历史进程留下的产物。它既可能藏有化学的必然性，也可能带着偶然的指纹。正因如此，它是生命起源研究中最令人着迷的谜题之一——尽管过了半个多世纪，科学界仍未有公认的单一答案。^[1]^[2]

🔭 跨学科坐标

遗传密码横跨三个领域：化学（氨基酸与核酸的物理亲和）、生物学（tRNA、氨酰-tRNA合成酶等翻译机器的演化）、信息论（噪声信道中的鲁棒编码）。孤立在任一领域里，你都只能看到问题的一角。

问题可以分成四层来剥：

密码子为什么会对应特定氨基酸，而非随机配对？
这套近乎普适的标准密码表，为何能稳定至今？
编码字母表为何是约20种，而不是10种、40种？
这20种氨基酸，是化学可得性决定的，还是功能需求筛出来的，还是历史偶然冻结的？

让我们一层一层拆开。

三种经典解释的江湖

自弗朗西斯·克里克1968年提出”冻结偶然”以来，研究者们大致划出了三个流派。

立体化学假说：密码子偏爱特定氨基酸

这是最直觉的想法：也许某种氨基酸与其对应密码子的RNA序列之间，存在天然的物理—化学亲和力。早在翻译机器出现之前，RNA分子就可能通过折叠形成”口袋”，优先捕捉特定氨基酸。

Yarus等人通过大量RNA适配体（aptamer）实验，找到了统计上的支持痕迹：某些氨基酸确实偏好结合含其对应密码子或反密码子序列的RNA片段。^[5] Zagrovic等人的近期综述也进一步追踪了”从结合到编码”这一分子逻辑链条。^[10]

但这条路并不平坦。Di Giulio明确提出，立体化学假说的实验证据存在方法论问题，不足以解释整张标准密码表的结构。^[12] 更稳妥的说法是：亲和性可能影响了部分密码分配，而非决定了全局。

共演化假说：密码与氨基酸合成路径一起长大

另一条路线认为，遗传密码的结构与氨基酸的生物合成网络相互耦合。前体氨基酸与其产物氨基酸往往共享相邻密码子——这不像是巧合，更像是代谢路径扩展时留下的历史指纹。^[6]

Di Giulio 2024年的研究为这一假说提供了新的支撑，他认为共演化理论在解释密码表邻近结构上具有相当的说服力。^[6] 这也意味着：密码的扩展，可能正是沿着”已能合成的氨基酸种类”逐步展开的。

冻结偶然：凑合着用，一旦锁定就改不了

克里克的原始洞见最为简洁：遗传密码的最初形成有相当偶然成分，但翻译系统一旦复杂到足够程度，任何一次密码重新分配都会让已有蛋白质产生灾难性突变——代价大到无法承受，于是密码就这么”冻住”了。^[1]

Koonin与Novozhilov在2017年重新审视了这一框架，强调”冻结偶然”并不意味着”纯随机”——它与适应性选择并不矛盾，而是可以共存的。^[1] Ribas de Pouplana等人进一步追问：冻结究竟在哪个时间节点发生？是翻译精度提高到某个阈值之后吗？^[9]

⚠️ 三派并存，皆有盲区

Kun 等人明确指出，目前没有哪种单一理论能完整解释遗传密码的所有特征。^[18] 每条路线都照亮了问题的一个侧面，但也都留有阴影。这正是为什么，这个问题在2026年仍是”活跃争论”。

为什么偏偏是20种？

好，让我们来到最核心的谜：为什么标准遗传密码选定了恰好约20种氨基酸？不是10种，不是32种？

🧪 思想实验：设计一套氨基酸字母表

假设你要从头设计一套氨基酸”字母表”，用来折叠各种蛋白质。你希望字母表能：

覆盖足够宽的化学空间（亲水、疏水、带电、芳香、小分子、大分子……）
不要太大——每种额外氨基酸都意味着更复杂的合成代谢与翻译精度要求
各字母彼此差异足够大，能区分出不同的结构角色

运行这道优化题，你会得到什么？Doig等人在2017年用数据分析做了这个实验，结论令人惊喜：标准的20种氨基酸在大小、电荷、疏水性、反应性等维度上的覆盖，远远优于随机挑选的20种氨基酸集合。^[3] 这不太像是撞大运。

Makarov等人2023年在《美国化学学会志》发表的研究，从另一个角度给出了答案：氨基酸字母表的选择，受到了蛋白质可折叠性的深层约束。^[7] 一个氨基酸集合，要能支持大量蛋白质”可靠地折叠”到稳定的三维结构，而不是随机游走的线性聚合物。这需要不同侧链在疏水核、极性表面、铰链区等位置能扮演各自的角色。

用信息论的语言说：你需要的是一套”表达能力足够强”的字母表，但每增加一个字母，都要付出编码成本（更多密码子分配、更复杂的aaRS）。20种，恰好是历史上被选中的”帕累托前沿”——功能多样性与系统复杂度之间的高质量折中点。^[3]^[7]

Kirschning等人2022年的化学史综述进一步说明，20种编码氨基酸并非一夜同时登场：它们有早有晚，有的依赖前生物合成，有的必须等到代谢网络成熟才能被纳入。^[4] 这是一个历史扩展的过程，而非从天而降的完整设定。

宇宙先送来哪些氨基酸

在翻译机器发明之前，哪些氨基酸”在场”？

Higgs与Pudritz 2009年的研究从热力学角度给出了答案：在前生物条件下，不同氨基酸的自发合成难度差别巨大。^[8] 甘氨酸、丙氨酸、缬氨酸等较简单的氨基酸，在模拟早期地球或星际空间条件下最容易生成，也在陨石分析（如默奇森陨石）中被反复检出。这批”先到者”，很可能正是最早进入编码体系的候选人。

Ikehara等人的研究则提出了一个更激进的设想：最初的密码系统可能只有4种氨基酸（甘氨酸、丙氨酸、天冬氨酸、缬氨酸，即GADV），配合最简单的GNC密码子，构成了一套”原初字母表”。^[11] 随着代谢能力提升和翻译精度增加，字母表才逐步扩展至今天的20种。

🌌 宇宙化学的先手

陨石中已检测到超过80种氨基酸，但被地球生命标准密码纳入编码的只有20种。为什么其他的没有被选上？部分答案在于：早期氨基酸的”可得性排行”与最终编码集合存在相关性——进入得早，就更有机会被翻译系统纳入，进而影响整个编码体系的走向。

冻结与锁定：一旦定下就难逃

即便我们承认最初的氨基酸选择有前生物化学的偏向，问题仍然没有终结：这套密码表为何没有继续演化、替换成更优解？

答案藏在”系统复杂性”里。当翻译系统仅由少数分子构成时，密码的重新分配尚有可能；但随着蛋白质世界爆炸式扩张，任何一个密码子的含义改变，都意味着依赖该密码子的所有蛋白质同时突变——这是集体灾难，不是个体进化。^[1]^[9]

更有意思的是，这种”冻结”不仅仅是消极的路径依赖。Caldararo等人2022年的计算模型表明，标准密码表在兼顾氨基酸理化性质分区与生物合成关系的综合模型中，已经接近全局最优解。^[13] Omachi等人2023年用”稀有事件采样”方法分析密码表的适应度地形，也得出类似结论：标准密码并非唯一极值，但它所在的区域是一个宽而深的优质盆地。^[14]

换句话说：它冻住了，是因为它已经足够好，好到任何可能的局部改动都会让情况变差。

Massey 2015年的研究提醒我们，这种”最优性”未必全是直接自然选择的结果——部分鲁棒性可能通过中性演化”顺道”涌现出来。^[15] 这使问题更加微妙：优化、偶然、历史约束，在密码表里彼此交织，难以剥离。

信息论视角：密码是有噪信道里的奇迹

让我们换一副眼镜——用香农的信息论来看遗传密码。

DNA复制会出错，tRNA读码会滑移，氨基酸掺入会发生误读。翻译机器天然运行在一个有噪声的信道上。一套好的编码方案，应该让错误的代价尽可能小——就像电话信号通过噪声线路传输时，一点点失真应该只让你听起来声音稍微模糊，而不是完全听成另一句话。

Tlusty 2010年的工作从统计物理与信息论角度证明，遗传密码可以被理解为在有噪声信道中自发涌现的高效分子编码体系。^[16] 这不是事后的诗意比喻，而是可以形式化推导的结论。

从这个角度看，标准密码的一个显著特征就讲得通了：理化性质相近的氨基酸，往往共享相近的密码子。这意味着，一旦读码发生一个碱基的错误，最坏的情况也只是掺入了一个”化学上相近”的氨基酸——蛋白质结构往往仍能维持。^[1] 这不是偶然排列，而是一种内置的容错设计。

Xu等人2021年的研究甚至表明，标准遗传密码不仅对点突变具有鲁棒性，连移码突变也有一定的缓冲能力——这是比预期更深一层的容错结构。^[17]

多阶段、多约束的综合图景

走到这里，我们可以把线头收拢了。

没有一条单一的线索能解释遗传密码的全貌。Koonin与Novozhilov在两篇相距八年的综述中，都反复强调这一点：这是一个多机制共同作用的产物，而不是单一理论的直接推论。^[1]^[2]

📌 综合图景：五个阶段

前生物供给约束：最初进入编码体系的氨基酸，由宇宙化学与前生物合成的热力学可得性决定——简单的先来。^[8]
RNA—氨基酸亲和性：部分密码对应关系可能保留了早期RNA口袋对特定氨基酸的化学偏好痕迹。^[5]
代谢共演化扩展：随着生物合成网络发展，新氨基酸沿着前体—产物关系被逐步纳入编码体系，编码字母表从小到大扩张。^[6]
误差鲁棒性选择：密码表结构经历选择压力，朝着”翻译错误代价更小”的方向优化，最终形成理化相近氨基酸毗邻的模式。^[13]^[14]
历史冻结：系统复杂度达到临界点后，任何密码重分配代价过高，密码表就此”锁定”在当前这个高质量局部最优解上。^[9]

而”为什么是这20种”，最诚实的答案是：这20种氨基酸的集合，在蛋白质所需的化学空间维度（亲水/疏水、体积大小、电荷、芳香性、柔性……）上提供了极高效率的覆盖，同时又不超过前生物化学与早期翻译系统所能负担的复杂度边界。^[3]^[7] 它不是唯一可能的答案，但它是历史上被走通的那条路，而且走得足够好，好到无须再改。

从更大的视角看，遗传密码是生命解决一个根本性问题的方案：如何把存储在线性序列里的数字信息，可靠地翻译成三维空间里的功能结构？这是化学、信息与生物的三重桥梁。而这20种氨基酸，是这座桥的建材——被几十亿年的宇宙历史筛选、组合、最终锁定。

🔭 万象点评

遗传密码的起源问题，表面上是生物学问题，内核却是物理学与信息论的深层议题：自然如何在随机性与约束之间走出一条高效的路？这张密码表既不是神来之笔，也不是纯粹的偶然——它是历史、化学与选择压力共同”写”出的一首折中之诗。

值得注意的是，目前仍有一个核心争议尚未解决：密码子与氨基酸的最初对应，究竟有多少是”化学命中注定”，又有多少是”历史先来后到”？Yarus与Di Giulio代表的两派至今仍在交锋。这提醒我们：即便是最基础的生命规律，其来路也可能比我们想象的更加曲折。

如果未来能在实验室里”回放”遗传密码的演化过程——哪怕只是部分片段——那将是生命科学史上最震撼的实验之一。

参考文献

Koonin EV, Novozhilov AS. Origin and Evolution of the Universal Genetic Code. Annual Review of Genetics. 2017. DOI: 10.1146/annurev-genet-120116-024713. PMID: 28853922.
Koonin EV, Novozhilov AS. Origin and evolution of the genetic code: the universal enigma. IUBMB Life. 2009. DOI: 10.1002/iub.146. PMID: 19117371.
Doig AJ, et al. Frozen, but no accident – why the 20 standard amino acids were selected. FEBS Journal. 2017. DOI: 10.1111/febs.13982. PMID: 27926995.
Kirschning A, et al. On the Evolutionary History of the Twenty Encoded Amino Acids. Chemistry—A European Journal. 2022. DOI: 10.1002/chem.202201419. PMID: 35726786.
Yarus M, Widmann JJ, Knight R. The Genetic Code and RNA-Amino Acid Affinities. Life. 2017. DOI: 10.3390/life7020013. PMID: 28333103.
Di Giulio M. Theories of the origin of the genetic code: Strong corroboration for the coevolution theory. BioSystems. 2024. DOI: 10.1016/j.biosystems.2024.105217. PMID: 38663520.
Makarov M, et al. Early Selection of the Amino Acid Alphabet Was Adaptively Shaped by Biophysical Constraints of Foldability. JACS. 2023. DOI: 10.1021/jacs.2c12987. PMID: 36826345.
Higgs PG, Pudritz RE. A thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 2009. DOI: 10.1089/ast.2008.0280.
Ribas de Pouplana L, et al. What Froze the Genetic Code? Life. 2017. DOI: 10.3390/life7020014. PMID: 28379164.
Zagrovic B, et al. Coding From Binding? Molecular Interactions at the Heart of Translation. Annual Review of Biophysics. 2023. DOI: 10.1146/annurev-biophys-090622-102329. PMID: 36626765.
Ikehara K, et al. Why Were [GADV]-amino Acids and GNC Codons Selected and How Was GNC Primeval Genetic Code Established? Genes. 2023. DOI: 10.3390/genes14020375. PMID: 36833302.
Di Giulio M. Arguments against the stereochemical theory of the origin of the genetic code. BioSystems. 2022. DOI: 10.1016/j.biosystems.2022.104750. PMID: 35970477.
Caldararo F, et al. The genetic code is very close to a global optimum in a model of its origin taking into account both the partition energy of amino acids and their biosynthetic relationships. BioSystems. 2022. DOI: 10.1016/j.biosystems.2022.104613. PMID: 35085754.
Omachi Y, et al. Rare-event sampling analysis uncovers the fitness landscape of the genetic code. PLoS Computational Biology. 2023. DOI: 10.1371/journal.pcbi.1011034. PMID: 37068098.
Massey SE. Genetic code evolution reveals the neutral emergence of mutational robustness, and information as an evolutionary constraint. Life. 2015. DOI: 10.3390/life5021301. PMID: 25919033.
Tlusty T. A colorful origin for the genetic code: Information theory, statistical mechanics and the emergence of molecular codes. Physics of Life Reviews. 2010. DOI: 10.1016/j.plrev.2010.06.002.
Xu H, et al. On the Origin of Frameshift-Robustness of the Standard Genetic Code. Molecular Biology and Evolution. 2021. DOI: 10.1093/molbev/msab164. PMID: 34043802.
Kun Á, et al. The evolution of the genetic code: Impasses and challenges. BioSystems. 2018. DOI: 10.1016/j.biosystems.2017.10.006. PMID: 29031737.