DNA：生命的信息编码

🟢 实验验证 · 📅 2026年3月 · ⏱ 阅读约17分钟

📑 本文目录

宇宙中最古老的硬盘
四个字母，写尽生命
中心法则：信息的单行道——还是吗？
复制的精度：每十亿次才出一个错
表观遗传：写在字母之上的注释
人类的模仿：用DNA存储人类文明
信息、物质与生命的三角
核心要点
参考文献

宇宙中最古老的硬盘

如果你今天买一块1TB的固态硬盘，大约花费500元，可以存储大约2000亿个汉字。这听起来已经相当了不起。然而，自然界在38亿年前就设计出了一种存储介质，它的密度是硅基芯片的数百万倍，可以在室温下自我复制，还能在出错时自我修复。这种介质，叫做DNA。

DNA（脱氧核糖核酸）并不只是一个生物学概念。当你真正理解它，你会发现自己站在了物理学、信息论、计算理论和哲学的交汇点上：这可能是宇宙已知最精密的信息系统之一，而它同时是活的。

一个人体细胞的细胞核里，DNA总长度约为2米，被卷曲折叠压缩进一个直径约6微米的空间。这相当于把一根从地球到月球的细线塞进一个乒乓球——压缩比超过250,000倍。而信息量方面，人类基因组约含30亿个碱基对，以二进制换算约为750MB。这不是最惊人的数字，真正令人惊叹的是：这套系统在复制时的出错率，低得难以置信。^[5]

四个字母，写尽生命

DNA的字母表只有四个字母：A（腺嘌呤）、T（胸腺嘧啶）、G（鸟嘌呤）、C（胞嘧啶）。四个化学分子，两两配对（A-T，G-C），形成双螺旋结构的”阶梯”。每一格阶梯就是一个碱基对，每一串序列就是一行代码。

遗传密码的翻译规则：

三个碱基 (密码子) → 一个氨基酸

4³ = 64种可能的三联密码子 → 编码20种氨基酸 + 3个终止信号

人话版：三个字母的”单词”，最多能写64种，而只需要认识20种氨基酸，所以这本”词典”有冗余——同一种氨基酸往往对应多个密码子，这种冗余是生命系统对抗突变的第一道防线。

这套密码体系是如何起源的？这是生命科学中最深刻的未解之谜之一。研究表明，遗传密码并非完全随机——它有统计上的优化特征，同义密码子（编码同一氨基酸的不同三联体）往往在化学性质上相近，这意味着即使发生点突变，造成的氨基酸变化也倾向于”保守的”——影响不大。^[6]^[9]

换句话说：这套4字母系统，在进化压力下，已被”调校”成一套对错误有极强抗性的编码。信息论学者会认出这个熟悉的概念——这就是纠错码。DNA是自然演化出的纠错编码系统。

🔗 跨学科桥梁

遗传密码的”冗余”结构与信息论中的纠错编码（如汉明码、Reed-Solomon码）在原理上惊人相似。但DNA的纠错机制不是工程师设计的——它是38亿年自然选择的结果。这让人不禁追问：信息的最优编码，是否有某种更深的物理必然性？
详见《数学为何有效？》。

中心法则：信息的单行道——还是吗？

1958年，弗朗西斯·克里克提出”中心法则”（Central Dogma）：遗传信息从DNA流向RNA，再从RNA流向蛋白质，这是一条单向通道。这个框架统治分子生物学长达半个世纪，也在医学上催生了无数突破。

DNA → RNA → 蛋白质

遗传信息的经典流向：存储 → 转录 → 翻译

但是——中心法则正在被改写。

现代分子生物学发现，RNA不仅仅是被动的”信使”。有一类叫做CRISPR的RNA-蛋白质复合体，可以”反向操作”，直接编辑DNA序列。还有表观遗传修饰（后面会详谈），它们由环境信号启动，逆向影响DNA的读取方式。研究者发现：RNA可以引导蛋白质对DNA进行修饰，形成一个反馈回路。^[1]

氧化应激是另一个经典案例。细菌在面临氧化压力时，DNA损伤会级联影响转录和翻译的精度，整个中心法则的”信噪比”同时下降——这不是单向的信息损失，而是全系统的耦合响应。^[11]

更引人深思的是：中心法则在医学上意味着什么？以自闭症为例，研究者发现，其相关干预策略必须同时在DNA（基因层）、RNA（转录层）和蛋白质（功能层）三个层面协同出击——因为这三层之间存在复杂的双向调控，而非简单的单向传递。^[7]

中心法则没有被推翻，但它被深化了：从一条单行道，变成了一张有反馈节点的信息网络。

复制的精度：每十亿次才出一个错

每次细胞分裂，都需要复制约30亿个碱基对的DNA。这相当于把一部长达90万页的百科全书一字不差地手抄一遍，然后再检查一遍，再检查一遍。

DNA聚合酶（负责复制DNA的”抄写员”）的固有错误率大约是每10⁴到10⁵个碱基出现一次错误。这已经很精确了。但细胞还不满足——它还有一套”校读”机制（proofreading），将错误率进一步降低到约10^-7。最终，加上错配修复（mismatch repair）系统的事后检查，整体复制错误率可以低至每10⁹到10¹⁰个碱基才出一个错。^[5]^[4]

DNA复制精度层级

聚合酶固有精度：~10^-4 到 10^-5（每万至十万个碱基出一错）
+ 校读机制（3’→5’外切酶活性）：提升至 ~10^-7
+ 错配修复系统（MMR）：最终达到 ~10^-9 到 10^-10

人话版：三重保险，一个比一个严格。最终出错率相当于把整个人类基因组抄写100遍，才出现一个错误。

但这套系统并非无懈可击。2024年，《Nature》上的一项里程碑研究利用单分子测序技术，首次在接近真实的生理条件下，直接观测到了DNA的错配和损伤模式——揭示了哪些位点特别脆弱，哪些序列背景下错误更易发生。^[18]

更意外的发现来自2025年《Cell》上的一项研究：转录因子——那些原本负责”控制基因开关”的蛋白质——竟然会与错配修复系统”竞争”DNA结合位点，导致某些基因组区域的突变率系统性升高。^[17] 这意味着：基因调控系统和基因保护系统，在同一段DNA上存在物理性冲突。生命的信息系统，内部并不总是和谐的。

细菌的案例尤为有趣。结核分枝杆菌——一种让全球数亿人感染的病原菌——具有独特的DNA复制保真度机制，其突变率与进化速率的平衡，是它长期潜伏于人体、逃避免疫攻击的关键策略之一。^[3] 猴痘病毒的研究也提供了类似视角：PNAS 2025年的一项工作解析了猴痘病毒DNA聚合酶的结构，揭示了病毒如何在复制速度与保真度之间做出取舍。^[13]

🔗 跨学科桥梁

信息论中有一个基本定理：任何噪声信道都有其信道容量上限（Shannon定理）。DNA复制的错误率，可以理解为一个”生物信道”的噪声水平。而三层纠错机制的叠加，正是香农信道编码定理的生物学实现。这不是比喻——这是同一个数学原理在不同基质上的实现。

表观遗传：写在字母之上的注释

设想这样一个场景：同卵双胞胎，出生时基因序列完全相同，却在成年后患上了不同的疾病，甚至长出了不同的面貌。这怎么可能？

答案藏在”表观遗传学”（epigenetics）里。表观遗传是指：在不改变DNA碱基序列的前提下，通过化学修饰改变基因的表达状态。最常见的两种机制是：

DNA甲基化：在胞嘧啶（C）上添加甲基基团，通常使该区域基因”沉默”
组蛋白修饰：修饰DNA缠绕的蛋白质支架，改变DNA的物理可及性

用一个直观的比喻：如果DNA是一本书，表观遗传修饰就是用荧光笔画线、用便利贴标注、用书签夹页——书的文字没变，但哪些章节被读到、读多少次，完全不同。

更惊人的是：这些”注释”可以被环境因素书写，也可以被遗传。吸烟、饮食、压力、污染物——这些外部输入，可以通过表观遗传机制改变基因的读取方式，甚至传递给后代。哮喘研究提供了一个典型例子：基因变异固然重要，但表观遗传修饰在哮喘的发病机制中同样扮演关键角色，而且对环境刺激有直接响应。^[10]

癌症研究则将这一图景推向了另一个复杂度层次。代谢重编程（癌细胞改变能量代谢方式）与表观遗传之间存在双向串扰：细胞的代谢状态直接影响表观遗传酶的底物可用性，进而改写基因表达程序；而基因表达的改变，又反过来影响代谢。这是一个互相塑造的闭环，而非单向的因果链。^[8]

表观遗传学告诉我们：命运不只写在序列里，还写在序列的读法上。同样的文字，可以被读成不同的故事。

这里出现了一个深刻的哲学问题：如果”信息”不仅包括序列，还包括序列的读取方式，那么”遗传信息”究竟有多少维？传统的”基因决定论“——认为知道了基因序列就知道了一切——已经在表观遗传学面前显得过于简单。

更多关于生命信息与热力学的讨论，参见《生命与熵：为什么生命逆流而上》。

人类的模仿：用DNA存储人类文明

如果DNA是如此完美的存储介质，人类能否用它来存储数字信息？

不是假设，这已经在发生。

DNA数据存储的基本逻辑：将二进制数据（0和1）转换为四进制碱基序列（ACGT），用化学合成方法写入DNA，再通过测序方法读出。理论上，1克DNA可以存储约215PB（1PB = 1024TB）的数据，且在适当条件下可保存数千年。^[2]

技术挑战是多方面的。写入（DNA合成）速度慢、成本高；读出（测序）存在错误率；如何在海量DNA分子中快速”寻址”到目标数据，是一个复杂的信息检索问题。^[16]

研究者们正在用创造性的方式解决这些问题。2025年，Science Advances发表了一项引人注目的研究：液晶引导的DNA信息存储，实现了无损读取和长期保存，利用液晶的有序排列来保护DNA分子并精确导向读取过程。^[12]

另一个问题是安全性——如何删除或保护DNA中存储的信息？2024年，《美国化学会志》上的研究提出了用CRISPR-Cas12a系统对DNA存储内容进行”随机净化”的方案，可以选择性销毁特定信息段，为DNA存储的信息安全提供了生物学工具。^[14]

更具颠覆性的想法来自”镜像DNA”研究。自然界的DNA都是右旋螺旋（D型）。研究者构建了左旋镜像DNA（L-DNA），并为其配备了镜像DNA聚合酶。L-DNA不能被自然界的酶降解，天然病毒和细菌也无法读取它。这意味着：L-DNA存储系统是”正交”的——与所有生物系统完全隔离，既防生物降解，又防信息泄漏。^[15]

🔗 意想不到的连接

人类花了几十年建造硅基计算机，将信息存储在硅片的电荷分布里。现在，我们回过头来模仿生命已经运行了38亿年的系统。但这里有一个深刻的不对称：生命的DNA存储是活的——它能自我复制、自我修复、自我进化。我们制造的DNA存储盘，只是借用了分子，却没有继承生命的动态性。这个差异，可能是理解”信息”与”生命”之间鸿沟的一把钥匙。

信息、物质与生命的三角

让我们退一步，看更大的图景。

物理学家约翰·惠勒（John Wheeler）提出了一个著名的格言：”It from Bit”——一切存在，皆源于信息。在他的框架里，物质是信息的实体化，宇宙本质上是一个信息处理系统。这是一个激进的哲学命题，但DNA的存在，让它不再只是抽象思辨。

DNA是物质（碳、氮、氢、磷、氧的化学分子），同时是信息（碱基序列编码的指令），同时还是生命过程的发起者。它跨越了”信息”与”物质”之间通常被假设存在的鸿沟。

更深的问题是：DNA携带的信息，从何而来？

自然选择的标准答案是：从无数代的试错中筛选而来。但这只是说明了信息被积累的过程，没有回答信息的”本体论地位”——它是独立于物质的实体，还是对物质状态的描述？当我们说”基因信息”，我们究竟在说什么？

表观遗传学进一步复杂化了这个问题：信息不只存在于序列，还存在于读取序列的规则，而这些规则本身也是可以被写入和继承的。这是信息的信息——元信息（meta-information）。在计算机科学里，我们称之为元数据或操作系统。生命在DNA之上，运行着一套不断更新的操作系统。

有关生命与信息更基础的讨论，请参阅《什么是生命？》和《生命如何起源》。如果你对信息与计算的哲学基础感兴趣，《图灵与可计算性》是绝佳的延伸阅读。

最后，一个让人着迷的对称性：人类正在用DNA来存储计算机数据——而计算机，最初就是被发明来模拟生物大脑的。信息在物质、生命和机器之间循环流动，没有哪一层是”终点”。

我们是信息，在读取关于信息的信息。

🔭 万象点评

DNA是一个令人谦卑的对象。它同时是化学分子、信息载体和进化引擎，却只用了四个字母。当人类工程师为5G信道编码绞尽脑汁时，自然选择早在38亿年前就”发明”了一套三层冗余纠错系统，其精度让任何人造存储介质望尘莫及。

但本文最值得思考的，不是DNA有多精妙，而是它暴露了一个深层张力：中心法则从”铁律”变成了”有反馈的网络”，表观遗传让”序列决定一切”成为过时的简化。我们对生命信息的理解，正在从线性因果走向循环因果。这种范式转换，和物理学从牛顿到量子的跃迁，在结构上惊人相似——简单、优美的单向叙事，总是被更复杂、更诚实的网络叙事所替代。

而人类用DNA来存储数字信息这件事，既是致敬，也是一个哲学玩笑：我们用生命的语言来保存关于生命的知识——信息在这里完成了一次自指的闭环。

🧬 核心要点

DNA是信息系统：四字母字母表，三联密码子编码20种氨基酸，具有内建冗余纠错特性
中心法则已被深化：不是单行道，而是含反馈节点的信息网络；RNA可以逆向影响DNA
复制精度极高：三层纠错机制叠加，最终错误率约每10⁹~10¹⁰个碱基出一错，但某些区域受转录因子竞争，存在系统性脆弱点
表观遗传是元信息层：在不改变序列的前提下，通过化学修饰改变基因读取方式；可被环境塑造，可被遗传
DNA存储是真实技术：1克DNA理论可存储约215PB数据；液晶导向、CRISPR删除、镜像DNA等创新正在解决工程难题
深层问题尚未解答：信息与物质的本体论关系，遗传信息的来源与本质，仍是科学与哲学的前沿交叉地带

参考文献

[1] Chang H et al. Reversing the Central Dogma: RNA-guided control of DNA in epigenetics and genome editing. Molecular Cell, 2023. DOI · PubMed
[2] Liu B et al. Data Readout Techniques for DNA-Based Information Storage. Advanced Materials, 2025. DOI · PubMed
[3] Warner D et al. DNA Replication Fidelity in the Mycobacterium tuberculosis Complex. Advances in Experimental Medicine and Biology, 2017. DOI · PubMed
[4] Bebenek A et al. DNA replication fidelity. Postepy Biochemii, 2008. PubMed
[5] Goodman M et al. Biochemical basis of DNA replication fidelity. Critical Reviews in Biochemistry and Molecular Biology, 1993. DOI · PubMed
[6] Fontecilla-Camps JC et al. Reflections on the Origin and Early Evolution of the Genetic Code. ChemBioChem, 2023. DOI · PubMed
[7] Hong D et al. Therapeutic strategies for autism: targeting three levels of the central dogma of molecular biology. Translational Psychiatry, 2023. DOI · PubMed
[8] Ge T et al. Crosstalk between metabolic reprogramming and epigenetics in cancer: updates on mechanisms and therapeutic opportunities. Cancer Communications, 2022. DOI · PubMed
[9] Kondratyeva L et al. The Origin of Genetic Code and Translation in the Framework of Current Concepts on the Origin of Life. Biochemistry (Moscow), 2022. DOI · PubMed
[10] Ntontsi P et al. Genetics and Epigenetics in Asthma. International Journal of Molecular Sciences, 2021. DOI · PubMed
[11] Fasnacht M et al. Oxidative Stress in Bacteria and the Central Dogma of Molecular Biology. Frontiers in Molecular Biosciences, 2021. DOI · PubMed
[12] Zhang Y et al. Liquid crystal-guided DNA information storage: Nondestructive recovery and long-term preservation. Science Advances, 2025. DOI · PubMed
[13] Xie Y et al. Structural basis of DNA replication fidelity of the Mpox virus. Proceedings of the National Academy of Sciences USA, 2025. DOI · PubMed
[14] Shen H et al. Random Sanitization in DNA Information Storage Using CRISPR-Cas12a. Journal of the American Chemical Society, 2024. DOI · PubMed
[15] Fan C et al. Bioorthogonal information storage in L-DNA with a high-fidelity mirror-image Pfu DNA polymerase. Nature Biotechnology, 2021. DOI · PubMed
[16] Tomek K et al. Driving the Scalability of DNA-Based Information Storage Systems. ACS Synthetic Biology, 2019. DOI · PubMed
[17] Zhu W et al. DNA mutagenesis driven by transcription factor competition with mismatch repair. Cell, 2025. DOI · PubMed
[18] Liu M et al. DNA mismatch and damage patterns revealed by single-molecule sequencing. Nature, 2024. DOI · PubMed