📑 本文目录
宇宙中最古老的硬盘
如果你今天买一块1TB的固态硬盘,大约花费500元,可以存储大约2000亿个汉字。这听起来已经相当了不起。然而,自然界在38亿年前就设计出了一种存储介质,它的密度是硅基芯片的数百万倍,可以在室温下自我复制,还能在出错时自我修复。这种介质,叫做DNA。
DNA(脱氧核糖核酸)并不只是一个生物学概念。当你真正理解它,你会发现自己站在了物理学、信息论、计算理论和哲学的交汇点上:这可能是宇宙已知最精密的信息系统之一,而它同时是活的。
一个人体细胞的细胞核里,DNA总长度约为2米,被卷曲折叠压缩进一个直径约6微米的空间。这相当于把一根从地球到月球的细线塞进一个乒乓球——压缩比超过250,000倍。而信息量方面,人类基因组约含30亿个碱基对,以二进制换算约为750MB。这不是最惊人的数字,真正令人惊叹的是:这套系统在复制时的出错率,低得难以置信。[5]
四个字母,写尽生命
DNA的字母表只有四个字母:A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)、C(胞嘧啶)。四个化学分子,两两配对(A-T,G-C),形成双螺旋结构的”阶梯”。每一格阶梯就是一个碱基对,每一串序列就是一行代码。
遗传密码的翻译规则:
三个碱基 (密码子) → 一个氨基酸
43 = 64种可能的三联密码子 → 编码20种氨基酸 + 3个终止信号
人话版:三个字母的”单词”,最多能写64种,而只需要认识20种氨基酸,所以这本”词典”有冗余——同一种氨基酸往往对应多个密码子,这种冗余是生命系统对抗突变的第一道防线。
这套密码体系是如何起源的?这是生命科学中最深刻的未解之谜之一。研究表明,遗传密码并非完全随机——它有统计上的优化特征,同义密码子(编码同一氨基酸的不同三联体)往往在化学性质上相近,这意味着即使发生点突变,造成的氨基酸变化也倾向于”保守的”——影响不大。[6][9]
换句话说:这套4字母系统,在进化压力下,已被”调校”成一套对错误有极强抗性的编码。信息论学者会认出这个熟悉的概念——这就是纠错码。DNA是自然演化出的纠错编码系统。
🔗 跨学科桥梁
遗传密码的”冗余”结构与信息论中的纠错编码(如汉明码、Reed-Solomon码)在原理上惊人相似。但DNA的纠错机制不是工程师设计的——它是38亿年自然选择的结果。这让人不禁追问:信息的最优编码,是否有某种更深的物理必然性?
详见 《数学为何有效?》。
中心法则:信息的单行道——还是吗?
1958年,弗朗西斯·克里克提出”中心法则”(Central Dogma):遗传信息从DNA流向RNA,再从RNA流向蛋白质,这是一条单向通道。这个框架统治分子生物学长达半个世纪,也在医学上催生了无数突破。
DNA → RNA → 蛋白质
遗传信息的经典流向:存储 → 转录 → 翻译
但是——中心法则正在被改写。
现代分子生物学发现,RNA不仅仅是被动的”信使”。有一类叫做CRISPR的RNA-蛋白质复合体,可以”反向操作”,直接编辑DNA序列。还有表观遗传修饰(后面会详谈),它们由环境信号启动,逆向影响DNA的读取方式。研究者发现:RNA可以引导蛋白质对DNA进行修饰,形成一个反馈回路。[1]
氧化应激是另一个经典案例。细菌在面临氧化压力时,DNA损伤会级联影响转录和翻译的精度,整个中心法则的”信噪比”同时下降——这不是单向的信息损失,而是全系统的耦合响应。[11]
更引人深思的是:中心法则在医学上意味着什么?以自闭症为例,研究者发现,其相关干预策略必须同时在DNA(基因层)、RNA(转录层)和蛋白质(功能层)三个层面协同出击——因为这三层之间存在复杂的双向调控,而非简单的单向传递。[7]
中心法则没有被推翻,但它被深化了:从一条单行道,变成了一张有反馈节点的信息网络。
复制的精度:每十亿次才出一个错
每次细胞分裂,都需要复制约30亿个碱基对的DNA。这相当于把一部长达90万页的百科全书一字不差地手抄一遍,然后再检查一遍,再检查一遍。
DNA聚合酶(负责复制DNA的”抄写员”)的固有错误率大约是每104到105个碱基出现一次错误。这已经很精确了。但细胞还不满足——它还有一套”校读”机制(proofreading),将错误率进一步降低到约10-7。最终,加上错配修复(mismatch repair)系统的事后检查,整体复制错误率可以低至每109到1010个碱基才出一个错。[5][4]
- 聚合酶固有精度:~10-4 到 10-5(每万至十万个碱基出一错)
- + 校读机制(3’→5’外切酶活性):提升至 ~10-7
- + 错配修复系统(MMR):最终达到 ~10-9 到 10-10
人话版:三重保险,一个比一个严格。最终出错率相当于把整个人类基因组抄写100遍,才出现一个错误。
但这套系统并非无懈可击。2024年,《Nature》上的一项里程碑研究利用单分子测序技术,首次在接近真实的生理条件下,直接观测到了DNA的错配和损伤模式——揭示了哪些位点特别脆弱,哪些序列背景下错误更易发生。[18]
更意外的发现来自2025年《Cell》上的一项研究:转录因子——那些原本负责”控制基因开关”的蛋白质——竟然会与错配修复系统”竞争”DNA结合位点,导致某些基因组区域的突变率系统性升高。[17] 这意味着:基因调控系统和基因保护系统,在同一段DNA上存在物理性冲突。生命的信息系统,内部并不总是和谐的。
细菌的案例尤为有趣。结核分枝杆菌——一种让全球数亿人感染的病原菌——具有独特的DNA复制保真度机制,其突变率与进化速率的平衡,是它长期潜伏于人体、逃避免疫攻击的关键策略之一。[3] 猴痘病毒的研究也提供了类似视角:PNAS 2025年的一项工作解析了猴痘病毒DNA聚合酶的结构,揭示了病毒如何在复制速度与保真度之间做出取舍。[13]
🔗 跨学科桥梁
信息论中有一个基本定理:任何噪声信道都有其信道容量上限(Shannon定理)。DNA复制的错误率,可以理解为一个”生物信道”的噪声水平。而三层纠错机制的叠加,正是香农信道编码定理的生物学实现。这不是比喻——这是同一个数学原理在不同基质上的实现。
表观遗传:写在字母之上的注释
设想这样一个场景:同卵双胞胎,出生时基因序列完全相同,却在成年后患上了不同的疾病,甚至长出了不同的面貌。这怎么可能?
答案藏在”表观遗传学”(epigenetics)里。表观遗传是指:在不改变DNA碱基序列的前提下,通过化学修饰改变基因的表达状态。最常见的两种机制是:
- DNA甲基化:在胞嘧啶(C)上添加甲基基团,通常使该区域基因”沉默”
- 组蛋白修饰:修饰DNA缠绕的蛋白质支架,改变DNA的物理可及性
用一个直观的比喻:如果DNA是一本书,表观遗传修饰就是用荧光笔画线、用便利贴标注、用书签夹页——书的文字没变,但哪些章节被读到、读多少次,完全不同。
更惊人的是:这些”注释”可以被环境因素书写,也可以被遗传。吸烟、饮食、压力、污染物——这些外部输入,可以通过表观遗传机制改变基因的读取方式,甚至传递给后代。哮喘研究提供了一个典型例子:基因变异固然重要,但表观遗传修饰在哮喘的发病机制中同样扮演关键角色,而且对环境刺激有直接响应。[10]
癌症研究则将这一图景推向了另一个复杂度层次。代谢重编程(癌细胞改变能量代谢方式)与表观遗传之间存在双向串扰:细胞的代谢状态直接影响表观遗传酶的底物可用性,进而改写基因表达程序;而基因表达的改变,又反过来影响代谢。这是一个互相塑造的闭环,而非单向的因果链。[8]
表观遗传学告诉我们:命运不只写在序列里,还写在序列的读法上。同样的文字,可以被读成不同的故事。
这里出现了一个深刻的哲学问题:如果”信息”不仅包括序列,还包括序列的读取方式,那么”遗传信息”究竟有多少维?传统的”基因决定论“——认为知道了基因序列就知道了一切——已经在表观遗传学面前显得过于简单。
更多关于生命信息与热力学的讨论,参见 《生命与熵:为什么生命逆流而上》。
人类的模仿:用DNA存储人类文明
如果DNA是如此完美的存储介质,人类能否用它来存储数字信息?
不是假设,这已经在发生。
DNA数据存储的基本逻辑:将二进制数据(0和1)转换为四进制碱基序列(ACGT),用化学合成方法写入DNA,再通过测序方法读出。理论上,1克DNA可以存储约215PB(1PB = 1024TB)的数据,且在适当条件下可保存数千年。[2]
技术挑战是多方面的。写入(DNA合成)速度慢、成本高;读出(测序)存在错误率;如何在海量DNA分子中快速”寻址”到目标数据,是一个复杂的信息检索问题。[16]
研究者们正在用创造性的方式解决这些问题。2025年,Science Advances发表了一项引人注目的研究:液晶引导的DNA信息存储,实现了无损读取和长期保存,利用液晶的有序排列来保护DNA分子并精确导向读取过程。[12]
另一个问题是安全性——如何删除或保护DNA中存储的信息?2024年,《美国化学会志》上的研究提出了用CRISPR-Cas12a系统对DNA存储内容进行”随机净化”的方案,可以选择性销毁特定信息段,为DNA存储的信息安全提供了生物学工具。[14]
更具颠覆性的想法来自”镜像DNA”研究。自然界的DNA都是右旋螺旋(D型)。研究者构建了左旋镜像DNA(L-DNA),并为其配备了镜像DNA聚合酶。L-DNA不能被自然界的酶降解,天然病毒和细菌也无法读取它。这意味着:L-DNA存储系统是”正交”的——与所有生物系统完全隔离,既防生物降解,又防信息泄漏。[15]
🔗 意想不到的连接
人类花了几十年建造硅基计算机,将信息存储在硅片的电荷分布里。现在,我们回过头来模仿生命已经运行了38亿年的系统。但这里有一个深刻的不对称:生命的DNA存储是活的——它能自我复制、自我修复、自我进化。我们制造的DNA存储盘,只是借用了分子,却没有继承生命的动态性。这个差异,可能是理解”信息”与”生命”之间鸿沟的一把钥匙。
信息、物质与生命的三角
让我们退一步,看更大的图景。
物理学家约翰·惠勒(John Wheeler)提出了一个著名的格言:”It from Bit”——一切存在,皆源于信息。在他的框架里,物质是信息的实体化,宇宙本质上是一个信息处理系统。这是一个激进的哲学命题,但DNA的存在,让它不再只是抽象思辨。
DNA是物质(碳、氮、氢、磷、氧的化学分子),同时是信息(碱基序列编码的指令),同时还是生命过程的发起者。它跨越了”信息”与”物质”之间通常被假设存在的鸿沟。
更深的问题是:DNA携带的信息,从何而来?
自然选择的标准答案是:从无数代的试错中筛选而来。但这只是说明了信息被积累的过程,没有回答信息的”本体论地位”——它是独立于物质的实体,还是对物质状态的描述?当我们说”基因信息”,我们究竟在说什么?
表观遗传学进一步复杂化了这个问题:信息不只存在于序列,还存在于读取序列的规则,而这些规则本身也是可以被写入和继承的。这是信息的信息——元信息(meta-information)。在计算机科学里,我们称之为元数据或操作系统。生命在DNA之上,运行着一套不断更新的操作系统。
有关生命与信息更基础的讨论,请参阅 《什么是生命?》 和 《生命如何起源》。如果你对信息与计算的哲学基础感兴趣,《图灵与可计算性》 是绝佳的延伸阅读。
最后,一个让人着迷的对称性:人类正在用DNA来存储计算机数据——而计算机,最初就是被发明来模拟生物大脑的。信息在物质、生命和机器之间循环流动,没有哪一层是”终点”。
我们是信息,在读取关于信息的信息。
🔭 万象点评
DNA是一个令人谦卑的对象。它同时是化学分子、信息载体和进化引擎,却只用了四个字母。当人类工程师为5G信道编码绞尽脑汁时,自然选择早在38亿年前就”发明”了一套三层冗余纠错系统,其精度让任何人造存储介质望尘莫及。
但本文最值得思考的,不是DNA有多精妙,而是它暴露了一个深层张力:中心法则从”铁律”变成了”有反馈的网络”,表观遗传让”序列决定一切”成为过时的简化。我们对生命信息的理解,正在从线性因果走向循环因果。这种范式转换,和物理学从牛顿到量子的跃迁,在结构上惊人相似——简单、优美的单向叙事,总是被更复杂、更诚实的网络叙事所替代。
而人类用DNA来存储数字信息这件事,既是致敬,也是一个哲学玩笑:我们用生命的语言来保存关于生命的知识——信息在这里完成了一次自指的闭环。
🧬 核心要点
- DNA是信息系统:四字母字母表,三联密码子编码20种氨基酸,具有内建冗余纠错特性
- 中心法则已被深化:不是单行道,而是含反馈节点的信息网络;RNA可以逆向影响DNA
- 复制精度极高:三层纠错机制叠加,最终错误率约每109~1010个碱基出一错,但某些区域受转录因子竞争,存在系统性脆弱点
- 表观遗传是元信息层:在不改变序列的前提下,通过化学修饰改变基因读取方式;可被环境塑造,可被遗传
- DNA存储是真实技术:1克DNA理论可存储约215PB数据;液晶导向、CRISPR删除、镜像DNA等创新正在解决工程难题
- 深层问题尚未解答:信息与物质的本体论关系,遗传信息的来源与本质,仍是科学与哲学的前沿交叉地带
参考文献
- [1] Chang H et al. Reversing the Central Dogma: RNA-guided control of DNA in epigenetics and genome editing. Molecular Cell, 2023. DOI · PubMed
- [2] Liu B et al. Data Readout Techniques for DNA-Based Information Storage. Advanced Materials, 2025. DOI · PubMed
- [3] Warner D et al. DNA Replication Fidelity in the Mycobacterium tuberculosis Complex. Advances in Experimental Medicine and Biology, 2017. DOI · PubMed
- [4] Bebenek A et al. DNA replication fidelity. Postepy Biochemii, 2008. PubMed
- [5] Goodman M et al. Biochemical basis of DNA replication fidelity. Critical Reviews in Biochemistry and Molecular Biology, 1993. DOI · PubMed
- [6] Fontecilla-Camps JC et al. Reflections on the Origin and Early Evolution of the Genetic Code. ChemBioChem, 2023. DOI · PubMed
- [7] Hong D et al. Therapeutic strategies for autism: targeting three levels of the central dogma of molecular biology. Translational Psychiatry, 2023. DOI · PubMed
- [8] Ge T et al. Crosstalk between metabolic reprogramming and epigenetics in cancer: updates on mechanisms and therapeutic opportunities. Cancer Communications, 2022. DOI · PubMed
- [9] Kondratyeva L et al. The Origin of Genetic Code and Translation in the Framework of Current Concepts on the Origin of Life. Biochemistry (Moscow), 2022. DOI · PubMed
- [10] Ntontsi P et al. Genetics and Epigenetics in Asthma. International Journal of Molecular Sciences, 2021. DOI · PubMed
- [11] Fasnacht M et al. Oxidative Stress in Bacteria and the Central Dogma of Molecular Biology. Frontiers in Molecular Biosciences, 2021. DOI · PubMed
- [12] Zhang Y et al. Liquid crystal-guided DNA information storage: Nondestructive recovery and long-term preservation. Science Advances, 2025. DOI · PubMed
- [13] Xie Y et al. Structural basis of DNA replication fidelity of the Mpox virus. Proceedings of the National Academy of Sciences USA, 2025. DOI · PubMed
- [14] Shen H et al. Random Sanitization in DNA Information Storage Using CRISPR-Cas12a. Journal of the American Chemical Society, 2024. DOI · PubMed
- [15] Fan C et al. Bioorthogonal information storage in L-DNA with a high-fidelity mirror-image Pfu DNA polymerase. Nature Biotechnology, 2021. DOI · PubMed
- [16] Tomek K et al. Driving the Scalability of DNA-Based Information Storage Systems. ACS Synthetic Biology, 2019. DOI · PubMed
- [17] Zhu W et al. DNA mutagenesis driven by transcription factor competition with mismatch repair. Cell, 2025. DOI · PubMed
- [18] Liu M et al. DNA mismatch and damage patterns revealed by single-molecule sequencing. Nature, 2024. DOI · PubMed