TED演讲 | 永久存储全世界数据,DNA是古老又新颖的解决方案

    ▎药明康德/报道

    本文由药明康德团队整理,欢迎分享至朋友圈。转载请于文章开头注明“本文来源于药明康德微信公众号(ID:WuXiAppTecChina)”

    以我们自己的基因组为例,如果我们把所有的A、T、C和G转换成数字数据0和1,会有几个G的大小。这是我们身体的每个细胞都在存储的数据。而我们有超过30万亿个细胞。你可以由此得出这样的观点:DNA可以在极小的空间里存储大量的信息。

    Well, let’s take our own genome as an example. Now, if we converted all those A’s, T’s, C’s and G’s to digital data, to zeroes and ones, it would total a few gigs. And that’s in each cell of our body. We have more than 30 trillion cells. You get the idea: DNA can store a ton of information in a minuscule space. 

    演讲实录

    我可以把所有的电影都放进这个管子里。这是我们今天要说的话题。

    在我们理解这是如何实现的之前,重要的是要理解这个壮举的价值。如今,我们所有的思想和行为,甚至是我们的健身活动,都通过照片和视频,以数字数据的形式存储。除了当手机里的存储空间快用完了时,我们很少会想起我们的数据痕迹。但是在过去的几年里,人类共同产生的数据比人类历史上所有的数据都要多。

    大数据已经成为一个大问题。数字存储真的很昂贵,而且我们所拥有的这些设备都经不起时间的考验。有一个非营利网站叫做互联网档案馆。除了免费的书籍和电影,你还可以访问1996年的网页。现在,这是非常诱人的,但是我决定回顾一下TED网站非常简陋的开端。正如你所看到的,在过去的30年里,它发生了很大的变化。这让我想起了1984年的第一个TED现场,当时正好是一位索尼的高管,在解释光盘的工作原理。

    现在,能够回到过去,接近这一刻,真的是令人难以置信。在第一次TED现场之后的30年里,我们仍然在讨论数字存储,这也是非常吸引人的。

    现在,如果我们再回顾30年前,IBM在1956年发布了第一款硬盘。这是它当着一小群人被装载上船的画面。它的存储量相当于一首MP3歌曲,重量则超过一吨。均价10,000美元一兆字节,我不认为这个房间里的任何人会有兴趣购买这个东西,除非是收藏。但这是当时我们能做的最好程度了。

    我们在数据存储方面已经取得了长足的进步。设备已经发生了巨大的变化。但是所有的媒体最终都会被淘汰。如果今天有人递给你一个软盘驱动器来备份你的演示文稿,你可能会觉得他们有点奇怪,也许会笑,但是你没有办法使用这个该死的东西。这些设备不再能够满足我们的存储需求,尽管其中一些可以重新利用。所有的技术,连同我们的数据,我们所有的记忆,最终都会死亡或消失。我们可能会产生一个幻觉,那就是存储问题已经解决了,但实际上,我们只是把它外部化了。我们不再担心如何存储我们的电子邮件和照片。他们就在云端。

    但在幕后,存储仍是个问题。毕竟,云只是大量的硬盘驱动器。现在,大多数数字数据,我们可以说,并不是真的那么重要。当然,我们可以删除它。但是我们如何才能真正知道现在什么是重要的呢?我们从图画和洞穴中的文字,从石碑中学到了很多关于人类历史的知识。我们已经破译了罗塞塔石碑上的语言。但你知道,我们永远不会了解到整个故事。我们的数据就是我们的故事,在现代更是如此。我们不会把我们的记录写在石碑上。但是我们不必现在就选出什么才是重要的。有一种方法可以存储所有的信息。事实证明,有一种解决方案已经存在了几十亿年,而且它实际上就在这个管子里。

    DNA是自然界最古老的存储设备。毕竟,它包含了构建和维护一个人所必需的所有信息。但是是什么让DNA如此伟大呢?让我们以我们自己的基因组为例。如果我们用标准字体、标准格式打印出所有30亿个A、T、C和G,然后我们把这些文件堆叠起来,那大概有130米高,介于自由女神像和华盛顿纪念碑之间。如果我们把所有的A、T、C和G转换成数字数据0和1,会有几个G的大小。这是我们身体的每个细胞都在存储的数据。而我们有超过30万亿个细胞。你可以由此得出这样的观点:DNA可以在极小的空间里存储大量的信息。

    DNA也是非常耐用的,它甚至不需要用电来存储信息。我们之所以知道这一点,是因为科学家从几十万年前的古人类身上提取了DNA。其中之一就是冰人Ötzi,结果显示他是奥地利人。

    他是在意大利和奥地利之间的山上高处被发现的,保存完好,从基因层面说,他在今天的奥地利还有活着的亲戚。所以你们中的一个可能是Ötzi的表亲。

    问题的关键在于,我们从远古人类身上获取信息的几率比从旧手机上获取信息的几率更大。与任何单一的人造设备相比,我们失去读取DNA的能力的可能性也要小得多。每一种新的存储格式都需要一种新的读取方式。我们总是能够读取DNA。如果有一天我们不能继续对DNA进行测序,我们所要面临的问题就要比担心数据存储更大了。

    将数据存储在DNA上并不是什么新鲜事。大自然已经这样做了几十亿年了。事实上,每一个生物都是一个DNA存储装置。但是我们如何向DNA上存储数据呢?这是有史以来第一张DNA照片,拍摄于60年前。大约就在这个时候,IBM发布了那款硬盘驱动器。实际上,我们对数字存储和DNA的理解是共同进化的。我们第一次学会了测序,或者读取DNA,不久之后,我们就学会了如何写出它,或者合成它。这很像我们学习一门新语言的方式。现在我们有能力读,写和复制DNA。我们一直在实验室里做这个实验。所以任何可以存储为0和1的东西,都可以存储在DNA中。

    为了存储数字化的东西,比如这张照片,我们把它转换成字节或二进制数字。黑白照片中的每个像素只是一个0或1。我们可以编写DNA,就像喷墨打印机可以打印纸上的字母一样。我们只需要把我们的数据,所有的0和1,转换成A,T,C和G,然后我们把这个发给一个DNA合成公司。这样,我们编写DNA并存储它,当我们想恢复我们的数据,我们只需要给它测序。

    现在,最有趣的部分是决定要包含哪些文件。我们是严肃的科学家,所以我们必须为后代留下一份手稿。我们还附赠了一张50美元的亚马逊礼品卡——别太兴奋,已经被花掉了,有人解码了——还有一个操作系统,有史以来最早的电影之一和“先驱者号”携带的牌子。你们有些人可能看过这个。它描绘了一个典型的,显而易见的男性和女性,以及我们在太阳系中的大致位置,以应对万一“先驱者号”飞船遇到外星人的情况。

    所以一旦我们决定要编码什么样的文件,我们就把这些数据打包,把这些0和1转换成A,T,C和G,然后我们就把这个文件发送给一个DNA合成公司。这就是我们得到的结果。我们的文件在这个管子里。所有需要我们做的事情就是给它测序。所有这些听起来都很简单,但是一个非常酷、有趣的想法和我们实际使用的东西之间的区别就是克服这些实际的挑战。

    现在,尽管DNA比任何人造设备都要结实,但它并不完美。它确实有一些弱点。我们通过对DNA进行测序来恢复我们的信息,但每次数据被恢复,我们就失去了那段DNA。这是测序过程的一部分。我们不想耗尽数据。

    幸运的是,有一种复制DNA的方法,比合成DNA更便宜也更容易。我们实际上测试了一种复制200万亿份文件的方法,我们恢复了所有的数据,没有错误。测序也会给我们DNA的A,T,C和G带来错误。大自然有办法在我们的细胞中处理这个问题。但是我们的数据存储在一个试管中的合成DNA中,所以我们必须找到自己的方法来克服这个问题。我们决定使用一种用于播放视频的算法。当你在播放视频时,你实际上是在尝试恢复原始视频,即原始文件。当我们试图恢复原始文件时,我们只是单纯地进行测序。但实际上,这两个过程都是为了恢复足够多的0和1,以便将我们的数据重新组合在一起。因此,由于我们的编码策略,我们能够将我们所有的数据打包成一种方式,这种方式允许我们复制数百万个拷贝,同时仍然能够恢复我们所有的文件。

    这是我们编码的电影。这是有史以来第一部电影,现在也是第一部DNA拷贝超过200万亿次的电影。

    在我们的作品发表后不久,我们在reddit网站上参加了一个”问我任何事情“的活动。如果你是书呆子同行,那么你对这个网站非常熟悉。大多数问题都经过深思熟虑。有些很滑稽。例如,一个用户想知道我们什么时候会开发出一个基于DNA的便携U盘。现在的情况是,我们的DNA已经储存了我们成为现在这个样子所需的一切。把DNA上的数据储存在管子里的合成DNA中会安全得多。

    从DNA中写入和读取数据显然比把你所有的文件都保存在硬盘上要花费更多的时间。因此,首先,我们应该关注长期存储。大多数数据都是短暂的。当下真的很难把握什么是重要的,或者什么对后代来说是重要的。但关键是,我们不必今天就做决定。联合国教科文组织有一个伟大的项目,叫做”世界的记忆“。它的建立是为了保存对全人类有价值的历史材料。提名项目将被添加到收藏中,包括我们编码的电影。虽然这是一种保护人类遗产的绝佳方式,但它并不一定是一种选择。与其问当代人——我们——未来什么可能是重要的,我们可以把一切都存储在DNA中。

    存储不仅仅是关于有多少字节,而是关于我们实际上如何存储和恢复数据。在我们可以生成多少数据、恢复多少数据和存储多少数据之间,一直存在这种紧张关系。写入数据的每一个进步都需要一种新的方式来读取它。我们再也不能阅读旧媒体了。你们当中有多少人在笔记本电脑中还有一个磁盘驱动器,更别提软盘驱动器了?DNA永远不会这样。只要我们存在,DNA就会存在,我们就会找到一种方法来测序它。

    将我们周围的世界归档是人类天性的一部分。这是60年来我们在数字存储方面取得的进步,当时我们才刚刚开始了解DNA。然而,我们已经在一半的时间里用DNA测序仪取得了类似的进展,只要我们还在,DNA就永远不会过时。

    Dina Zielinski女士是一位在遗传学和基因组学方面有着丰富经验的临床科学家和生物信息学家。她目前的项目是发育生物学和神经病学。她有动力不断学习,并利用自己的技能回答挑战我们最深层知识的科学问题。(图片来源:TED官网)

    参考资料:

    [1] Dina Zielinski. (2017). How we can store digital data in dna. Retrieved Mar 15, 2019, from https://www.ted.com/talks/dina_zielinski_how_we_can_store_digital_data_in_dna