来自宇宙的数据洪流
|
|||||
Preston Lerner 文 Shea 编译 |
|||||
数字巡天和实时望远镜观测正在引发一场前所未有的数据洪水。埋藏在这些数据中的可能有宇宙学中最大谜题的答案。 对于工作在美国宇航局(NASA)国家空间科学数据中心的科学家来说,一场信息革命从2000年起便悄然而至。在一个会议上,有一位天文学家询问,这个中心是否能放下由晕族大质量致密天体巡天——专门用来研究仅发出少量光线和其他辐射的神秘天体——所收集的1万亿字节的数据。虽然今天许多台式计算机的硬盘就能放下1万亿字节的数据,但对于当时的这个数据中心来说却是不可能的,因为在此之前的45年中NASA所收集的数据总量也只有1万亿字节。 [图片说明]:斯隆数字巡天的2.4米望远镜。版权:SDSS。 一个实验所产生的数据就相当于之前15,000个实验的总和。于是有人意识到,科学界必须要做点什么,不但把使所有这些数据提供给科学家,而且还要能从所有这些信息中做出科学发现。 在随后的十年中,天文学家所使用的工具发生了彻底的变化,而我们对宇宙的认知也跟着发生了翻天覆地的改变。用照相底片来辛苦地拍摄天空的日子已经一去不复返。今天地球上和太空中的天文台可以让天文学家从射电波到γ射线纵览整个宇宙。而随着数字化探测设备的发展,计算机取代了原先的暗室。这些新生力量为了解我们的宇宙提供了一条更有意义的途径,但它们同时也引发了一场骇人的数据洪灾。惊人的发现也许就在其中,但你必须要先梳理所有的数据。 从2000年起,耗资8,500万美元的斯隆数字巡天(SDSS)已经拍摄了超过三分之一的夜空,获得了超过930,000个星系和120,000个类星体的信息。对SDSS庞大数据的计算分析发现了一些已知最年老天体的证据、确定了绝大多数大型星系拥有超大质量黑洞、甚至还测定出了局部宇宙的三维结构。在SDSS之前,单个天文学家或者小组占据了天文学。你要申请望远镜的使用时间,获得你的数据,然后再对其进行分析。之后SDSS问世了,突然间有了为了某个目的而获得的大量数据,但人们却把它们用到了其他各自感兴趣的研究上。因此,天文学的研究方式出现了巨大的改变,即便不属于某个项目的天文学家也能提出全新的问题、做出崭新的发现。
新一代的巡天将会观测并记录下数百亿个的天体。但问题是,在已知的宇宙中没有那么多的研究生能对它们进行分类。2019年当大口径全天巡视望远镜(LSST)在智利帕琼山上将其32亿像素的数码相机(世界上最大)对准天空的时候,它会以15秒的曝光时间拍摄一片比满月大49倍的天区,一个晚上拍摄2,000次。在其后10年中所拍摄的这些快照最终会被串编起来,构成一部可见天空的电影。每晚可以生成30万亿字节数据的LSST将会成为千万亿字节天文学的核心。 洪水般的数据已经令过去为获得大型天文台那么一丁点观测时间就激烈竞争的天文学家们感到了势不可挡。有史以来第一次天文学家们不再能够检查并使用所有的数据。这不仅仅在于数据的数量,还关乎数据的质量和复杂性。一个大型巡天可能会观测数百万甚至数十亿个天体,而对每一个天体可能又会测量它的数千个特性。虽然有现成的数据挖掘程序包,但如果你想处理10亿个对象而每个对象又包含1,000个数据的时候,就算有世界上最大的超级计算机你也只能干瞪眼。其挑战是发展出适用于21世纪的新科学方法。
这一方法的核心是被称为信息学的大批量数据处理技术。它已经改变了生物学和医学,使得科学家可以对数千种生物的脱氧核糖核酸(DNA)进行测序并寻找出与健康和疾病有关的基因线索。天文学家相信信息学也能为他们做同样的事情。基本的想法是用计算机来从过于复杂而人脑无法理解的原始数据中提取出有意义的信息。软件可以在几秒钟的时间里处理数万亿字节的数据,找出其中的规律和异常,对关键信息进行可视化,甚至在这个过程中“自我学习”。 从这个意义上讲,信息学其实就是让天文学家能更快、更准确地去完成他们一直在从事的工作。例如,对于这天文学中的两大关键技术——分类和整合信息——而言,数据挖掘是有益的。这个天体是一颗恒星还是一个星系?如果它是一个星系,那它是旋涡星系还是椭圆星系?如果是椭圆星系,它是圆的还是扁的?就在不久之前,这些问题还是处理照相底片的人必须要回答的。当你手中只有数百个太阳系外行星或者数千颗超新星的时候,分类不是什么大不了的事情。但当你面对数十亿个天体的时候,它就会变得极其复杂而繁重。 1996年天文学家为了了解遥远宇宙中的大尺度结构试图证认出几百个类星体。当时的做法很原始,一只铅笔和一张纸,还有反复地试验。而当LSST完工的时候,它轻而易举地就能给我们收集到以数百万计的类星体。 针对大样本的算法不仅能更容易地发现规律,还能加速识别出异常现象。现在,一百万分之一被认为是实属意外的发现,你恰好在正确的时间把望远镜对准了正确的方向。这是搜寻高红移类星体——由超大质量黑洞所驱动的极为遥远而明亮的天体——中经常发生的现象。目前寻找它们基本是靠运气的事情。有了计算机来筛选数十亿个天体,天文学家能够更具方法性地来寻找这些天体以及其他不同寻常的目标。这一方法不仅更快而且更准确。 另一方面,信息学也是进行统计的有力工具,它可以反映出宇宙整体的图像。例如,传统上天文学家会利用分光仪来估计遥远星系的距离,后者会把一个天体所发出的光分解到不同的波长上。但对于SDSS中每一个具有光谱数据的天体,又有大约100个没有光谱而只有图像的天体与之对应。这里就是天文信息学派上用场的地方了。天文学家们开发出了一个算法,它可以让天文学家仅分析图像就能估计出天体的距离,为研究宇宙的三维结构提供了大得多的数据集。这对于LSST尤为重要,因为天文学家无法获得其中99%天体的光谱。
计算机科学和天文学间跨学科的联姻还没有得到各自领域的完全拥护,不过情况正在发生改变。2010年5月初次登台的虚拟天文台是一个分水岭。这个历经10年时间打造的国际网络使得天文学家能通过互联网获得来自几十架望远镜的数据。之后,在2010年6月又召开了首次国际天文信息学会议。 天文学家习惯于行走在人类想象力的极限,但即便是他们也会在从如洪水般涌来的新数据中提炼出新的认识时遇到尴尬。路已经修好,现在就要看法拉利的了。 |
|||||
[Discover 2011年4月]
|
2001-2013 火流星工作组制作
本文遵循“创作共用约定”之“署名-非商业性使用-禁止演绎”3.0约定
任何意见和建议请致电: