网络组织化 科学中的科学 如何通过网络理解观点演化
Apr 28th 2011 | from the print edition
计算机科学家长期以来一直致力于为互联网上爆炸般的数据定制硬性规范。一种显而易见的方式是通过主题来组织信息,但通过人力为所有信息全面打上标签是不可能的。因此,普林斯顿大学的戴维·布莱试图通过机器来完成这项工作。
首先,他将在同一篇文档里经常出现的主题作为若干套词组定义下来。比如“大爆炸”和“黑洞”经常同时出现,但它们的每一个又往往不与“星系”同时出现,当然也别指望它们紧连着“基因组”出现。通过直觉去捕捉文档中首次出现的三个术语而非第四个的做法,是确定某单一主题的一部分。当然,这很大程度上取决于你期望的主题范围。但戴维·布莱和卡内基梅隆大学的约翰·拉弗蒂合作开发的模型中,考虑到了该因素。
用户通过自行挑选主题的数量来决定自己想要分析的主题的密度高低。计算机为每个主题创建一个虚拟的存储文件后,就开始读取待分析的文档。在移除一些均匀分布在原始文档中的普通词汇后,它随机为每一个剩下的词汇分配一个存储文件。计算机随后从存储文件中挑选若干对词汇,分析它们同时出现的次数是否高于它们偶然出现在原始文档中的次数。如果它们同时出现的次数多,这种关联就被保存下来。反之这些词汇(和其它已被关联的词汇)就被随机丢到另一个存储文件中。反复运行该过程,关联词汇间的一些网络系统就会逐渐形成。如果重复的次数足够多,每个网络系统就会与某单一的存储文件内容相一致。
这种方法果然奏效。戴维·布莱博士和约翰·拉弗蒂博士利用他们的软件从《科学》杂志1980年到2002年间发表的论文中找出了50个主题。按照词汇间的关联程度,这些挑出来的属于同类的词汇迅速被识别出来。比如某主题包含了“轨道”、“尘埃”、“木星”、“线条”、“系统”、“太阳的”、“气体”、“大气的”、“火星”和“领域”。另一主题包括“电脑”、“方法”、“数量”、“二”、“原理”、“设计”、“入口”和“进程”。
作为一种处理过量信息的方式,所有这些操作都十分有趣。通过对论文的标识,就能将论文用更有用的方式检索出来。但布莱博士一直都很想知道,他的方法是否能产生一些真正新颖的深刻见解并融入科学方法中。最后他认为这完全可行。他的合作者、普林斯顿的博士生肖恩·格里什开发出的某版本的软件,不仅可以通过精读文本获得主题,而且可以通过观察每个主题存储文件中模式年复一年的变化,追踪这些主题的演化过程。
新版本的软件可以长期追踪一个主题。比如,发表于1903年且拥有一个令人回味标题的论文《拉博德博士的大脑》,正好和1991年发表的论文《通过揭开潜皮层连接重塑皮层运动地图》都放置在相同主题的存储文件中。该软件允许进行术语学中的重要转换从而追踪主题的起源,它为鉴定真正富有开创性的工作提供了一种途径--将材料分类:引入一些新概念,或是把旧概念综合成新颖有效的方式,以便在后来的文章中被挑拣和复制。通过观察某论文在相关主题中的结构转变程度,其影响力就能被确定下来。
实际上,布莱博士和格里什先生已经为科学论文作者所钟爱的论文索引设计了一种替代品。该替代品反映了某特定出版物或作者作为源头被其它人引用的频率。高的分数被认为是论文拥有重大影响力的代名词,分数就是代名词所拥有的全部。
布莱博士和格里什先生没有声称他们的方法就必然是个更好的替代品。但它可以通过在一开始就不断增添设置过的文档扩展到更广泛的领域。论文索引仅仅在出版物在明白无误地参考其源头时才有用,它们在数字世界中形成了一个微小星云。虽然新闻稿、博客和电子邮件缺少系统化的能被用于制作成索引的参考列表,然而它们也是促使某观点更有影响力的组成部分。
此外,尽管学术界的自命不凡客观存在着,在人类努力的任何领域中它仍然是政治考量的对象。许多作者引用同事、老板和导师的文章,仅仅是出于谦恭和感激,而不是这些引用就真得那么有用。更为罕见的是,某作者也许根本不引用。比如爱因斯坦关于相对论的原始论文就完全没有附上任何参考书目,尽管它也从先前的著作中摘录甚多。布莱格里什的方法可能更真实地揭示了科学观点的演变过程,该方法为科学研究提供了一种更科学的手段。
from the print edition | Science and Technology
http://www.economist.com/node/18618025?story_id=18618025
本文由译者 胖白兔 提供 点击此处阅读双语版
|