“墙”里的砖块
为了找到答案,让我们来看看美国语言学家泰勒·施诺贝伦(Tyler Schnoebelen)的一篇文章。他使用了一套名为“世界语言结构地图集”(World Atlas of Linguistic Structures)(wals.info)的公开数据库。你可以把这套数据库想象成一份庞大的电子表格,其中,每一列代表一种语言特征(是否存在鼻元音,或是主谓宾语的顺序),而每一行代表一种语言,按字母A到Z排列,从埃塞俄比亚南部的阿瑞语(Aari)到新墨西哥州的尊尼语(Zuni)。该数据库(简称WALS,跟“墙壁”walls同音)收录了192种特征,2679种语言,所以,如果要把这份电子表格打印出来,真的非常庞大。就算我们让每一个表格只有一厘米宽、半厘米高,整份表格也将是一堵足有两米宽、5层楼高的墙。不过,它有80%的表格都是空的,因为大多数语言只有十来个特征可供填入表格。这里,不妨把这些单个的表格想成是墙壁里的砖块。
施诺贝伦并未考虑所有的192个特征,因为它们许多在逻辑上是彼此关联的。例如,一种语言有许多个不同的元音(WALS数据库收录的特征1),很可能也有着很高的元音—辅音之比(特征3),而如果元音少,该比率也较低。如果把这两个特征都考虑在内,就会给予统计意义上的同一特点不恰当的权重。这样的情况很多,故此很容易歪曲整体画面。(我们后面会看到,他未能完全避开这一陷阱。)