38.《从数据中浮现“社会实体”——定量社会研究的方法论反思》高勇-西南大学西南民族教育与心理研究中心

从数据中浮现“社会实体”——定量社会研究的方法论反思

作者：高勇

阅读数：264次

来源：《中国社会科学》2022年第10期

摘要：当前定量社会研究的主流范式，容易停留在碎片化的变量属性层面，缺失甚至遮蔽了对于实质性社会过程的洞察与观照。借鉴涂尔干的经典研究文献，可探讨与“假设—演绎主义”完全不同的一种研究旨趣和方法路径：致力于揭示有关“事物本性”的根本原因，而不是对众多因素的穷尽式列举；注重在理论逻辑的指引下，对变量之间的交织关系进行深入辨析与整体描画，逐层去除种种表象因素的遮蔽；伴随背后的社会实体原因逐步涌现和提炼，单个变量的真正意蕴才得以充分呈现。这种方法论路径与中国社会的内在特征更为贴合，蕴含了中国定量社会学的创新方向。

关键词：定量社会研究；方法论；社会实体；变量关系

中国社会学定量研究已取得的成就是多方面的。各种高级统计模型和模拟方法通过各种渠道得以迅速推广，实用性的工具技术不断迭代更新，技术性的探讨进入更为精细的层面。一系列方法论反思深化了我们对于定量研究过程基本逻辑的理解，因果推断和可复制性等议题得到了广泛关注。诸多全国性调查项目，如“中国综合社会调查”“中国社会状况综合调查”“中国家庭追踪调查”等，为研究工作提供了可靠的资料来源，数据收集和共享作为一项基础工作得到快速推进。借由定量方法而获得的一系列研究成果，对于理解中国社会的内在特性作出了重要贡献。^[1]

更为重要的是，研究者开始比较深入地讨论定量研究范式背后的一些根本假设及其现实适用性。作为当前定量研究主流范式的“假设—演绎主义”（hypothetico-deductivism）路数，在某种程度上源自“实用性方法的理性化过程”。^[2]在最原初的层面上，实验操控研究被作为方法上的黄金规则受到尊崇。在实验操控研究中，研究对象不是复杂的社会构成，而是某种明确的干预行动；研究实体与统计变量是同一的；研究的目标指向是高度实用性的。然而，实验操控研究的基本原则在经过一系列改造之后，成为定量社会研究的基本准则。在实验操控研究中，变量指涉的就是实体——某种干涉手段，其意蕴也是单一而确定的，因此我们根本没有必要对于结构性实体和变量意蕴问题进行深入的思考。但是，除了社会评估项目外，社会学的研究旨趣与这样的实用性取向并不完全吻合。在这样的研究范式中，对于结构性实体和变量意蕴问题的追问很容易被悬置。

在对中国社会的定量研究中，这一问题尤其值得反思。因为我们最为关心的社会学问题恰恰是那些普遍施加于个体身上、具有某种恒常性的结构动力，是处于不断变化和成形当中的观念意蕴和机制要素。它们与变量之间的关系，远不是通常的“概念操作化”程序可以把握的。在根本的意义上，社会学对研究方法的讨论，就是要找到最能够充分表达其研究对象的内在特性、与其核心关切最恰如其分的分析方式和表述方式。这种讨论不可避免地与对研究对象的特性的理解联系在一起。对于定量社会学研究来说，同样必须考虑到它所面对的社会内在特性。

事实上，在经典社会学家那里，就有一个以数据分析方式揭示真正的结构性力量和社会最深处的观念意蕴变迁的研究——《自杀论》。^[3]本文试图借鉴这一经典文献，比较其论证逻辑与“假设—演绎主义”之间的根本差异，讨论透过变量来抵达对社会实体的实质讨论的可能途径，以及这一途径的困难之处与解决之道。立足于对变量关系的结构分析，但最终上升到对社会实体的讨论，进而在对社会实体的洞察中呈现变量的真正意蕴，这构成了与“假设—演绎主义”完全不同的一种研究旨趣和方法路径。对于中国定量社会学的发展来说，探索这一方法路径有着重要意义：它既贴合中国社会的内在特征、有助于理解和回应当下诸多现实问题，也有助于阐明社会学学科的根本价值，对于知识生成过程有更为普遍而深入的理解。

一、研究困境与经典启示

诸多研究者指出，中国社会在结构、制度及伦理层面，都有某些较为稳定的要素在发挥着重要作用。有学者称之为“社会底蕴”，即“在历史变迁中，中国社会自发保存的那些具备相对稳定特征的‘恒常’”。^[4]这种恒常力量在切实地发挥着作用，但也正因为无处不在的渗透作用，使得一般的定量研究难以把握其脉动。因为在既定的“假设—演绎主义”模式下的定量研究中，所有的因素都必须以变量的形式出场才能被纳入分析之中。因此，某些恒常力量尽管在实际的社会运作机制中发挥着核心作用，但如果无法以变量的形式出场，那在研究中甚至不会被意识到。李伯森（Lieberson）曾经讲过，我们可以设想一下定量社会学家通常会如何来研究“重力”：研究者会观察不同物体的自由落体运动，希望知晓什么因素会影响它们下落触地所用的时间；然后他们找到物体的密度、形状、重量等因素，这些影响因素最终会使我们能够解释甚至预测不同物体的落体速度；由此研究者能够宣称自己找到了影响落体的主要因素，因为因变量中的变异得到了充分解释。^[5]我们甚至可以猜想，会有学者提出密度和形状是某一个概念“X”的操作性测量指标，从而提出某一种“理论假说”来，由此完成完全符合“假设—演绎主义”模式的完整研究流程。但是，推动这一现象发生的真正结构性力量（“重力”），我们甚至根本没有触及。因为，真正的结构性力量恰是普遍施加于所有物体之上的，因此它在某种程度上是一种常量，而通常的定量分析的前提恰恰是“变量”，是每个个体自身所具有的某种属性与具体特性。我们不能否认这种研究的知识贡献，但是同样不能否认的是，它有可能遮蔽和忽略那些具有稳定性的结构力量。在中国社会这样一个有着深厚历史底蕴的文明体中，即便我们研究的只是一种局部的制度或现象，忽略那些结构力量也会造成比较严重的问题。

此外，社会过程中又有诸多具体因素（如职业范畴、制度安排、语言内涵）处在剧烈的变动之中，种种观念形态可能还处在成形的过程当中。此时，同样的变量取值和测量结果可能在现实生活的不同情境中有着非常不同的意蕴，现有的变量分析程式对此缺乏足够的敏感。社会身份和社会行动的本质特点恰恰在于，某种名称的意义会随着社会情势不同而得到重新界定，在不同行动者那里会有不同的观念认知，甚至在不同的研究问题中会显现出不同的侧面。如果我们在进行数据比较时忽视这种意蕴的差异，那么相关的数据有可能在同一变量名称下混杂了不同内容的信息，它无法清晰地对应于相应的实际社会对象和社会过程，因此能够告诉我们的东西也就极其有限，甚至会引发某些误解。^[6]然而，在一般的定量研究范式中，变量的意蕴是在分析前的操作化阶段得以确定的，它假定变量的意义至少在分析涉及的时间段中是固定不变的。在制度安排与语言内涵都发生显著变动的社会中，这种处理方式是否最为合适？有没有其他的分析方式能够更有效地辨析和应对这种意蕴的变化以及背后的深层原因？

中国社会的上述特征，应该成为我们讨论方法时的基本出发点。已有研究者指出，定量社会研究在迅速发展的同时，也遇到了所谓“双重危机”：“基于内生性问题的因果逻辑危机和基于时空问题的理论视野危机”。^[^7]这种反思极其重要，因为它关涉的不仅是分析技术问题，还与如何认识研究对象的内在特性密切相关。事实上，要解决“基于时空问题的理论视野危机”，固然需要数据类型的扩充和分析技术的革新，但更根本的还是要回到方法论的层面去反思与探讨，尤其是要思考在当前盛行的“假设—演绎主义”研究范式之外，经典社会学是否还向我们提供了其他的数据分析路数。

在某种程度上，当下的定量社会研究是一种主张不断朝前看的研究路径，最新的研究技术、数据资料总能更吸引人们的关注。定量研究者很少转过头去，看看某种研究技术的起源与流变，看看某种研究技术背后的假定与前提，那似乎只是少数学科史研究者才需要去注意的问题。不过，在研究技术的初始阶段，其技术细节固然是质朴初级的，却也可能保留了方法路径未加固化之前的多种发展可能性。在后来发展出来的方法路径形成套路、日益僵化之时，那些保留在经典研究文献中的素朴笔触，反倒更可能给后人以新鲜而兴奋的感受，甚至可能开辟出新的路数走向。涂尔干的《自杀论》就是这样一部重要的研究文献。^[^8]

《自杀论》长久以来就被认为是利用统计数据进行社会学分析的典范性著作，但多数社会学者并不会对其中的统计论证部分进行精研细读。理论研究者关注它在洞察现代社会道德人心时的过人眼光，往往认为那些统计表格只是涂尔干分析过程中的一个中间手段，甚至是在得到结论之后就可以跳过和摈弃的赘物。定量研究者则只是给予它某种仪式上的敬意，以为它的历史功绩在于引入了经验数据作为重要的研究资料，或引入了数据分析作为重要的研究方式，抑或引入了社会变量来解释自杀率高低；但是，其中的统计方式是初等的表格分析，连相关系数都未曾出现，因此人们在阅读时大多略过。或者，研究者会从《自杀论》中挑拣一些论证片段，来说明涂尔干对于统计学的使用方式其实合乎日后成为主流的“假设—演绎主义”模式或变量相关模式。这使得涂尔干的方法路数与日后的主流得以并轨，既可以使我们当下的做法有了渊源，又可以使得方法与理论在此顺畅而合乎情理地进行合流。

然而，只要回到文本进行辨析，就会意识到上述认知是基于后来的主流框架来套涂尔干的分析思路。首先，回到当时的历史情境看，《自杀论》的方法贡献并不在于它率先用统计学的手段发现了一系列变量关系。根据斯蒂芬·特纳对于与涂尔干同时代的众多统计学者作品的细致研读，“道德统计学”的学者们对于与自杀相关的各种因素积累了极其详尽的资料，发现了与自杀相关的众多因素，包括地理、气候、生理、心理、社会等。^[^9]许多基本的变量关系在当时学术界并不新鲜，如自杀与教育、教派等因素之间的稳定关联，自杀与季节的周期性变动关系，等等。《自杀论》的方法贡献也不在于其数据分析技术。当时的其他学者也意识到了变量关系并不能等于客观的“法则”：两个因素之间的关联完全有可能是由于背后共同的原因造成的，或者，表格中的关联可能是两种不同因素的混杂而形成的。如何从这种表格中寻找到“原因”成为重要的挑战，一系列新的表格分析方式为此而被发明出来。涂尔干在《自杀论》中大量沿用了莫塞利的细分表格分析方法和贝蒂荣（Bertillon）的“净效应”分解方法，并称赞这种分析技术是“一种巧妙的计算”，在自己的分析中“重复了这种计算”。^[^10]在《自杀论》中，涂尔干的数据分析是非常细致周详的，但从分析技术上来说，与当时的道德统计学家并无根本差异。甚至，从社会因素来解释自杀，采用一种社会决定论的视角来进行分析，也并非《自杀论》的独特之处。人们通常认为，《自杀论》最不同寻常之处就是确立了对自杀现象解释的社会决定论。这一点当然有其道理，但多少也有历史回溯中常见的光环效应。特纳就指出，早在《自杀论》出版的15年前，莫塞利在其著作《自杀：关于比较的道德统计学的论文》中就不仅采用了社会决定论的视角来分析自杀，而且还用文明的增进与自利主义来解释自杀。^[^11]

涂尔干的独特贡献在于，他在旨趣和方法路径上与当时的道德统计学分道扬镳，创立了一种蕴含社会学独特技艺的数据分析路径。他采纳了道德统计学的一些基本材料和分析技术，但在核心旨趣和基本原则上进行了重要改造。特纳曾慨叹，“涂尔干在统计传统与哲学传统上都是一个异类”。^[^12]涂尔干的异类之处，就表现在他使用统计工具进行论证的方式既不合乎当时流行的“道德统计学”的路数，更不同于日后主流的“假设—演绎主义”的路数，而是形成了独具一格的方式。已有学者将涂尔干的研究置于历史的学术脉络中，指出了它与道德统计学等分析传统的异同及其紧张关系，^[^13]澄清了其“集体类型”概念对“平均人”概念的超越，^[^14]将它与以塔尔德为代表的其他理解现代社会特征的路径进行了比较。^[^15]另有学者对涂尔干分析中的因果观念进行了详尽的概念梳理，尤其澄清了美国定量研究的主流范式对这一因果观念的改造与修正。^[^16]但是总体而言，涂尔干在定量数据分析方式上的独特贡献目前尚未被完整呈现，这种研究方式与其理论关怀的契合关系还没有得到充分探讨，尤其是它对于当下定量社会研究在方法论层面上的启示并没有得到揭示。

二、旨趣与途径：对根本原因和恒定关系结构的探究

在先于《自杀论》发表的《社会学方法的准则》中，涂尔干已勾勒出他对道德统计学进行改造的根本思路，这集中体现于书中的第六章“关于求证的准则”中。^[^17]涂尔干首先反驳了“同一结果可能会有不同原因”的命题。这段论述是以与密尔论辩的形式展开的，在此似乎显得突兀而令人不解。多因共同导致同一结果，难道不更符合常识吗？其实，只有结合当时“道德统计学”研究的一些基本状况，我们才会对涂尔干的上述观念有更准确的理解。“道德统计学”基于种种因素之间的关联进行研究，其结果有一个十分显著的特点，即强调结果的多因性。毕竟，我们总是能够发现多个与结果相关联的因素，如教育、教派、性别、婚姻，这几乎能够无穷无尽地列举下去（涂尔干称之为“支离破碎的列举”）。此外，这些因素的效应又确实是混杂在一起的，尽管我们可以通过某些技术手段（如细分表格）来尽可能地去择出某些因素的“净效应”来。结果，在“道德统计学”的研究中，要么是充斥着一长串的相关要素而显得零碎繁复；要么是像莫塞利那样，把这些零碎化的相关要素笼在一个“社会决定论”或者“文明代价”的框架之中而显得大而无当。

涂尔干显然对此不满，所以才有针对性地提出批评。他认为，因果关系必然是“一种来自事物的本性的关系”，它“只能表现一种本性”。^[^18]因此，对因果关系的分析必然基于对事物本性的洞察，而不能被表面的纷繁复杂性所遮蔽。因果关系包括“效力、生成力以及作用力的观念”，原因则是“内部能量尚未显露的力”，而不是脱离事物本身的观念联系。^[^19]正是由于这一点，他提出了那个备受争议的命题：同样的结果总是有其同样的原因。在经验世界中，我们可能经常会看到多个原因导致同一结果，但是如果我们能够真正理解“事物的本性”，就能够看出这里的“多个原因”在本性上就是同一的，是同一原因在具体情境中的不同表现而已；或者，会看出这里的“同一结果”在本性上根本不是同一的，而是属性的相似。^[^20]他援引当时的科学发现进行说明：“一般常识认为，‘发烧’这个词只表示同一种疾病，而从科学上来说，有许多种性质不同的发烧，有多少种原因就产生多少种结果。”在另一方面，“根据现代的理论，摩擦、撞击和化学作用等产生热，都是同一原因所致。”^[^21]如果不是基于事物的本性来进行推断，那么“即使可以搜集到足够多的事实，也永远不可能得出正确的规律和明确的因果关系来”，而只能得到“一大堆含混不清的前提”。^[^22]

在《自杀论》中，涂尔干尝试探究的也是这样一种“根本原因”（la cause fondamentale），或者自杀的“根本形式”（forms fondamentales）。其深意在于：涂尔干对于将众多因素归并在一起来解释某种现象的方式并不满意，他要做的是在这些众多因素中通过自己的分析手段和逻辑推断来发现“根本原因”，而不是所谓的“影响因素”。“根本原因”和“影响因素”并不处于同一层面，“根本原因”甚至可能会被“并不根本的原因”所干扰和掩盖而难以直接分析。社会学的真正使命是去揭示这些有关“事物本性”的根本原因，而不是对众多因素的穷尽式列举。

如何才能发现基于“事物的本性”、真正的因果关系？涂尔干转向了所谓的“共变法”。要强调的是，这里的“共变法”源自密尔，但却是经过涂尔干改造与阐发的全新的“共变法”。它有自身的一套逻辑与流程，最佳的范例就是随后不久发表的《自杀论》。这种研究的第一步是要发现“恒定的共存关系”。这里的关键在于“恒定”：这种关系要被足够数量的事例所证实，要有规律地发生变化，不仅体现于整体模式，也体现在局部变化当中。这种关系的恒定，本身表明了它“不像前述地那样从事物的外部进行，而是在事物的内部进行”，表明了“两种事实至少在量上互相参与”。^[^23]研究需要表明，即便存在着少数特例，这种关系的规律性也是稳健存在的。

在19世纪上半叶，道德统计学传统有一个基础性命题：社会事件发生率（死亡率、自杀率……）的稳定性。这样一种稳定性构成了学者们认为社会科学得以成立的一个客观理据。涂尔干沿袭了道德统计学对于稳定性的强调。但是，他强调的重点却并没有局限于发生率（rates）的稳定，而是因素之间关联的稳定存在。如果因素之间的关联不够稳定，在分析之后不能呈现出接近固定的对应关系，那就说明它并不是根本原因，也就不值得投入力量去深入讨论。在涂尔干那里，“对应关系”（parallélisme）一词有着特殊意义：它不同于一般的统计关联，而是有着更为严苛的标准。涂尔干把那种一般性的关联称为“断断续续的契合”，认为从中并不能得出任何一般结论。例如，他驳斥自然因素与自杀关系时，就认为“在气温的变化和自杀人数的变化之间，并没有固定不变的对应关系”，而白昼时间与自杀人数之间“如此有规律和精确的对应关系不可能是偶然的”。^[^24]真正的对应关系必须比普通的关联具有更强的一致性和匹配性，最终构成“按规律形成的、彼此先后连贯的、并尽可能是递进的、而且具有足够的广泛范围的变化系列”。^[^25]涂尔干通过细致的工作，发现一系列能够达到这一标准的关联。例如，自杀率与宗教派别间的关联模式就不仅体现于不同国家之间的比较，而且体现于同一国家内部的各个王国之间的比较、同一个王国中的不同省的比较，以及同一国家内部不同人群的比较。这是揭示出“事物本性”发展方向的关键一环，关联的稳定存在揭示了这一经验事实背后应当存在重要的社会基础。

但是，恒定的对应关系仍需“用理智对它所确定的事实进行加工”。涂尔干详尽说明了这一过程：“首先，是借助于演绎法来查明两项之中的一项怎样产生了另一样，然后是借助于经验即重新比较来设法验证演绎法所得的结果。如果演绎法是可行的，并证实它的结果是正确的，那就可以认为证明是成立的。相反，如果发现两个事实之间并无直接联系，尤其是关于它们之间有某种联系的假设是与已经证明了的规律相悖时，那就要去寻找两个事实都依存的或在它们之间起媒介作用的第三现象。”^[^26]这一过程的本质，是在“理智”的指导下“以严格的批判态度”对经验材料进行细致的比较分析，以便排除对前述对应关系的某些解释。在涂尔干看来，社会学家最足以自夸的优势恰恰就是他能够进行各种灵活的比较。社会生活本身持续不断的变化，以及社会现象在不同情境中的差异，为社会学家的比较提供了取之不竭的灵感来源，使他“在使用共变法时会有无与伦比的能力”。^[^27]

比较的前提，是必须公正地对待其他可能解释。例如，对于宗教教派与自杀率之间的关系就有一种可能解释：不同宗教自杀率的差异，根源在于两种宗教在社会上的相对比例不同。天主教在欧洲多数国家都是少数派；少数派不得不面对周遭的敌意。为了维护自身的生存，他们对自身实行严格的控制，特别在意舆论，故而自杀率少。但涂尔干提出，我们可以在那些天主教占多数的国家和地区内部，来比较天主教徒与新教徒的自杀率。数据表明，即便在那些天主教徒占多数的国家中，天主教徒的自杀率仍显著低于新教徒。因此，这种少数派不得不采取的谨慎态度就不可能是导致这两种宗教之间如此巨大差异的主要原因。

涂尔干不仅比较了不同教派之间的差异，还在同一教派内部进行比较。如果自杀率背后的真正推动力是共同信仰的动摇和团结程度的下降，那么即便是新教国家，那些教会整体化程度更高的国家自杀率也会较低。数据表明，英国的教会整体化程度更高：它的法律承认许多宗教法规，对传统的尊重更普遍而且强烈，神职人员数量较多且有等级；与此同时，它的自杀率也明显低于其他新教国家。

因此，要揭示教派与自杀率之间关联的实质，我们恰恰需要在同一教派内部进行繁复的统计比较。这种对共变关系的细致探求过程，非常近似于某种在理论逻辑指引下利用数据进行的深入描画，即“多层级、多角度地勘探社会构成的各种要素及其相互关联”。^[^28]事实上，深入描画并不一定要和解释预测对立起来，它们可能只是达到同一工作目标的不同方式。正是在深入比较与描画当中，我们逼近了对事实的本质性解释。

尤其值得注意的是涂尔干在数据比较过程中对待例外和反常的方式。涂尔干不仅在寻求一种可以被表述为普遍规则的关系性陈述，还始终保持着对例外和反常的敏感。例如，在前述过程中，涂尔干就遇到了一个重大的反常：犹太人的受教育程度相当高，但他们的自杀率却非常低。这正是洞察事实背后的深层逻辑的好机会。涂尔干所发现的，用现代定量研究的语言来讲，就是“教育”这一个变量对于不同的人来说意味着本质不同的东西。犹太人所表现出来的对教育的兴趣具有非常特殊的根源。“犹太教徒力求受教育，不是为了用经过深思熟虑的观念来取代集体的偏见，而只是为了在斗争中更好地武装自己。……这种例外甚至肯定了这种规律。……当教育具有另一种原因和满足其他需要时，这种例外就会消失。”^[^29]事实上，这种“例外甚至肯定了这种规律”的事例，最能够体现出涂尔干在面对数据时的研究取向。

这种对待例外与反常的方式，可能会被批评为是事后（ad hoc）解释。但那种事后解释之所以不可靠，是因为它进行的是分散而孤立的解释；而涂尔干对待反常的方式，则总是在其中寻求更深层而总体性的解释。两者的逻辑完全不同。在比较过程中，新的维度被不断引入，但这些新的维度始终不是彼此独立的，而是在一个统一的论证逻辑下构成了彼此勾连的整体结构。正是在这种逻辑推动的深入描画和层层叠叠的比较过程中，“我们终于找到了真正的规律，这些规律可以使我们尝试对自杀的类型进行系统的分类。由此确定的社会学原因给我们解释了这些不同的偶合”。^[^30]然而，为了探寻有关“事物本性”的根本原因，我们还需要一个重要的立足点，那就是回到社会实体的层面去思考。

三、立足点：对社会实体与变量意蕴的考察

通过对于恒定的对应关系的考察，人们可以得出像“自杀人数的多少与宗教社会一体化的程度成反比”之类的命题，但涂尔干认为，这和有关“事物本性”的根本原因仍有一段距离。恒定的对应关系中包括的那些因素，是根本原因在个体属性上的表现，而并非根本原因本身。在统计层面上，我们可以看到个体属性与自杀率之间的确定性关系，但社会研究却不能就此在这些个体属性中去寻找事情发展之因，而必须去讨论这种关联背后的社会实体到底是什么，它的作用方式又是怎样的。根本原因不是那些变量或属性本身，而是在数据关联分析的过程中，通过对社会实体的推理与思考而“涌现”出来的。正如社会与个体之间的涌现关系一样，最终原因与那些变量属性也有这样一种涌现关系。在这种探求中，涂尔干发现自杀背后的根本原因是利己主义、失范、利他主义、宿命主义等种种社会潮流，进而对于社会潮流本身的形成、社会潮流对个体的作用方式、在个体身上的表现形态进行了透彻分析，由此完成了他对于现代社会病理学的阐释。正如特纳所言，“《自杀论》的成就在于构建了一个综合解释，来把多个极其不同的关系压缩成为少数几种基本社会动因，每种动因又可以用具有完美或接近完美的对应关系的表格来展示”。^[^31]

在涂尔干的思想中，社会实体（le substrat social）指的是最具基础性地位、结晶化程度最高的那部分社会实在，它是社会基本构成要素（如群体层级、制度要件、观念要素）以特定数量、性质、结合方式、凝结程度而构成的整体，它有实在的引发变化的力量，因此“社会学不能不关心与集体生活的实体有关的事情”。^[^32]它当然首先是一种区别于个人特质的社会实在：“社会并不是个人相加的简单总和，而是由个人的结合而形成的体系，而这个体系则是一种具有自身属性的独特的实在。”^[^33]但它不仅是一般的社会实在，还是“集体的存在方式”，构成了“社会的内部环境”，而“一切比较重要的社会过程的最初起源，应该到社会内部环境的构成中去寻找”。^[^34]社会实体与其他社会事实之间在结晶化和定型化程度上存在区分，因此“对于关系到社会实体的社会事实保留形态学的这一修饰语可能是有益的”，但同时也“不能忘记这些事实在性质上是彼此一致的”。^[^35]

只有最终落实到社会实体的层面，而不是个体属性的层面，才能找到有关“事物本性”的根本原因。正是在这里，涂尔干与道德统计学派发生了最根本的分歧，以至于他在基本完成自己的类型学分析之后仍要通过与凯特莱的辩论，来更充分地说明自己的方法取向。^[^36]涂尔干对于凯特莱“平均人”理论的不满，根本点在于：“平均人”的解释方式，是将原因落在了“多数人身上表现出来的共同的肉体和精神特征”上，即“多数人”表现出的属性。但自杀倾向并不是多数人身上表现出来的属性特征。更重要的一点在于，属性并不构成一种实体，不能构成一种能够有办法影响人的力量。因此，以凯特莱为代表的道德统计学派的根本缺陷就是，他们用“平均人”的说法回避了实体到底是什么、实体如何起作用的问题，而只停留在属性及属性间关联的层面。“平均人”只是根据这种属性及关联而“虚拟”出来的实体。涂尔干敏锐地指出，“平均人”是根本不会自杀的；凯特莱的处理方式，实际上是“把标记当作被标出的事物”。^[^37]这是道德统计学派与后世“假设—演绎主义”的共同缺陷：“它以名词代表实物，以名词的恒定不变代表实物的恒定不变，它将附属于行动者的那些属性视为可以独立的力量，而忘记了它们身处其间的关系。这样便消解了问题：决定变量中到底是什么在作决定？被决定变量中到底是什么被决定？”^[^38]

对于属性间关联的讨论必须伴随着对于社会实体层面的思考，研究者才能最终找到根本原因。属性间关联的讨论，本身就如同梯子一样，它必须靠在社会实体这样一堵坚实的墙上，并最终到达社会实体这一堵墙的高处；但梯子并不是墙体本身。正如叶启政指出的，道德统计学派“不自觉地撤销了……原先关心原始源起场景的企图，而且也把其所具的社会学意义一并给架空掉了”。^[^39]

在自杀的研究中，社会联结与集体表象就是这样的一些实体：它不能被抽象地理解为“个别状态间的某种平均数”，而要被看成现实、有支配力的特殊力量。“如果（作为社会学研究对象的）这个世界不是一系列的现实事物，它就什么也不是。”那么，这种实体如何运作？“个人联合起来形成一种新的精神存在，因此这种精神存在有它自己的思维和感觉方式。……当某些意识不再是彼此独立，而是集合和结合在一起时，世界上就会有某种变化。”^[^40]由此，联合本身就产生了新的精神状态，产生了与个人的表象属于不同性质的集体表象。实体层面的考察引出了集体表象何以形成这样一个过程性的问题，也引出了涂尔干在《宗教生活的基本形式》中对这一问题更加精细的分析。

在这样一种研究路数中，“根本原因”并不是在“自变量”当中（如果可以采用这样一种现代分析术语的话）。涂尔干并没有通过某种统计操作而去确定哪个“自变量”是真正的因，以及其因果净效应有多大。他确实是从变量关系着手进行分析，但最终找到的真正原因却不是数据中的某个变量，或某些变量的集合。如同他认为社会不能简单等于个体之集合一样，在分析方法上，涂尔干也认为通过变量分析找到的根本原因并不能简单等于一系列自变量之集合。“原因”应该是有支配力的社会实体，而不是某种个体属性。^[^41]把原因诉诸个体属性，就有可能误把原本的直接对象当成有支配力的主导者。^[^42]统计学计算出来的变量关系效应，可能是揭示真正社会学意义上的效应的工具，但也可能成为某种遮蔽真相的幕布。要想透过形形色色的变量关系来获得对“社会学的恒常关系”（sociologically constant relationships）的洞察，前提是要能够澄清变量在研究问题所处情境中的社会学意蕴。^[^43]这只有通过对变量彼此交织的关系结构的细致描述和对社会实体层面的追索才能做到。

这样一种对于“原因”的理解，与现代“假设—演绎主义”研究路径理解的“原因”完全不同，也根本不可能像当代路数设想的那样可以事先界定，然后通过操作化手段来测量。在这里，涂尔干展现了一种与现代“假设—演绎主义”完全相反的思路。以他对于利己主义自杀的分析为例，当他发现自杀率与宗教教派、教育程度、自由职业等因素都具有稳定的对应关系，而且它们往往又彼此交织在一起时，他并没有力图去用统计操作来获取各个因素单独的“净效应”，而是借此洞察到了所有这些变量关系中蕴含的共通之意：人与社会联系纽带的松弛。在这里，变量之间的种种交织关系，并不是我们进行所谓“因果推断”的障碍；恰恰相反，它是社会实体向我们展示自身真正秘密的一把钥匙。通过这把钥匙，我们从可观察的变量关系着手，开启了不可直接观察的社会意义世界的大门。

我们要特别指出，那种把“操作化”的逻辑套用在涂尔干的论证上的理解方式是不能成立的。在那种理解中，涂尔干仿佛是先有“社会整合”的概念，然后再把它分解为若干指标（如宗教、教育、职业）的。然而，这些指标一旦孤立存在，都未必和社会整合有契合关系。这些指标之所以能够呈现出“社会整合”的意义，是因为它们在这一具体分析中呈现出了关系整体结构。“假设—演绎主义”范式似乎非常重视理论的指导作用，将理论命题视为提出假设命题的源头，将理论概念视为操作化的起点。但是，在“操作化”的实践过程中，研究者需要在探讨和澄清变量关系结构之前就事先敲定其概念意义，结果使得概念的操作化容易变成脱离具体情境与问题的“常识认知”，反而丧失了提炼核心概念的可能性。涂尔干则是在研究过程中不断探索各种变量关系的结构，在这个过程中社会实体层面的真正原因逐渐浮现；最终在真正原因的映照下，每个变量的真正意蕴又得以显现。

四、结语：定量研究的方法论创新

综上所述，涂尔干的研究方式为我们展现了一条从变量关系结构分析上升到对社会实体的讨论，再从社会实体的洞察中呈现变量的真正意蕴的研究路径。涂尔干并不是简单沿袭了道德统计学的研究方式。早在写作《社会学方法的准则》时，他就已经开始对道德统计学进行批判与改造，这一工作最终在《自杀论》的写作过程中得以完善与展开。也正是在这种批判与改造的过程中，涂尔干后期关于集体表象的思考开始显露，他构想的利用数据方法来研究社会实体的独特路数也得以被阐明。简言之，这种路数的独特性表现在如下几个方面。第一，研究的目标是揭示有关“事物本性”的根本原因，而不是对众多因素的穷尽式列举。第二，在各种各样的因素关联中，要尤其重视某些“恒定的对应关系”。第三，最终将变量关系的整体结构视为一种“标记”，而去讨论“被标记的事物”，即背后的社会实体。第四，在社会实体层面的原因得到澄清之后，单个变量的真正意蕴才借此得到了最充分的呈现。

涂尔干的研究路径与后世的“假设—演绎主义”截然不同，它绝不是“假设—演绎主义”的雏形或母体，而是暗含着另一种方法论主张。在这种研究路数中，对数据关系的考察与社会实体层面的考察呈现出一种回环往复的复杂关系，而不是通常教科书中呈现的简单对应关系。但涂尔干的上述方法路数并没有得到足够重视。原因在于，随着相关分析和回归分析被引入统计学，早期的表格分析和发生率的分析被迅速替代。基于个体属性的分析技术进步，以逻辑实证主义为后盾的哲学论证，使得现代的“假设—演绎主义”路数成了无可置疑的定量分析主流范式。

首先，在这种研究范式的“操作化”过程中，原本是在变量结构整体上才涌现出的结构性概念，被当成了与其他影响因素并列的众多自变量之一，由此变得十分单薄。例如，我们看到在这样的研究范式中，即使最具有涂尔干色彩的“失范”概念也仅仅被当成了一种个体心理属性，然后与其他个体特性放在一起来进行统计分析。^[^44]在变量分析完成之后，我们也不再深究背后的社会实体与根本原因。如阿博特曾指出的，我们通过定量统计分析会得出结论说，工资差异是由性别、组织科层化等引起的，但是从语义学角度来看，变量语言只是一种幻象：性别和组织科层化并不指涉任何实体，它们只是实在事物的属性而已。^[^45]因此，虽然因果分析的形式框架成了主导，涂尔干那种对于“根本原因”的探究却被弃置了。当初被涂尔干视为道德统计学研究缺陷的某些症候，仍然可以在此类研究中看到：“支离破碎的列举”和“断断续续的契合”，以及停留在个体属性层面而缺失对社会实体的归因。

其次，变量意蕴在这种研究范式中也没有被足够重视。变量意蕴是在操作化阶段解决的，但这里的意蕴是脱离变量关系而事先确定的。如我们在《自杀论》的论证过程中看到的，这是一种并不完善的处理方式。在研究之初，我们面对的往往是“通常被混为一谈、似乎只是程度不同而实际上有着明显区别的事实”；只有对变量的关系结构进行详尽描绘之后，我们才能分辨出它们背后所包括的“道德意义和社会意义也不尽相同”。^[^46]如果不进行这样的工作，我们就无法有层次丰富的辨析与理解。如布迪厄所言，“如果不去确定变量在某一种具体情境中（即在这一对具体的变量关系中）标示的是什么内容，那么统计关系纵然在数值上再精确，也仍然是缺乏意义的纯粹资料。在这种情形下，社会学家往往只满足于直觉性的浅薄理解，而专注对关系强度的测量精益求精。此外，他们又有一种错觉，以为从名字相同的指标中得出的变量或因素就是恒定不变的。上述浅薄理解和恒定错觉，使得他们对关系当中变量的意义不进行任何探究；然而，变量的意义只有在具体关系中才得以生成，只有在具体关系中才得以呈现”。^[^47]

因此，涂尔干对于道德统计学传统的思考和批判在当下仍有重要意义。在使用各种变量关系进行因果讨论的过程中，精深的数理方法的作用只是提升参数估计的精准性。但是社会学家的难题并不在于参数估计的精准性，而在于如何借助估计去了解背后各种真正的社会实在。如果意识不到这一点，我们仍会落入过去道德统计学者曾经落入的陷阱之中：只在各种碎片化的、抽象的变量属性中思考问题，而完全触及不到甚至忘却了背后那些基本的制度要件与观念要素。

流程和技术工具都是有益的，但只有在理解研究对象特性的前提下才是如此，否则它们就可能如削足适履般伤害研究本身。随着对研究对象理解的深入，方法本身也得到提升；随着方法的提升，对研究对象的理解又进一步深化，这是学科发展的常态。能够滋养社会学研究方法成长的核心要素，既不可能来自统计学技术，也不可能来自科学哲学，而一定是社会学本身的知识推进。借助对数据的深入辨析与比较，逐层去除种种表象因素的遮蔽，阐明来自事物本性的根本原因，最终浮现背后的社会实体与意蕴，这才是社会学定量方法独特的核心技艺。从变量关系上升到社会实体分析，是上述方法路数的关键，也是它的难点所在。必须指出，某种方法路数一旦被误用，其最大魅力也往往成为它最大的陷阱。涂尔干的这种方法路数确实可能引出一种误用倾向：对社会实体进行简单的“拟人化”比附，由此来实现这种跨越。比如说，我们观察到不同世代间在某些观念上发生了变化，由此就认定有一种拟人化的宏观“风尚”是背后的驱动力。但这有可能只是由于不同世代的构成成分有所改变，而同一构成成分的观念其实并无变动。这种错误的根源既在于数据分析工作不够精细，也在于对问题中社会实体的理解不够切实。这一难点是无法用某种单一的抽象方案和标准程序来解决的；它只能在具体的研究实践中由研究者解决，并由此锤炼自己的方法技艺。对于中国社会学的发展探索来说，这一点尤其紧迫而重要。在具体的定量研究中，我们必须结合中国社会的内在特性，充分挖掘它在群体层级、制度要件、观念要素等方面的具体内容，进而明确研究焦点，扩充数据类型，创新分析技术。

在研究焦点上，定量分析不能只满足于分析各种孤立离散的“影响因素”，而要思考背后所涉及的“基本动因”，通过数据探讨形塑社会生活和世道人心的核心制度与观念。这些结构动力和观念意蕴，并不直接对应于数据中被直接测量到的某种属性，必须依靠社会学的技艺来挖掘与探讨。以社会分层与流动研究为例，长期以来，虽然其出发点带有很强的结构意味，但多数具体研究往往围绕“分层结构给定条件下个体如何在其中定位”展开，从而丧失了原初的结构性关怀：一方面，客观分层与主观认同被视为彼此割裂的不同过程；另一方面，实质意义截然不同的机制却被混合在同一种量表中加以测度。^[^48]一旦我们采用“透过变量关系浮现社会实体”这样一种方法论路径，就可能将研究重心转向“分层本身如何形成”（分层机制）。通过追问和辨析分层与流动涉及的那些真正的社会实体和过程，我们就能以完全不同的提问方式来面对分层流动现象。当然，现阶段我们完全可以对分层机制中“社会实体”的含义作一种开放式的理解：它可能是人们对于理想社会结构位置的价值期许，或是生活经历与体验所形塑出来的群体认同，抑或是各种具体情境下的评价机制和组织机制，还可能是不同群体对彼此的理解与看待方式；但它应该是超越通常个体属性层面的内容。这样的研究方式，就能够把对“客观位置”与“主观认同”的研究贯通起来，同时从更基础的层面深入辨析背后的动力机制。

在数据类型上，除了积极拥抱“大数据”带来的机遇之外，更要致力于增强数据的厚度与密集度。当前，统计技术和数据生产中的诸多推进是激动人心的；大数据和计算社会科学的出现，为我们提供了借变量关系结构来洞察社会实体的更宽广的渠道。技术手段将使我们能够处理更为复杂的变量关系结构，借此理解变量彼此互依背后的实体运作，进而真正洞察变量在不同情境中的意蕴差异。但是，数据量再大，如果涉及的层面与变量太少，它也无法支撑起丰富的社会结构性分析。聚焦于重要的制度要件与观念要素，采用不同层面、不同来源的多重数据，将不同类型的数据叠加交叉，密集地对同一主题进行描画与比较，通过这样的做法更可能得到对社会结构的真正洞察力。这就要求研究者一方面要对于新的数据来源始终保持开放与探索精神，另一方面要更加重视对不同数据的整合性利用。

在分析技术上，要思考如何将社会学对结构、情境、认知的洞察与现有的前沿因果识别技术创造性地结合起来。方法论的讨论与具体技术的提升是彼此促进的关系，深入讨论涂尔干的分析逻辑，并不意味着在具体技术上的保守立场。^[^49]恰恰相反，深入的方法论讨论与前沿的技术工具是可以密切关联起来的。因果推断无疑是过去数十年间定量方法领域最重要的推进。^[^50]以“因果推断”和解决内生性问题为核心的一系列技术工具，同样可以与本文讨论的方法路数结合起来。从现有的发展状况来看，技术手段并不可能完全解决因果推断问题，如优秀的工具变量往往可遇而不可求，自然实验往往只是稀少的例外。事实上，只有在结构和意蕴视角下理解了人们现实的“选择行为”，我们才可能更透彻地了解统计学意义上的“选择性难题”；只有洞察结构背景下变量间可能的交织关系，我们才可能对于因果推断中存在的各种混淆因素更加敏感，才能更精准地找到因果推断的关键线索，进而发展出具有社会学特色的因果识别路径。定量社会学者必须把握自身研究对象的内在特性，才能在面对技术手段的快速更迭时占据主动，提供其他学科无法替代的学术洞见。

注释：

[1]谢宇：《社会学方法与定量研究》，北京：社会科学文献出版社2012年版；陈云松、吴晓刚：《走向开源的社会学：定量分析中的复制性研究》，《社会》2012年第3期；赵联飞：《中国社会学研究方法70年》，《社会学研究》2019年第6期。

[2]如阿博特所说，“非常奇怪的是，这一方式如此盛行，结果使得社会科学家已经忘却了实用性才是它的起源”。（Andrew Abbott, Methods of Discovery: Heuristics for the Social Sciences, NewYork: Norton, 2004, p.37）

[3]迪尔凯姆：《自杀论》，冯韵文译，北京：商务印书馆2001年版。

[4]杨善华、孙飞宇：《“社会底蕴”：田野经验与思考》，《社会》2015年第1期。

[5]Stanley Lieberson, Making It Count: The Improvement of Social Research and Theory, Berkeley: University of California Press, 1985, pp.99-107.李伯森说，许多社会科学研究程序与这一例子的“相似程度是令人震惊的”。

[6]应星、刘云杉：《“无声的革命”：被夸大的修辞——与梁晨、李中清等的商榷》，《社会》2015年第2期。

[7]陈云松、贺光烨、吴赛尔：《走出定量社会学双重危机》，《中国社会科学评价》2017年第3期。

[8]渠敬东：《涂尔干的遗产：现代社会及其可能性》，《社会学研究》1999年第1期；渠敬东：《追寻神圣社会——纪念爱弥尔·涂尔干逝世一百周年》，《社会》2017年第6期。

[9]Stephen Turner，“Durkheim among the Statisticians,” Journal of the History of the Behavioral Sciences, vol.32, no.4, 1996, pp.363-366.

[10]迪尔凯姆：《自杀论》，第173页。

[11]Enrico Morselli, Suicide: An Essay on Comparative Moral Statistics, New York：Arno Press, 1975.

[12]Stephen Turner, “Durkheim among the Statisticians,” pp.354-378.

[13]参见陈涛：《涂尔干的道德科学——基础及其内在展开》，上海：上海三联书店2019年版，第183-212页；Stephen Turner, “Durkheim among the Statisticians,” pp.354-375.

[14]参见叶启政：《实证的迷思：重估社会科学经验研究》，北京：三联书店2018年版，第179-186页。

[15]参见李英飞：《道德统计学的社会观：塔尔德与涂尔干之争再考察》，《社会》2017年第6期。

[16]参见Andrew Abbott, “The Causal Devolution,” Sociological Methods and Research, vol.27, no.2, 1998, pp.148-181.阿博特通过分析涂尔干在《自杀论》的论证过程，讨论了涂尔干对“因果”范畴的看法。他进而讨论了20世纪30年代之后美国社会学界对于“因果”范畴的看法改变；他尖锐地把这一过程称为“因果观的退化”。

[17]参见迪尔凯姆：《社会学方法的准则》，狄玉明译，北京：商务印书馆，2011年，第135-148页。在《社会学方法的准则》最后一章中，他开始用大量篇幅以自杀研究为例来阐明“求证准则”的问题，这可以被视为他的自杀研究的序曲。

[18]迪尔凯姆：《社会学方法的准则》，第137页。

[19]参见涂尔干：《宗教生活的基本形式》，渠东、汲喆译，北京：商务印书馆2015年版，第500页。

[20]参见涂尔干在《自杀论》中对自杀类型的分析：看似相同的自杀结果，其实“在本性上”隶属于不同的类型。

[21]迪尔凯姆：《社会学方法的准则》，第137页。

[22]迪尔凯姆：《社会学方法的准则》，第138页。

[23]迪尔凯姆：《社会学方法的准则》，第140页。

[24]迪尔凯姆：《自杀论》，第94页，第100页。

[25]迪尔凯姆：《社会学方法的准则》，第144页。

[26]迪尔凯姆：《社会学方法的准则》，第141页。

[27]迪尔凯姆：《社会学方法的准则》，第144页。

[28]渠敬东：《迈向社会全体的个案研究》，《社会》2019年第1期。

[29]迪尔凯姆：《自杀论》，第168-169页。

[30]迪尔凯姆：《自杀论》，第327页。

[31]Stephen Turner, “Durkheim among the Statisticians,” p.374.

[32]迪尔凯姆：《社会学方法的准则》，第32页。在现有的《社会学方法的准则》译本中，“substrat”这一术语在不同段落中分别被译为“基质”“基础”“实体”等。为了避免误解，下述引文中都统一用“实体”一词替换。

[33]迪尔凯姆：《社会学方法的准则》，第116页。

[34]迪尔凯姆：《社会学方法的准则》，第124页。

[35]迪尔凯姆：《社会学方法的准则》，第33页。

[36]这一章也是《自杀论》中最令人难解的部分，其中既包括了涂尔干对于道德统计学的明确批判，也包括了他对于自身思路中某些空白环节的初步设想。参见陈涛：《涂尔干的道德科学——基础及其内在展开》，第203-212页。

[37]迪尔凯姆：《自杀论》，第345页。

[38]Pierre Bourdieu, Distinction: A Social Critique of the Judgement of Taste, London and New York: Routledge, 2010, p.13.

[39]叶启政：《实证的迷思：重估社会科学经验研究》，第186页。

[40]迪尔凯姆：《自杀论》，第339-340页。

[41]对道德统计学中“属性”及其测量的提出，叶启政在知识社会学层面进行了详尽考察。参见叶启政：《实证的迷思：重估社会科学经验研究》，第155-163页。

[42]由此，我们可以理解为什么涂尔干会说“估量任何一种集体类型因素的方法，不是衡量它在个人意识中的大小并计算其平均值，而是应该计算其总值”。（迪尔凯姆：《自杀论》，第350页）“总值”在这里的意思并不是一种数学的“加总”，而是“整体”。涂尔干随后澄清了这一点：“所有特殊情况的总和有它的统一性和它的特殊性，因为社会自杀率是每一种集体个性的特殊标志。”（迪尔凯姆：《自杀论》，第353页）

[43]布迪厄在解读关于文化品味的统计数据时，同样指出了这一点。他说，“要充分解读一个列联表的真正意义，你也不能盲目地把变量当成是所谓的指标，不能只是肤浅地把自己的特殊经验普遍化来进行某种本质论分析，而要揭示出变量在给定时刻具有多重而复杂的意义。除了对社会整体的意义外，它对于不同类型的个体有不同意义：它区分出了不同类型的行动者，或者行动者依据它而彼此区分”。（Pierre Bourdieu, Distinction: A Social Critique of the Judgement of Taste, p.14）

[44]Leo Srole, “Social Integration and Certain Corollaries: An Exploratory Study,” American Sociological Review, vol.21, no.6, 1956, pp.709-716.

[45]Andrew Abbott, Methods of Discovery: Heuristics for the Social Sciences, p.38.

[46]迪尔凯姆：《自杀论》，第304页。

[47]Pierre Bourdieu, Distinction: A Social Critique of the Judgement of Taste, p.10.

[48]刘世定在评析布劳和邓肯的《美国的职业结构》时，指出其讨论的是给定等级结构的个人定位问题，而非真正的“分层机制”问题；而后者在今天的中国更具有学术价值与实践意义。此外，一旦跳过了“分层机制”问题，“忽略这些机制的差异，笼而统之地列出职业等级量表，虽然有利于统计操作，但其结论的社会意义，仍然含混不清，甚至隐含误导性。这是我们不能不警惕的”。参见刘世定：《不完全社会分层分析的先驱性探索》，彼得·M.布劳、奥蒂斯·杜德里·邓肯：《美国的职业结构》，李国武译，北京：商务印书馆2019年版。

[49]已经有研究者指出，涂尔干所持有的社会形态学研究范式与新近的复杂系统研究、内生性随机过程等技术视角是有契合关系的，参见毕向阳：《社会形态学—人文生态学的知识谱系与“社会学中国化”的路径选择》，《社会》2021年第5期。

[50]参见陈云松：《逻辑、想象和诠释：工具变量在社会科学因果推断中的应用》，《社会学研究》2012年第6期。

The Emergence of Social Substratum from Data: Methodological Reflection of Quantitative Sociological Research

Gao Yong

Abstract: The mainstream paradigm of quantitative sociological research based on fragmented variable analysis, often lacks or even obscures reflection on and observation of the substantive social process. Taking the practice of Durkheim's classical work Suicide as reference, a methodological approach which is distinct from the “hypothetic-deductive” paradigm is proposed. It is devoted to revelation of the fundamental cause rooted in “the nature of things,” rather than exhaustive enumeration of causal factors. It focuses on the profound analyses and overall description of the intertwined variable relationships and the emergence of social substratum under the guidance of theoretical logic, thus removing the influence of superficial factors. The meanings of variables are fully understood only after the fundamental cause of social substratum is clarified. This methodological approach is more consistent with the inherent characteristics of Chinese society. It is highly instructive for the innovation direction of Chinese quantitative sociology.

初审：王远琦

复审：孙振东

终审：蒋立松