南京大学中国社会科学研究评价中心(南京大学中国社会科学研究评价中心官网)



南京大学中国社会科学研究评价中心,南京大学中国社会科学研究评价中心官网

理论、数据和模型的动态三角对话的研究范式

图 / Journal of Social Computing 2020年主编发刊词

(Inaugural Message from Editors-in-Chief)

社会计算驱动的社会科学研究的机遇与挑战

作者 | 罗家德、高馨、周涛

作者单位 | 清华大学社会科学学院、公共管理学院;

清华大学社会科学学院;

电子科技大学大数据研究中心

原文 |

拙文《社会计算驱动的社会科学研究方法》发表于《社会学研究》2022年第5期,感到非常荣幸。更感谢《社会学研究》给予我们分享“作者手记”的机会,让我们能够回顾这些年来在研究历程、本文成文过程,以及《社会学研究》杂志带给我的诸多帮助与收获。

科学范式的转换中往往伴随着重大的方法论革命。社会计算作为一个年轻的学科,近些年来展现出蓬勃发展的趋势,而这次革命也源于大数据及其技术在社会科学领域的引入和应用,大批计算机科学家和物理学家加入到社会科学的研究队伍中,为社会科学研究的方法论注入了新元素,推动了包括计算社会科学、社会计算、新计算社会学等若干分支的产生和发展。这些研究均基于大量数据,运用统计力学和人工智能的新技术,来获得对社会现象的准确认知和社会规律的科学解释,因此笔者将这类研究统称为社会计算驱动的社会科学研究。

笔者及研究团队基于在这一领域多年的研究积累,深切地感受到大数据及其分析技术在社会科学的应用价值并非简单与理论的叠加,相反,二者的结合涌现出新的研究范式,给传统的社会科学研究带来了巨大增量。与此同时,也为研究者带来了挑战,面对技术的迅速发展,如各种自然语言处理技术、语音、视频、社会网络分析、机器学习模型、深度学习模型、加强学习模型等更新和发展,社会科学研究者难免会产生“跟不上速度”的失落感。然而越是如此,社会科学家越要从知识图谱的“树根”出发,从方法论层面理清社会科学理论、因果或系统模型以及数据,包括大数据与结构化数据之间的关系,要实现国家“十四五”期间“大数据产业发展规划”中指出的推进大数据研究“大体量”汇聚、“多样性”处理、“时效性”流动、“高质量”治理、“高价值”转化,社会科学理论必然是实现这一相关目标的重要组成部分,强调“理论驱动”的大数据研究十分必要。

因此,我们拿起“放大镜”去学习具体的技术、数据分析手段前,应从方法论的层面去把握社会计算驱动方法论的研究框架,用“望远镜”一览这类研究的典型范式、研究意义、研究流程、具体案例、面临的机遇和挑战。具体而言,社会计算驱动的研究存在几种不同的范式?每种不同范式适合什么样的研究问题?如何收集和使用数据?如何计算新变量?获得新发现?产生新理论?如何选择不同的模型和方法?如何处理数据、模型和传统社会科学研究之间的关系?这些不同分析步骤的先后顺序是怎样的?本文通过范式的总结以及具体研究案例的角度来尽可能呈现这些问题的答案。

这篇文章提出社会计算驱动的五类社会科学研究,分别是:一、基于大数据的探索性研究;二、基于大数据的验证性研究;三、大数据与结构化数据整合下的探索性或验证性研究;四、基于大型互联网实验的验证性研究;五、基于大数据(或结合结构化数据)先探索后验证的整合研究。这五种方法论的提炼是笔者以萨尔加尼克(Matthew Salganik)基于大数据和调查数据提出的两类方法论,分别是扩充型提问(扩展研究变量和议题)和丰富型提问(整合少数人的调查数据与大量研究对象的大数据),以及霍夫曼与瓦茨等人2021年在《自然》杂志上提出大数据研究的四个象限进一步提炼得出的分类。几种类型都围绕数据分析、算法模型和它们与理论的对话,或者理论驱动的数据验证研究,着重展现不同研究如何整合理论与数据。

由于不同学科多年来形成的研究范式、研究目标、评价标准的差异,寻求跨学科对话的道路并不容易。社会科学的定量研究大多以演绎推理的方式进行,在演绎法中,一般步骤为确定社会科学的研究问题,回顾相关理论,通过理论推演提出假设,在时间或空间上找出因果相关的自变量、中介或干扰变量,导出因果模型,然后进行研究设计,根据模型指定来收集资料,确定变量、测量方法以进行验证。而计算机领域学者则大多以获得变量之间的相关性或者预测为主,主要采用归纳法,描述特定情境下变量之间的关系,或者通过对数据的拟合获得高预测准确率,较少追求背后的因果机制和可解释性。

然而,单独使用这两种方法均存在一些不足。在演绎法的推理下,大量理论的推导只能依靠文献综述、逻辑推理和常识进行,加上小样本数据下的验证方式,导致很多理论结论在不同场景的可复制性和推论性不足。同时,使用传统计量回归进行主要变量的效应估计和显著性检验时,测量模型拟合的R2值常常仅有5%-10%,对现象的还原远远不够,伤害了定量研究结论的科学性和准确性。相应地,传统大数据分析中,往往只立足大数据本身,仅仅通过数据挖掘得到的预测因子以及行为模型,可以证伪过去不同预测背后的理论,却无法自证新理论的成立,因此很难直接应用于政策实施和干预,缺乏可解释性或者因果机制的探究。同时,预测或者数据挖掘大多依赖于可获得的、低成本的大规模数据,由于很多关乎社会科学概念的议题无法通过印迹化数据直接获得,这类研究预测目标、理论议题往往受限,很难满足社会科学的理论关怀。

近年来,作者及团队提出以理论、数据和模型的动态三角对话的研究范式,强调上述探索性研究(归纳法)和验证性研究(演绎法)研究的整合,同时在数据层面注重大数据和结构化数据/调查数据的整合,致力于推动社会科学和自然科学之间的对话。作者所在的合作团队由来自计算科学和自然科学学科背景或是直接具有跨学科背景的合作者和学生组成,逐渐摸索和发现了综合性研究方法论的巨大价值。这样的研究需要研究者对理论、模型及其解决的研究问题都很了解。

我们刚开始进行这样的研究时,国内外可实际参考的研究非常少,自然科学和社会科学的学术界普遍对于这种综合性研究的思路接受程度较低。从研究思路中,理论、数据以及模型如何对话?怎样保证科学性、规范性和合理性?大数据的技术如何使用?现有数据的不足如何补充?这些问题在我们最初做人脉和风险投资圈的研究中经过不断迭代,摸索出了答案,这一研究过程和发现也在本文做出了总结。另外,在实际开展的跨学科研究中,笔者在与计算机学家、物理学家、社会学家与管理学家进行合作时,也面临着诸如不同的学科范式下的思维差异大、研究目标不同、论文的行文方式难于把握、研究周期较长、投稿期刊范围小以及审稿人难觅等的挑战。但是所幸一群合作者可以暂时放下自身学科的固有思维,求同存异、互相补足、对话,回想这个过程并不容易,这样的努力还在继续进行,而科学本身就是一个不断超越学者自我认知局限和学科壁垒的过程,这个过程充满了不确定性和意义。

2021年,戈夫曼和瓦茨等人在《自然》杂志上发表文章,其中也着重强调大数据研究走向预测性和可解释性,并在第四象限中提出探索性与验证性综合研究的重要性,这一倡议也给予了我们继续开展和推动这类研究的信心。借此,几位笔者产生这样的想法:我们是不是可以基于在这一领域目前积累的研究案例和心得,梳理出几条可行的研究范式为社会科学家们提供一定程度的参考。同时,以具体案例作为展现最为直观,因此,本文在每种范式下,展现1-2个典型研究案例(主要为作者及团队所做研究),旨在为读者提供一个参照,依照什么样的问题,使用什么方法,依照什么流程来形成完整研究。

计算社会科学研究四象限

图 / 2021年戈夫曼和瓦茨等人在《自然》杂志上发表文章

《Integrating Explanation and Prediction in Computational Social Science》

社会计算研究天然的跨学科属性决定了其蕴含着的重大机会与挑战。建立理论、模型和数据之间的对话无疑对“研究者”提出了更大的要求,既要了解数据分析、建立模型等基本方法,同时又要充分利用社会科学的想象力以及深厚的理论功底,以新的角度看待旧的问题,以成熟的研究设计能力和多元的视角和知识背景来整合新资料、新方法,从而获得新发现。这要求不同学科的研究者以开放的心胸与谦虚的态度互相对话,互通有无才能达成合作。这一方面,诸多国外优秀的跨学科社会科学实验室为我们提供了参考,例如芝加哥大学埃文斯的Knowledge Lab、哈佛大学The Growth Lab,彭特莱的MIT D-Lab,瓦茨的Computational Social Science Lab等,在这些实验室里有社会学家、经济学家、心理学家、数学家、计算机学家与物理学家,等等,多元背景的人在一起碰撞,共同解决社会科学问题。笔者也期待在未来,大数据与调查数据的结合以及探索性和验证性研究结合下的综合研究可以促进这样跨学科、多元视角融合的合作,共同推动社会问题的解释、社会理论的发展和实践能力的进步。

南京大学中国社会科学研究评价中心(南京大学中国社会科学研究评价中心官网)



赞 (0)