数据技术助力社会科学研究

2019年05月22日 18:31 来源:中国社会科学网-中国社会科学报 作者:王晓真

  近日,美国智库城市研究所首席数据科学家格拉汉姆·麦克唐纳(Graham MacDonald)在新媒体平台“媒介”(Medium)发文,分析了他所观察到的数据科学与社会科学交叉发展的三大机遇。他认为,推动数据技术在社会科学领域的应用将有效推动社会科学的发展与变革。

  借助大数据预测政策影响

  麦克唐纳所观察到的数据科学与社会科学交叉发展的第一个机遇是利用大数据系统模拟情景并进行预测,以更好地掌握公共政策可能带来的影响。

  麦克唐纳表示,在其工作的城市研究所,有诸多微观仿真模型用于模拟情景和预测。这些模型将政策变革作为“输入量”,然后通过微观仿真模型的计算“输出”对政策影响的评估,进而预测某项政策将如何影响经济和社会生活。例如,如果美国国会提出了一项税收改革议案,微观仿真模型便能够计算这些变化会如何影响不同人群以及政府。除了税收之外,研究所还会对医保、社保等其他项目进行模型预测。这种建模的方法对决策者和公众都大有裨益,因此有必要使用现代数据科学技术对其加以进一步完善。

  麦克唐纳提出,当前,决策者们希望了解政府出台的每一项政策变革对不同人群产生的影响,并进行量化评估。由于目前尚无十分有效的方法能够同时对各项政策的影响进行量化评估,决策者们只能不断进行政策调整来得到不同结果。但是,借助云计算便可对大量的政策变革进行平行设置。换言之,云计算技术的进步让我们有潜力使用大数据体系,同时运行数以百万计的仿真模型,可以迅速为决策者提供大量政策变革的效果预测,并给出最贴近决策者期待的选择。

 大数据与传统数据资源相结合

  麦克唐纳认为,数据科学与社会科学交叉发展的第二个机遇是将大数据与传统数据资源结合,构建实时、成本效益高的早期预警系统。

  麦克唐纳称,要进行准确的人口评估,研究者必须展开田野调查,需要消耗大量的人力、物力和财力。但是随着对大数据资源的开发和利用,再加上一些较小范围的调查数据,便能够帮助我们实施精确度更高、速度更快、成本更低的人口普查。

  美国普林斯顿大学社会学教授马特·萨加尼克(Matt Salganik)在其著作《一点一滴:数字时代的社会研究》中曾介绍道,卢旺达的研究人员已经展开了类似实践。他们发现,通过将手机数据中的定位信息和通话频率及时长与一份小规模调查的数据进行配对分析,便能够得出与政府实施的人口与健康调查精确度相当的结果,而所花费的时间、财力都远远少于传统研究方法。

  麦克唐纳表示,虽然这种研究方法也存在缺点,如手机数据必须仔细校准等,但其潜力是巨大的。这种配对分析的方法可用以评估很多国家性问题,例如种族隔离、粮食安全问题等,也可以为政策决策者和公众提供有效的早期预警系统,进而建立更快速的响应机制。

  文本提取带来研究变革

  麦克唐纳提出,数据科学与社会科学交叉发展的第三个机遇是网站抓取和文本提取等新技术,可以解锁不同文本形式中“受困”的数据资源,为社会科学研究提供新材料、新思路。

  麦克唐纳表示,如今在计算机程序设计语言中,有很多工具能够从便携式文档格式(PDF)文件中提取文本、从网站上抓取数据,并能使用先进的文本分析方法来对其进行处理,从而解锁“受困”的数据资源,建立新的数据库,帮助推动社会科学研究。例如,人们可以通过抓取法院网站上关于审判、定罪的数据来探究刑事审判等相关学科的众多问题。在城市研究所,研究人员使用网站抓取技术从线上诉讼案例搜索工具中搜集法庭记录,来更好地了解犯罪背景审查对就业和应聘的影响。

  研究人员往往需要花费大量时间寻找材料进行研究总结,如果通过网站抓取、文本提取的工具和先进的文本分析方法,则可推动这些工作走向自动化。一些领域,如健康研究,在使用这些工具和方法方面已经“领跑”。同时,这些工具也已经被用来让部分文献审阅过程实现自动化。一个较近的案例便是由“脸书”(Facebook) 创始人马克·扎克伯格(Mark Zuckerberg)与妻子普莉希拉·陈(Priscilla Chan)建立的慈善基金“扎克伯格—陈计划”(Chan-Zuckerberg Initiative)收购了一家名为“梅塔”(Meta)的人工智能科研搜索引擎公司。该公司开发的工具让科研人员能够轻松搜索、阅读海量科研报告。麦克唐纳表示,在未来几年,社会科学的系统化文献审阅将得到进一步发展。

  麦克唐纳表示,除了上述实践,还有诸多其他数据科学与社会科学结合的创新。例如,在田野调查中使用软件为研究人员提供实时实验数据等。他希望人们认识到,还有许多机遇能够让数据科学和社会科学联手推动科研进步,同时帮助人们更好地理解公共政策。

     记者 王晓真