10.21 “服务型基层治理”学术共同体第三次组会 读书报告
一、本次组会的任务
阅读文献:李连江《戏说统计:文科生的量化方法》
二、“正本清源”——作者对量化方法的概念理解
作者首先提出,专业术语本是专业化的必然产物,晦涩难懂是必然的,但有些学者翻译术语时,似乎以晦涩为高深,把本来简单易懂的术语弄得晦涩难懂,把原本就很难懂的弄得无法理解,因此要学好量化方法,首先就要把某些看起来“晦涩难懂”的概念恢复成浅显易懂的形式,此谓“正本清源”。
1、什么是“量化”
量化是以计算机能读的数字为形容词或名词,描述、标记、记录世界上某些事物的某些属性,在这里,数字与数学上的“数字”并不完全等同,它保留了多少数学性质,要取决于被描述的属性或性质(量化对象)和描述(标记)方法(即量化方法)。作者的定义强调了三个关键点——数字、描述、属性。换句话说,量化的核心,不在“算”,而在“说”——它是用数字“说话”的语言学行为。
量化的层次主要分为三个,总体、个体、属性
(1)总体中的个体:研究的出发点是“总体”——例如“一个城市的居民”、“一所学校的学生”,但测量的对象往往是总体中的若干个体。这就是界定“分析单位”的过程。总的来说,量化的对象是研究对象的某些个体。
另外,每一个分析单位,或者说每一个个体都具有各种各样的属性,这就引申出一个问题,我们要测量哪些属性?
(2)个体的属性:我们不可能测量一个人的全部特征,如同作者所说“一不可能、二无必要”,至于要选择什么样的属性进行测量,要遵循两个依据,其一,是否实质上相干,其二,是否理论上相关。量化研究只测量变化的属性,不测量恒常不变的属性。
(3)属性的变化:量化研究关注的是差异与变化——为什么A的收入高于B?为什么幸福感随年龄而变?这些差异构成了社会科学的研究内容。如上所述,量化研究只测量变化的属性,不测量恒常不变的属性。
举个例子,假设我想研究“大学生的学习压力”。我不需要研究华南农业大学每一名学生,而是选出100名同学(总体 → 个体),通过问卷测量他们“学习压力得分”(个体属性 → 数字),最后比较不同年级、性别之间的压力差异(属性变化 → 分析)。
整个过程,就是量化思维的展开。选出100名同学就是抽样,问卷测量就是对学习压力这个属性进行操作化,具体化为各种各样的指标(如压力指数),最后分析出每一名学生分数的差别,并且划分不同年级,性别之间进行比较
2、“变量”与“变项”
刚才说过,量化研究只测量变化的属性,不测量恒常不变的属性。这个“变”,构成了我们常说的“变量”,但作者认为,“变量”一词的译法并没有很好的贴近英文原词variable的含义,“变项”一词可能会更适合,即“可变者”、“可变之物”、“可变的东西”、“可变的属性”等等。
所谓“变”项之变,有两种含义,它们分别从横向和纵向勾勒出变项的全貌,一种是从时间(纵向)的角度,即某个个体的某个属性变动不居、日新月异,如古希腊哲学家赫拉克利特所说的“人不能两次踏入同一条河流”就是一个生动形象的例子。另一种角度是从空间(横向)的角度,即某个属性在不同个体间因个体而异、因人而异。如性别、年龄等就是生活中常见的例子。而从这两个维度还可以形成两种记录变项之变的数据,一种是截面数据或剖面数据,记录的都是“因人而异”之变 ,不涉及时间的变化。另一种是历时数据或“同组个体的跨时段数据”,在记录“因人而变”的基础上还记录下“因时而变”的数据。
但变项也不是凭空产生的,要做到在信度和效度上都能得到检验的测量,必然要对变项进行定义,即“概念”的产生过程,而概念是定性分析的结果,就如我备考期间所了解的一句话,“要想研究木棉花,必须先知道木棉花是什么”。
3、定量的基础是定性
“要想研究木棉花,必须先知道木棉花是什么”,作者也指出,“在用数字分析之前,必须先用概念定义”,任何一个量化指标都源自理论与定义。如果没有清晰的概念界定,数字便失去了意义,举个例子,在研究“幸福感”时,如果不先明确幸福的含义与维度(如情绪满意、社会支持、自我实现),即使设计再多的问卷题目,也无法真正测量幸福本身。因此,定性研究帮助我们理解现象、界定概念,“幸福感”的含义和操作化维度就是通过定性研究去确定,定量研究则在此基础上对这些概念进行测量与比较。
作者在后面所使用的SPSS雇员数据库中也特地指出:“雇员数据收集了雇员九方面的信息。为什么是这九个?为什么没有收集其他信息?一定是根据定性研究……这些属性的鉴别和鉴定,貌似常识,但追根溯源,都依靠定性研究。”,我个人认为,只有做好了定性研究,才能使定量研究所收集到的数据真正符合我们的研究需要。
总而言之,定性研究和定量研究,如同作者所说,像“沿着多层停车场盘旋道上升的两个向度”,定性研究决定方向,定量研究提供攀升的动力”上次组会的《社会学经验研究设计与论文写作》也提到的混合研究,作者认为更像是接力棒式的研究方法。但无论如何,定量研究能够帮助我们从可以知道的东西去猜测、去推测不可知道的东西,即“据此猜彼”。
三、“打个比方”与“举个例子”
(一)SPSS与STATA
在第二章中,作者提到过这样一句带有幽默的评价:“开会或者写论文,不妨声称自己使用Stata,甚至R。专家用户喜欢 Stata,因为用户可以自己写程序,还可以变相卖程序。”
这句话虽然轻松,却揭示了两个统计软件——SPSS 与 Stata——在社会科学研究中的不同定位与使用哲学。两者都能进行数据分析,却体现出两种迥异的研究思维。
1、两种软件的定位与操作逻辑
SPSS以“易用”为核心设计理念,主要面向教育学、心理学、社会工作等领域的研究者。它提供图形化界面,用户只需通过菜单和点选即可完成数据分析,学习门槛低、输出清晰,十分适合统计初学者理解量化思维。SPSS 是文科生通往量化世界的起点,它的强项不在复杂建模,而在帮助研究者掌握“如何用数字描述社会现象”。
Stata则是一款面向研究人员与专家的命令行软件。它通过脚本(.do文件)执行各种各样的分析,这使Stata具有灵活性和可编程性,能够实现复杂模型与自动化操作,常用于经济学、社会学、政策评估等领域。Stata 的学习曲线更陡峭,但功能更强大;它要求研究者理解每个命令背后的逻辑与假设,从而更精确地控制研究过程。
举个例子,SPSS 像一辆“自动挡轿车”,容易上手但自由度有限;Stata 则像“手动挡赛车”,操作要求更高却能实现精准控制。两者的差异不仅是技术层面的,更反映了研究思维的不同起点——SPSS 服务于“实用”,Stata 追求“精确”。
2、启示
作者在介绍SPSS前特意强调“自学统计分析,务必以实用为导向,需要什么,就学什么;不妨采取实用主义态度,‘急用先学,立竿见影’,其他一概忽略不计。学研究方法,实用主义是不二法门。”我认为,这给我们选择统计分析软件,或者是背后代表的定量研究方法给了一个最好的方法论。
(二)如何运用Stata做到书中的数据分析
下面是我个人通过Stata(版本18.0 MP—Parallel Edition)的导入功能直接导入书中所使用的SPSS雇员数据(employee.sav)并进行转换调整,以Stata的方式实现书中所提供的统计分析方法。

1、单变项分析——正态分布
单变项分析是指研究一个变量的分布特征,如平均值、标准差、频率分布等。作者认为,要想分析个体属性的总体参数如何,必须走两步,第一步就是单变项分析。我们可以用Stata的命令直观展示出变项各个值的实际分布。
要用Stata绘制出书中所展示的雇员年薪变项(salary)的分布图,我们要用到histogram命令,Stata内置一个help命令,可以帮助我们快速了解到命令的使用语法。
当我们在命令框输入help histogram时,会出现帮助对话窗口,我们可以看到histogram的用法是
那么,我们要绘制一份分布图,就是histogram salary, normal,其中salary是数据库对应雇员年薪的变项名,normal是添加正态分布的选项,Stata会添加一条正态分布轮廓线。我们输入命令到命令框内,Stata便自动生成我们想要的成果。我们可以看到,雇员年薪并不是呈现完美的正态分布,而是正偏态分布或右偏态分布。
正态分布的进阶(即2.0版本),对应的测量不是数据点而是抽样误差,它揭示一个统计学上的结论,即使总体不是正态,抽样误差常常近似正态。还是拿雇员年薪举例,用Stata实现书中所展示的——从个体属性的正态分布到抽样误差的正态分布的“中间形态”——样本统计值的正态分布如下(抽100个样本,样本量n=98,即总体的20%):
通过样本统计值与总体参数的差别——即抽样误差,我们可以验证“即使总体不是正态,抽样误差常常近似正态”这个结论。
总的来说,统计分析始于单变项,理解一个变项的分布是分析的第一步,作者通过正态分布从1.0到3.0的变迁揭示了一个基本的世界观——世界本是一个“概率游戏”,不存在所谓的“绝对”。从样本到总体的推断永远伴随风险,科学的态度是承认不确定,并学会以“概率的眼光”看问题,不再追求绝对确定性。
2、双变项分析——从相关到回归分析
双变项分析,相比于单变项分析,“是从关心某个变项的变化方式,到关心两个变项的变项样式之间的共变样式”。这种“共变”可以呈现为两种形式,一种是相关分析,只考察两个变项是否一起变,不考虑孰先孰后,也不考虑谁先谁后,另一种是回归分析,除了看两个变项是否共同变化,还预先设定哪个变项是因、哪个变项是果。 相关分析用于检验两个变量之间是否存在统计关系,其英文“correlation analysis”更多代表的是理论上相关而不是实质上相干,相关存在着正相关(“单调递增”)、负相关(“单调递减”)以及不相关,也存在强弱之分(皮尔逊相关系数),有是否显著之分。 回归分析的回归意为“追根溯源”,就是把因变项的变化“回溯”或“溯源”或“归根”到自变项的变化,换句话说,回归分析是参照自变项的信息,猜测因变项的值,目的是改进预测的准确度。 书中给出的例子是运用SPSS对雇员的教育程度(educ)和年薪(salary)做一个线性回归分析(y = -18331+3909*educ+e),在Stata中,我们可以运用regress 命令开展分析。
要想“猜测”过程中的误差最小化,我们就要运用到最小二乘回归,在stata中,实质上已经通过regress命令计算好了OLS regression所需要的回归系数
判定系数R²可以帮助我们看到我们的回归模型预测的准确度是多少,在Stata中也是通过regress命令计算得出。

四、书本中值得讨论的地方
1、 对于多元回归、对数回归中的概念理解不清,虽然作者已经通过大量的例子和通俗的语言进行讲解,但个人觉得还是比较“弯弯绕绕”。
2、作者强调定性是定量的前提,但在实践中,两者的界限往往并非如此线性。定性研究的理论假设可能在后续统计分析过程中被修正,定量发现也可能反过来改变我们对概念的理解。那么,如果定量研究的起点是定性定义,而定性理解又可能随数据结果而变,那么两者之间究竟应当如何互动?是否存在一种动态的、循环的研究路径,而非“先定性、后定量”的单向逻辑?
五、对我们学习定量研究方法的启示
首先,这本书帮助我们建立了量化思维的基础。作者指出,量化的核心不在“算”,而在“说”——即用数字去表达社会现象。量化研究的过程,本质上是对社会事实进行“再表述”,让主观经验转化为可比较、可分析的形式。这种思维训练使我们学会将模糊的社会问题拆解成可观察、可测量的变量,用清晰的逻辑来验证假设、解释现象。
其次,这本书让我们理解了数据背后的理论意义。作者不断提醒读者:数字不是客观事实本身,而是研究者定义和建构的结果。我们所使用的每一个“变量”“变项”,其实都承载着理论假设和价值判断。因此,真正的定量能力,不仅是掌握统计技术,更是能在数字背后看见概念、理论与社会意义。这种意识让我们在使用统计方法时,保持对“研究目的”的警醒,避免陷入“为了分析而分析”的误区。
最后,这本书培养了我们在统计学习中的反思能力。作者以“戏说”的方式反对“统计迷信”——他认为,数据分析不是炫技,而是求真的途径。社会科学的复杂性决定了,我们无法像自然科学那样控制变量、重复实验;因此,统计只是“科学实验的替代品”,是一种在不完美条件下尽量接近真理的方法。这种理性、谦逊的态度,是学习任何研究方法的根本。