编程计算变量,第二次重新运行用第一次变量的结果接着计算该怎么做?

01 虚拟法的基本介绍

线回归分析要求和因变量必须为连续型变量,变量(定类和定序变量)不适用于线回归。但在社会科学研究中,有很多类别变量,比如别、地区、婚姻状况等,对于研究分析也是很重要的。例如,收入水不仅和受教育年限、工作年限等定距变量有关,还会受到地区、行业等定类变量的影响。对于这种自变量为类别变量,应该怎么做回归分析呢?

虽然类别变量不能直接用于回归分析,但我们可以按特定规则对类别变量进行赋值,转换成编码变量。此时,编码变量为数值型变量,因此可以将其作为自变量纳入线回归模型中,用以解释因变量的变化。而且,编码变量依然可以承载原类别变量的所有信息,基于编码变量得到的回归方程也是有明确的实际意义的。这种将类别变量进行赋值编码后再进行回归分析的方法,称为虚拟回归(dummy

coding)。不同的编码方式并不会改变回归分析的实际内容,改变的只是回归结果的呈现形式,因此,采用哪种编码方式可以根据研究情况决定。一般来说,虚拟编码和效应编码主要用于调查得到的观测数据,而正交编码和非正交编码则主要用于实验得到的观测数据。

一般虚拟编码的方式最常见,而以虚拟编码方式来对类别变量进行赋值的方法,称为虚拟变量法,转换后的编码变量称为虚拟变量(dummy variable)。本篇文章主要基于虚拟变量法来介绍自变量为类别变量时的线回归分析。

02 如何构建虚拟变量

一个类别变量代表了一种特征的分类,虚拟回归的关键是对类别变量的不同分类进行赋值编码,将其转换为虚拟变量。虚拟变量为二分变量,取值只有0和1两种,当个案属于类别变量的某一特定分类时就赋值为1,否则赋值为0,1 和 0 就分别表示了个案属于和不属于该特定分类。也就是说,每一个虚拟变量都表示了该个案是否属于类别变量的某一特定分类,而每一个个案的一套虚拟变量就明确表示了该个案的类别特征。

虚拟变量的编码值0和1,不仅是原类别变量的编码,而且也是可以计算的数值,一个虚拟变量的均值其实就是属于某一特定分类(即编码为1)的个案在样本中所占的比例 p,因此虚拟变量可以作为自变量纳入回归模型中求解回归系数。但需要注意的是,原类别变量的各分类之间本质上没有定量关系,所以基于虚拟变量求得的回归系数不能像连续变量一样解释自变量变化一个单位时因变量产生的均变化,只能说明类别之间的水差异。

假设某个类别变量有k个分类,那么就会有k-1个虚拟变量。为什么是k-1个,而不是k个?这是因为,如果将k个虚拟变量同时纳入回归模型中,虚拟变量之间存在的完全共线会导致回归方程不能求解。对于一个类别变量来说,如果其中一个分类取值为1了,那么其他k-1个分类就一定取值为0;反之,当k-1个分类取值为0时,剩下的一个分类必定取值为1。这意味着,每一个虚拟变量的取值其实是其他k-1个虚拟变量取值的函数,比如当k=3时,k=1,k=k=0,那么就有k=1-k-k,这其实是一种完全的多元共线

针对这一问题,解决办法是不对类别变量中的某个分类进行赋值,即不转换成虚拟变量,改由其他k-1个虚拟变量的取值来表示其含义,即当所有k-1个虚拟变量取值均为0时,就表示该个案属于未赋值的分类。这个未经赋值的分类称为参照类(reference category)。一般来说,选择哪一分类作为虚拟变量的参照类是任意的,但会遵循以下几点原则:

(1)该分类的有效样本个数不能与其他分类样本数差异太多;

(2)该分类的定义是明确的,比如“其他”这样的分类就不适合作为参照类;

(3)如果是定序变量,比如社会经济地位、教育程度,一般选择等级最高、最低或者中间的类别作为参照类。

下面我们用几个例子来具体介绍如何构建虚拟变量。

例1. 将分类变量“别”转换为虚拟变量

别有2个分类:男、女,可构建1个虚拟变量,赋值为1的类别代表该个案具有的别特征。根据参照类的不同,可有2种赋值方式。

例2. 将变量“教育程度”转换为虚拟变量

教育程度有3个分类:研究生、本科、高中,可构建2个虚拟变量,赋值为1的类别代表该个案所具备的教育程度。根据参照类的不同,可有3种赋值方式,以参照类是高中类别为例。

例3. 将变量“婚姻状况”转换为虚拟变量

婚姻状况有4个分类:已婚、未婚、离异、鳏寡,可构建3个虚拟变量,赋值为1的类别代表该个案的婚姻状况。根据参照类的不同,可有4种赋值方式,以参照类是已婚类别为例。

03 虚拟回归分析的类型

根据自变量的数目和变量层次的不同,虚拟回归分析可以分为单因素虚拟回归、多因素虚拟回归和混合型虚拟回归三种类型。

自变量只有一个类别变量的虚拟回归称为单因素虚拟回归。例如,婚姻状况对生活满意度(记为Y)的影响研究中,自变量有且只有婚姻状况,这时候我们采用单因素虚拟回归来构建回归模型。

根据前面介绍的,婚姻状况有四种类别:已婚、未婚、离异、鳏寡,可构建3个虚拟变量,分别记为 k、k、k,由此可得到回归方程:

而自变量为两个或两个以上的类别变量的虚拟回归则称为多因素虚拟回归。在采用多因素虚拟回归来分析多个自变量对因变量的影响时,与多因素方差分析一样,除了各个自变量对因变量的影响,还需要考虑不同自变量的关联对因变量产生的交互效果。

再以婚姻状况对生活满意度的影响研究为例,除了婚姻状况,社会经济地位也可能会对生活满意度存在影响;同时,社会经济地位与婚姻状况的关联也可能对生活满意度产生影响。

婚姻状况有四种类别,虚拟变量分别为k、k、k;社会经济地位有两种类别:低、高,虚拟变量为d;那么由别与婚姻状况的虚拟变量,可构建两者交互的虚拟变量kd、kd、kd。由此,多因素虚拟回归的方程可写为:

在很多研究中,自变量不仅有类别变量,还会有连续型变量。比如收入的影响因素,除了行业、地区等定类变量,还有受教育年限、工龄等定距变量。这种自变量混合了类别变量和连续型变量的情况,一般有两种分析方法:一种是虚拟变量法,这种虚拟回归,我们称之为混合型虚拟回归;另一种是协方差分析法,主要在方差分析的基础上,还加入了连续型变量即协变量对各类别均值差异的修正。

04 单因素虚拟回归的SPSS操作

接下来我们将具体介绍如何使用SPSS进行单因素虚拟变量回归,其他的两种虚拟回归类型,后续有机会再详细介绍。

案例数据:收集了20个个案的婚姻状况(记为X)和他们的生活满意度(记为Y)数据,婚姻状况有四种类别:已婚、未婚、离异、鳏寡,满意度采用0~6(0表示极不满意,6表示非常满意)的量表进行测量。

研究问题:婚姻状况如何影响人们的生活满意程度?

虚拟回归的首要任务是对原始的类别变量进行赋值编码,转换成虚拟变量。根据第二小节的例3,我们已经知道“婚姻状况”可以转换成如下3个虚拟变量。接下来需要在SPSS中进行虚拟化处理。

操作路径:选取【转换】-【重新编码为不同变量】,打开【重新编码为其他变量】。

在对话框中,将原始变量“婚姻状况”添加到【数字变量-输出变量】窗口中,并在【输出变量】窗口中对虚拟变量进行命名和标注。

单击【旧值和新值】,打开赋值对话框,在【旧值】窗口中的【值】输入原始编码,并在【新值】窗口中的【值】输入新的编码。虚拟变量D1表示婚姻状况为鳏寡特征,因此原始编码为1,新值我们设定为1,然后单击【添加】。

选择【旧值】窗口中的【所有其他值】,并重新编码为0,表示虚拟变量D1不具有除了鳏寡之外的其他特征。

单击【继续】,返回【重新编码为其他变量】对话框,单击【更改】,就设定好了虚拟变量D1。然后单击【确定】,将虚拟变量D1添加到数据窗口中。

完成虚拟变量D1的设定后,继续重复以上操作,完成其他两个虚拟变量的设定。

这里需要注意,设定好所有虚拟变量后,需要在【变量视图】中将修改“小数”和“度量标准”两个信息,分别修改为“0”和“度量”。

这样,我们就构建好了虚拟变量,接下来就可以使用虚拟变量进行线回归分析。

(二)进行线回归分析

虚拟变量的线回归操作部分,与经典线回归的SPSS操作一样,我们在前面的文章有详细介绍过:《如何使用SPSS进行线回归分析?(一)》、《如何使用SPSS进行线回归分析(二):多重线回归》

1. 添加自变量和因变量

操作路径:【分析】-【回归】-【线

将“生活满意度”添加到【因变量】窗口中,三个虚拟变量D1、D2、D3添加到【自变量】窗口中;【方法】项则选择“进入”,表示添加的所有自变量都会输入到回归模型中。

单击【统计量】,选择【估计】、【模型拟合度】。

【估计】将输出与回归系数相关的统计量,包括回归系数、回归系数标准误差、标准化回归系数、回归系数显著t检验的统计量和概率p值;

【模型拟合】将输出判定系数、调整后的判断系数、回归方程的标准误差和回归方程显著F检验的方差分析表。

单击【保存】,选择【预测值】中的【未标准化】,系统将根据给定的自变量值,基于建立的回归模型输出因变量值,并在数据编辑窗口中保存为变量(变量名默认为PRE_1),由此帮助我们快速计算预测我们想要的因变量结果。

单击【选项】,选择“在等式中包含常量”,可以输出回归方程的截距 a。

返回主对话框,单击【确定】,系统运行计算。

从【模型汇总】表中可知,R=0.829,说明自变量和因变量有很强的相关;而R表示回归直线和样本观测值的拟合优度,反映了因变量能够被自变量解释的程度,即用回归模型来预测的准确度有多高。这里 R =0.688,说明三个虚拟变量可以解释因变量68.8%的变化,可见该模型的拟合效果还是比较好的。

2. 回归模型的显著检验

方差分析表的作用是检验回归模型的回归效果是否显著,即检验因变量和自变量之间的线关系是否显著。

方差分析表中,我们主要看F值及其对应的p值(sig.列)。这里,p值=0,小于显著0.05,因此我们可以认为该回归模型在0.05的显著下显著。

我们知道,单因素虚拟回归的方程可写为:

而回归系数表中的【B列】的第一行【常量】即为回归方程中的a值,【B列】常量后面的值分别为虚拟变量鳏寡D1、离异D2、未婚D3的回归系数,标准化系数(Beta)一列用来测量自变量对因变量的重要。在构建虚拟变量时,我们已经指定了【已婚】类别为参照类,因此回归系数表中的结果均基于参照类输出。

从表中可知,未婚虚拟变量D3的t值=0.246,p=0.809>0.05,说明未婚与已婚对生活满意度的影响并没有显著差异。

由此,可得到回归方程为:

在SPSS数据窗口中,我们可以看到系统根据该回归方程输出的因变量预测值(PRE_1列)。

这里需要注意的是,虽然我们可以通过虚拟变量的转换使类别变量参与到线回归分析,但在本质上类别变量的各分类之间并没有定量关系,所以基于虚拟变量求得的回归方程不能像连续变量一样解释自变量的增量如何导致因变量的变化,而只能说明类别之间的差异情况。

因此,从以上结果中我们得出,相比于已婚状态,鳏寡和离异对生活满意度都比较低,其中鳏寡对生活满意度的消极影响最明显,其次为离异;而未婚与已婚对生活满意度的影响并没有显著差异。

我要回帖

更多关于 编程计算并输出一元二次方程 的文章

 

随机推荐