2022年05月 | DBA课程岳昌君教授《商务统计与计量》

#《商务统计与计量》课程回顾 #

我们身处在一个互联网+大数据时代，

我们进入了一个史无前例的阶段，

我们从物质和黄金为基础的社会，进入了以能源和信息为基础的社会。

全球70亿人口中近30亿成为网络人口。2/3的美国工作是跟信息处理有关的。

最早提出“大数据”时代到来的麦肯锡称:“数据，已经渗透到当今每一个行业和业务领域，成为重要的生产因素。” 对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。第三次工业革命来临，制造业正转向数字化。

社会科学研究偏好于实证化、数字化!

《商务统计与计量》的研究对于我们博士学员来说极具价值。

授课老师：岳昌君教授

北京大学教授、教育经济学讲席教授、博士生导师；
教育部人文社科重点研究基地教育经济研究所副所长；
中国教育与人力资源研究中心主任；
复旦大学数学学士、北京大学经济学博士、法国奥维涅大学经济学博士后；
美国加州大学政府事务研究所访问学者。

本次课程的主要内容分为三个方面：统计分析的基本内容、计量回归分析的基本内容、SPSS的基本操作以及如何用SPSS统计软件解决定量研究中的某些实际问题。

在统计分析方面，要求掌握统计描述中表示集中趋势、变异程度和分布状况的主要指标，例如，算术平均数、几何平均数、中位数、四分位数、方差、极值比、变异系数、基尼系数、泰尔系数等指标；掌握频数分析、数据探索、交叉表等描述性统计分析方法。统计检验中要求掌握均值比较过程、方差分析过程、相关分析过程、因子分析过程、聚类分析过程、卡方检验过程等过程。本课程重点在于对统计基本概念的深刻理解、对基本原理的熟悉掌握。

在计量回归方面，了解计量回归分析的基本步骤，掌握计量回归模型的建立、普通最小二乘法回归方法、统计检验方法、计量检验方法、虚拟变量和交互变量的运用、分类因变量回归方法，并且掌握运用SPSS统计软件进行回归分析的具体步骤。

课堂精彩内容

第一单元：统计基础知识

内容：

统计概述与数据
集中趋势：指标与在EXCEL和SPSS中的应用
变异程度：指标与在EXCEL和SPSS中的应用

小结：

人类的特性是有规律可言的。
对研究对象进行客观的测量和实验的可能性。
使用好的研究设计和数据收集过程尽可能使研究免于价值干扰的可能性。
统计学：是从一组数据中抽象出有用信息以支持决策的原理和方法。
统计描述：整理、概括并提供数据的方法以便看出数据间有用的关系。
统计推断：利用从总体的一个样本中获得的信息来推断总体的特征时使用的方法。

第二单元：软件操作方法

内容：

SPSS综述
数据文件的建立及整理
变量计算及转换
统计分析报告

小结：

在分类汇总中常用的Function 函数：Mean(平均值)、sum(总合)、Median(中位数)、Standard Deviation(标准差)、Maximum(最大值)、Minimum(最小值)、First(第一个观测值)、Last(最后一个观测值)。
在一些统计分析中不能使用字符型变量，对分类变量还需要连续整数。SPSS的自动重新赋值功能可以把数值型和字符型变量值自动转换为连续整数。
在一些情况下，特别是对于时间序列数据在计算环比指数时，如果有缺失值就会出现分母为零的情况，因此有必要对缺失值进行处理，给予赋值。

第三单元：统计描述过程

内容：

频数分析过程
描述统计量过程
数据探索过程
多维交叉表过程

小结：

如果仅仅需要了解统计量的值，那么使用descriptive过程计算比较简便快捷。
有了数据，还不能立即进入统计分析，因为数据结构、数据中隐含的内在统计规律等尚不清楚，需要对数据进行考察或探索。通过初步的探索，以便确定应该选用的统计方法。
有无异常值？异常值主要包括错误数据、与绝大多数数值相比过大或过小的数据等。如果存在错误的异常数据，必然会影响分析结果，掩盖变量变化的真实规律和特征。清洗数据非常重要！！
交叉表过程可以显示两个或多个变量的联合频数分布表，简称列联表或交叉表。一般选择离散变量来形成交叉表。

第四单元：均值比较过程

内容：

区分独立总体与相关总体的概念
混合方差时两独立总体均值差异的t检验
不同方差时两独立总体均值差异的t检验
两总体方差差异的F检验
两个独立总体的中位数差异的秩和检验
两个独立总体比率差异的Z检验
两个相关总体(成对样本)均值差异的t检验
两个相关总体中位数差异的符号秩检验

小结：

Wilcoxon秩和检验法，用于检验两个独立样本是否来自于同一总体。这种检验需用 ORDINAL测度水平的数据。当数据按升序排列后，U等于第一组中的一个值优先于第二组中的一个值出现的次数。

第五单元：方差分析过程

内容：

单因素方差分析
单变量多因素方差分析过程

小结：

单因素试验：只有一个因素（如只考虑复习方法的不同）。如果考察的因素有多个时，称为多因素试验。
单因素等重复试验：每个水平下进行等量的试验。如果每个水平进行的试验次数不相等，称为单因素不等重复试验。
通过分析试验中不同水平引起的差异和由随机因素造成的差异对总差异程度的贡献大小，确定考察因素对试验结果影响的显著性。
完全由偶然的或不可控制的随机因素造成的差异，称为随机变差或组内变差。
由于某些因素的不同水平或不同位级所造成的差异，称为效应变差或组间变差。

第六单元：相关分析过程

内容：

相关分析的概念
二元变量的相关分析
偏相关分析
距离分析

小结：

确定性关系：是通常的函数关系，如圆的面积与半径之间的关系。
非确定性关系：即相关关系。例如，人的身高与体重之间的关系。
皮尔逊（pearson）相关系数，是一般常见的线性相关系数，一般用R表示：变量Y和X之间线性相关的程度。R在（0，1 ）之间为正相关；在（-1，0）之间为负相关；等于1为完全正相关；-1为完全负相关；0为不相关。
斯皮尔曼（spearman）相关系数，用于反映两个定序或等级变量的相关程度。计算时要首先对变量值求秩。对两个配对测量的变量X和Y的测度值求秩后，斯皮尔曼相关系数的计算公式与皮尔逊相关系数公式相同。
偏相关系数：它描述的是当控制了一个或几个附加变量的影响时两个变量的相关性。例如可以控制工龄的影响，来研究工资收入与受教育程度之间的相关关系。
当其他变量被固定住，即将它们控制起来后，给定的任意两个变量之间的相关系数叫偏相关系数。偏相关系数才是真正反映两个变量相关关系的统计量

第七单元：因子分析过程

内容：

因子分析的概念
因子分析过程
因子分析实例分析1
因子分析实例分析2
因子分析实例分析3
因子分析实例分析4

小结：

因子分析法：就是在尽可能不损失信息或少损失信息的情况下，将多个变量减少为少数几个潜在的因子，这几个因子可以高度地概括数据中的信息。这样，既减少了变量变量个数，又同样地再现变量之间的内在联系。
调用Data Reduction菜单的Factor过程命令项，可对多指标或多因素资料进行因子分析。
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，即将相关比较密切的几个变量归在同一类中，每一类变量就成为一个因子（之所以称其为因子，是因为它是不可观测的，即不是具体的变量），以较少的几个因子反映原资料的大部分信息。

第八单元：计量回归分析

内容：

一个例子：凯恩斯消费
经济计量模型
研究步骤
一元线性回归模型及实例分析
多元线性回归模型及实例分析
分类因变量回归模型及实例分析

小结：

一般而言，人们倾向于随着他们收入的增加而增加其消费，但比不上收入增加的那么多。凯恩斯设想，边际消费倾向（MPC），即收入每变化一个单位的消费变化率，大于零而小于1。
纯数学模型是一种确定性关系，一般不是计量经济学家研究的对象。
回归分析是关于研究一个叫做因变量的变量对另一个或多个叫做解释变量的变量的依赖关系，其用意在于通过后者（在重复抽样中）的已知或设定值，去估计和（或）预测前者的（总体）均值。
经济变量：含有特定的经济定义，影响经济系统的因素，可观测、可定量化的变量。
总体回归曲线的几何意义：当解释变量给定值时因变量的条件期望值的轨迹。
随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。
估计量（Estimator）：一个估计量又称统计量，是指一个规则、公式或方法，是用已知的样本所提供的信息去估计总体参数。在应用中，由估计量算出的数值称为估计值。
要区分估计量与估计值，前者为（随机）表达式，后者是一个具体的数。

光亚方略

课程

光亚商学