###一、描述性统计是什么?
描述性统计学是统计学的一个分支,涉及数据的总结、组织和有意义、简洁的呈现。它专注于描述和分析数据集的主要特征和特性,而不对更大的总体进行概括或推断。
描述性统计的主要目标是提供数据的清晰、简洁的总结,使研究人员或分析师能够获得洞察力,理解数据集中的模式、趋势和分布。这种总结通常包括诸如中心趋势(例如,均值、中位数、众数)、离散度(例如,范围、方差、标准差)以及分布的形状(例如,偏度、峰度)等度量。
描述性统计学还涉及通过图表、图形和表格对数据进行图形表示,这可以进一步帮助可视化和解释信息。常见的图形技术包括直方图、条形图、饼图、散点图和箱线图。
通过使用描述性统计学,研究人员可以有效地总结和传达数据集的关键特征,促进对数据的更好理解,并为进一步的统计分析或决策过程提供基础。
###二、描述性统计学示例
1.示例1:
考试分数 假设你有20名学生在某次考试中的以下分数:
85, 90, 75, 92, 88, 79, 83, 95, 87, 91, 78, 86, 89, 94, 82, 80, 84, 93, 88, 81
为了计算描述性统计学:
- 均值:将所有分数相加,然后除以分数的数量。均值 = (85 + 90 + ... + 81) / 20 = 1770 / 20 = 88.5
- 中位数:将分数按升序排列并找到中间值。中位数 = 86(中间值)
- 众数:识别出现最频繁的分数。众数 = 88
- 范围:计算最高分和最低分之间的差异。范围 = 95 - 75 = 20
- 方差:计算平均值与均值差的平方的平均值。方差 = [(85-88.5)^2 + ... + (81-88.5)^2] / 20 = 33.25
- 标准差:取方差的平方根。标准差 = √33.25 = 5.77
2.示例2:
月收入 考虑一个包含50个人的样本和他们的月收入:
$2,500, $3,000, $3,200, $4,000, $2,800, $3,500, ..., $3,400
为了计算描述性统计学:
- 均值:将所有收入相加,然后除以收入的数量。均值 = ($2,500 + $3,000 + ... + $3,400) / 50 = $166,200 / 50 = $3,324
- 中位数:将收入按升序排列并找到中间值。中位数 = $3,400(中间值)
- 范围:计算最高收入和最低收入之间的差异。范围 = $4,500 - $2,500 = $2,000
- 方差:计算平均值与均值差的平方的平均值。方差 = [($2,500-$3,324)^2 + ... + ($3,400-$3,324)^2] / 50 = $221,684,000 / 50 = $4,433,680
- 标准差:取方差的平方根。标准差 = √$4,433,680 = $2,105.18
这些计算提供了描述性统计学,总结了这些示例中数据的中心趋势、离散度和形状。
### 三、描述性统计学的类型
描述性统计学可以细分为几种类型、特征或度量。一些作者说有两种类型。其他人说有三种甚至四种。
#### 分布(也称为频率分布)
数据集由分数或值的分布组成。统计学家使用图形和表格来总结每个可能的变量值的频率,以百分比或数字呈现。例如,如果你进行了一项民意调查来确定人们最喜欢的披头士成员,你会设置一列包含所有可能的变量(约翰、保罗、乔治和林戈),另一列包含投票数。
统计学家将频率分布描绘成图形或表格。
#### 中心趋势度量
中心趋势度量估计数据集的平均值或中心,使用三种方法找到结果:均值、众数和中位数。
均值:均值也被称为“M”,是寻找平均值最常见的方法。你通过将所有响应值相加,然后将总和除以响应数量或“N”来得到均值。例如,如果有人试图计算他们一周内每天睡多少小时,那么数据集将是小时条目(例如,6,8,7,10,8,4,9),这些值的总和是52。有七个响应,所以N=7。你将52的总和除以N,或7,找到M,在这种情况下是7.3。
众数:众数只是最频繁的响应值。数据集可以有任意数量的众数,包括“零”。你可以通过将数据集的顺序从最低到最高值排列,然后寻找最常见的响应来找到众数。因此,使用我们上次的睡眠研究:4,6,7,8,8,9,10。正如你所看到的,众数是八。
中位数:最后,我们有中位数,定义为数据集精确中心的值。将值按升序排列(就像我们对众数做的那样),并寻找集合中间的数字。在这种情况下,中位数是八。
#### 变异性(也称为离散度)
变异性度量让统计学家了解响应的分布情况。分布有三个方面——范围、标准差和方差。
范围:使用范围来确定最极端值之间的距离。首先从数据集的最高值中减去最低值。再次,我们转向我们的睡眠研究:4,6,7,8,8,9,10。我们将四(最低)从十(最高)中减去,得到六。这是你范围。
标准差:这个方面需要更多的工作。标准差(s)是数据集的平均变异量,显示每个分数与均值的距离。你的标准差越大,你的数据集的变异性就越大。按照以下六个步骤进行:
1. 列出分数及其均值。
2. 通过从每个分数中减去均值来找到偏差。
3. 平方每个偏差。
4. 将所有平方偏差加起来。
5. 将平方偏差的总和除以N-1。
6. 找到结果的平方根。
| | | |
|---|---|---|
| 原始数字/数据 | 均值偏差 | 平方偏差 |
| 4 | 4-7.3= -3.3 | 10.89 |
| 6 | 6-7.3= -1.3 | 1.69 |
| 7 | 7-7.3= -0.3 | 0.09 |
| 8 | 8-7.3= 0.7 | 0.49 |
| 8 | 8-7.3= 0.7 | 0.49 |
| 9 | 9-7.3=1.7 | 2.89 |
| 10 | 10-7.3= 2.7 | 7.29 |
| M=7.3 | 总和 = 0.9 | 平方总和= 23.83 |
当你将平方偏差的总和除以6(N-1):23.83/6,你得到3.971,那个结果的平方根是1.992。因此,我们现在知道每个分数平均偏离均值1.992点。
方差:方差反映了数据集的扩散程度。数据扩散的程度越大,相对于均值的方差就越大。你可以通过平方标准差来得到方差。使用上面的例子,我们将1.992平方得到3.971。
#### 单变量描述性统计
单变量描述性统计一次只检查一个变量,并且不比较变量。相反,它允许研究人员描述个体变量。因此,这种类型的统计也被称为描述性统计。在这种类型的数据中识别出的模式可以使用以下方式解释:
- 中心趋势度量(均值、众数和中位数)
- 数据离散度(标准差、方差、范围、最小值、最大值和四分位数)
- 频率分布表
- 饼图
- 频率多边形直方图
- 条形图
#### 双变量描述性统计
当使用双变量描述性统计时,会同时分析(比较)两个变量,以查看它们是否相关。通常,根据惯例,自变量由列表示,行代表因变量。
双变量数据在现实世界中有无数的应用。例如,估计自然发生的时间非常有价值。双变量数据分析是统计学家工具箱中的工具。有时,只需将一个参数与另一个参数在二维平面上投影,就可以更好地理解信息试图说服你的内容。例如,下面的散点图展示了老忠实间歇泉喷发间隔与喷发持续时间之间的联系。
### 单变量与双变量统计
| | |
|---|---|
| ### 单变量 | ### 双变量 |
| 只涉及一个变量 | 涉及两个变量 |
| 不处理关系或原因 | 处理原因或关系 |
| 单变量的主要目的是描述:- 离散度:方差、范围、标准差、四分位数、最大值、最小值
- 中心趋势:均值、中位数和众数
- 条形图、饼图、直方图、箱须图、折线图
| 双变量的主要目的是解释:- 相关性:比较、解释、原因、关系
- 自变量和因变量
- 只有一个变量依赖于其他变量值的表
- 同时分析两个变量
| ### 描述性统计的主要目的是什么?
描述性统计学可以用于两件事:1)提供有关数据集中变量的基本信息,2)突出变量之间的潜在关系。图形/图像方法是三种最常见的描述性统计的度量,可以以图形或图像方式显示。它用于汇总数据。描述性统计只对用于计算它们的数据集发表声明;它们永远不会超出你的数据。
### 散点图
散点图使用点来表示两个独立的数值变量的值。每个点在水平和垂直轴上的位置代表数据点的值。散点图用于监控变量之间的关系。
散点图的主要目的是检查和显示两个数值变量之间的关系。散点图中的点记录了单个点的值和趋势,当数据作为一个整体获得时。在散点图中,识别相关链接是很普遍的。在这些情况下,我们想知道给定特定的水平值,一个好的垂直值预测会是什么。
当有很多数据点要绘制时,这可能导致过度绘制。当数据点叠加到难以看到它们与变量之间的联系时,这被称为过度绘制。当很多数据点非常密集地聚集在一个小空间时,可能很难看清数据点的密集程度。
有一些简单的方法可以解决这个问题。一种方法是选择数据点的一个子集:随机样本的点仍然可以提供整体数据模式的基本感觉。此外,我们可以通过增加透明度使重叠可见或减小点的大小来改变点的形状,以最小化重叠。
四、应用场景
描述性统计在商业领域有着广泛的应用,它帮助企业分析和理解数据,从而做出更加明智的决策。
1. **市场调研**:通过描述性统计分析消费者行为、偏好和市场趋势,企业可以更好地理解目标市场。
2. **销售分析**:使用描述性统计来总结和解释销售数据,例如总销售额、平均销售额、销售增长率等。
3. **客户分析**:对客户数据进行统计描述,如客户年龄、收入水平、购买频率等,帮助企业制定客户细分策略。
4. **产品管理**:分析产品性能数据,如故障率、使用频率、客户满意度等,以改进产品设计和功能。
5. **库存管理**:利用描述性统计来监控库存水平,预测库存需求,从而优化库存管理。
6. **财务分析**:对公司的财务数据进行描述性统计,如收入、成本、利润、资产负债等,以评估公司的财务健康状况。
7. **人力资源管理**:分析员工数据,如员工年龄、工作年限、离职率等,以优化人力资源策略。
8. **风险管理**:通过描述性统计分析潜在的风险因素,帮助企业制定风险缓解策略。
9. **竞争分析**:对竞争对手的数据进行描述性统计分析,以了解市场地位和竞争优势。
10. **定价策略**:基于对产品成本、市场需求和竞争对手定价的描述性统计分析,制定定价策略。
11. **广告效果评估**:通过描述性统计分析广告投放后的销售数据和市场反应,评估广告效果。
12. **供应链管理**:分析供应链中的数据,如交货时间、成本、效率等,以优化供应链流程。
描述性统计提供了一种快速、直观的方式来理解和解释数据,是商业决策过程中不可或缺的工具。通过这些统计方法,企业能够更好地理解其业务环境,并据此制定有效的商业策略。