周统计

一周统计学速成：一场略带讽刺的深度探索

本周，我们将深入浅出地探讨统计学的核心概念，力求以严谨的技术手法解释基本原理，并辅以轻松的讽刺，让学习过程更轻松有趣。本文将详细分解我的统计学习之旅，涵盖理论知识、实际案例和 Python 代码实现。

1. 描述性统计：数据概述

描述性统计是将原始数据进行总结和整理，使其更易于理解和解释的工具。它是数据分析的第一步，为后续分析奠定基础。

数据类型

名义数据:
- 定性数据，类别之间无序。
- 例如：颜色（红、绿、蓝）、品牌（、三星）。
- 可进行的操作：计数、众数计算。
顺序数据:
- 定性数据，类别之间有顺序，但数值差异无法衡量。
- 例如：教育程度（高中、本科、研究生）、满意度等级（差、一般、好）。
- 可进行的操作：排名、中位数计算。
区间数据:
- 定量数据，数值差异有意义，但无绝对零点。
- 例如：温度（摄氏度、华氏度）。
- 可进行的操作：加法、减法。
比率数据:
- 定量数据，数值差异有意义，有绝对零点。
- 例如：体重、身高、收入。
- 可进行的操作：所有算术运算。

集中趋势度量

平均数: 数据值的算术平均值。
中位数: 排序后数据集中间的数值。
众数: 数据集中出现频率最高的数值。

Python 示例：

import numpy as np from scipy import stats  # 样本数据 data = [12, 15, 14, 10, 12, 17, 18]  mean = np.mean(data) median = np.median(data) mode = stats.mode(data).mode[0]  print(f"平均数: {mean}, 中位数: {median}, 众数: {mode}")

登录后复制

2. 离散度度量：展现数据波动

集中趋势度量展现了数据的中心位置，而离散度度量则反映了数据的离散程度或波动性。

关键指标

方差 (σ² 表示总体，s² 表示样本):
- 数据与平均值的平均平方差。
- 总体方差公式：σ² = Σ(xᵢ – μ)² / n
- 样本方差公式：s² = Σ(xᵢ – x̄)² / (n-1)
标准差 (σ 表示总体，s 表示样本):
- 方差的平方根，与数据具有相同的单位。
偏度:
- 描述数据分布的不对称性。
- 正偏斜：尾部向右延伸。
- 负偏斜：尾部向左延伸。

Python 示例：

std_dev = np.std(data, ddof=1)  # 样本标准差 variance = np.var(data, ddof=1)  # 样本方差  print(f"标准差: {std_dev}, 方差: {variance}")

登录后复制

3. 概率分布：数据行为模型

概率分布描述了随机变量取值的概率分布情况。

概率函数

概率质量函数 (PMF):
- 用于离散随机变量。
- 例如：掷骰子。
概率密度函数 (PDF):
- 用于连续随机变量。
- 例如：人的身高。
累积分布函数 (CDF):
- 表示随机变量取值小于或等于某个值的概率。

Python 示例：

from scipy.stats import norm  # 正态分布的 PDF 和 CDF x = np.linspace(-3, 3, 100) pdf = norm.pdf(x, loc=0, scale=1) cdf = norm.cdf(x, loc=0, scale=1)  print(f"x=1 处的 PDF: {norm.pdf(1)}") print(f"x=1 处的 CDF: {norm.cdf(1)}")

登录后复制

分布类型

正态/高斯分布:
- 对称的钟形曲线。
- 例如：身高、考试成绩。
二项分布:
- n 次独立伯努利试验中成功的次数。
- 例如：抛硬币。
泊松分布:
- 固定时间间隔内事件发生次数的概率。
- 例如：每小时收到的邮件数量。
对数正态分布:
- 对数服从正态分布的变量的分布。
幂律分布:
- 例如：财富分配、互联网流量。

正态分布的 Python 示例：

import matplotlib.pyplot as plt samples = np.random.normal(0, 1, 1000) plt.hist(samples, bins=30, density=True, alpha=0.6, color='g') plt.title('正态分布') plt.show()

登录后复制

4. 推断统计：从样本推断总体

推断统计允许我们根据样本数据对总体进行推断。

关键概念

点估计:
- 参数的最佳单点估计值。
置信区间:
- 参数可能取值的范围。
假设检验:
- 原假设 (H₀): 默认假设。
- 备择假设 (Hₐ): 要检验的假设。
- p 值: 在原假设成立的情况下，观察到当前结果或更极端结果的概率。
t 分布:
- 用于小样本的情况。

假设检验的 Python 示例：

from scipy.stats import ttest_1samp  # 样本数据 data = [1.83, 1.91, 1.76, 1.77, 1.89] population_mean = 1.80  statistic, p_value = ttest_1samp(data, population_mean) print(f"t 统计量: {statistic}, p 值: {p_value}")

登录后复制

5. 中心极限定理 (CLT)

CLT 指出，无论总体分布如何，样本均值的分布都随着样本量的增加而趋近于正态分布。

Python 示例：

sample_means = [np.mean(np.random.randint(1, 100, 30)) for _ in range(1000)] plt.hist(sample_means, bins=30, density=True, alpha=0.6, color='b') plt.title('中心极限定理') plt.show()

登录后复制

结语

本周，我们对统计学这门引人入胜（有时也略显枯燥）的学科进行了深入探索。从数据概述到概率分布再到统计推断，这是一段充满收获的学习旅程。让我们继续探索数据科学的奥秘，一起披荆斩棘！

以上就是周统计的详细内容，更多请关注php中文网其它相关文章！

甲倪知识

1. 描述性统计：数据概述

数据类型

集中趋势度量

Python 示例：

2. 离散度度量：展现数据波动

关键指标

Python 示例：

3. 概率分布：数据行为模型

概率函数

Python 示例：

分布类型

正态分布的 Python 示例：

4. 推断统计：从样本推断总体

关键概念

假设检验的 Python 示例：

5. 中心极限定理 (CLT)

Python 示例：

结语

作者: nijia

发表评论取消回复

联系我们

微信扫一扫关注我们

1. 描述性统计：数据概述

数据类型

集中趋势度量

Python 示例：

2. 离散度度量：展现数据波动

关键指标

Python 示例：

3. 概率分布：数据行为模型

概率函数

Python 示例：

分布类型

正态分布的 Python 示例：

4. 推断统计：从样本推断总体

关键概念

假设检验的 Python 示例：

5. 中心极限定理 (CLT)

Python 示例：

结语

给这篇文章的作者打赏

作者: nijia

相关文章

Laravel CORS 中间件配置示例

distinct多个字段用法

Laravel 产品添加到购物车功能示例

数据库distinct用法 数据库distinct用法简述

Docker 的开发：第 3 集

distinct函数用法 distance函数c++用法教程

发表评论 取消回复

联系我们

微信扫一扫关注我们

数据库distinct用法数据库distinct用法简述

发表评论取消回复