非独立联合概率分布
在本科阶段的概率论课程中,通常会涉及到非独立联合概率分布的内容,但侧重点往往在于分析已知分布,而不是从零开始构造复杂的非独立分布。
二元正态分布
这是本科阶段最核心的非独立分布案例。课程会讲解如何通过相关系数 来构造两个随机变量之间的依赖关系。
- 如果 和 是独立的标准正态分布,通过线性变换(如 )可以构造出具有特定相关性的联合分布。
- 你会学习到其联合概率密度函数(PDF),其中相关系数 直接决定了分布的形状和变量间的线性相关性。
边缘分布与条件分布的乘积
这是构造非独立分布最直观的方法,也是本科必考点:
通过给定一个变量的边缘分布和另一个变量相对于它的条件分布,就可以构造出联合分布。
随机变量的函数变换 (Jacobian 矩阵)
选择两个相互独立的随机变量 和 ,它们的联合密度函数 是已知的(通常选最简单的均匀分布或正态分布)。
建立变换关系:定义两个函数 ,令:, ,为了使 和 非独立,通常让 和 同时依赖于同一个源变量。
计算反函数:将 反解为 的函数(假设变换是一一对应的):
根据概率密度变换公式,构造出的 和 的联合密度函数为:
其中 是 Jacobian 行列式的绝对值,定义为:
实例:从独立分布构造非独立分布
假设我们有两个独立的标准正态分布变量 。我们想构造两个具有相关性的变量 。
步骤 1:定义变换(线性组合构造相关性)
设定一个相关系数 :
- (这里 同时包含了 和 ,因此 和 必然相关)
步骤 2:反解变量
步骤 3:计算 Jacobian 行列式
步骤 4:写出最终的联合分布
因为 独立且为正态分布,它们的联合密度是:
代入 的表达式和 :
整理后,这就是标准的二元正态分布密度函数。
超矩形
是数轴上的一个线段。
代表平面上的一个矩形。它的横坐标在 到 之间,纵坐标在 到 之间。
是日常生活中见到的长方体。
当 时,虽然我们无法直观想象它的样子,但在数学上它依然遵循同样的规则,被称为超矩形。
表示这个超矩形被限制在一个单位超正方体内。也就是说,所有的坐标值都在 0 到 1 之间。
应用:
- 测度论:勒贝格测度
- 计算几何:空间索引(k-d 树, R 树)、正交范围查询、碰撞检测(AABB 理论)
C-体积
C-体积定义为概率分布函数在多维空间中对一个超矩形所定义的概率质量
一维情况: 如果 是分布函数,区间 的概率是
二维情况: 对于矩形 ,其 -体积(即落在这个矩形内的概率)计算如下:
这个公式的逻辑是:取大矩形的右上角值,减去上方和左方的多余部分,由于左下角部分被减了两次,所以要加回来一次(容斥原理)。
对于 -维超矩形 ,-体积定义为函数 在该矩形顶点处的符号加权求和:
其中,顶点 的符号权重由下式决定:
- 如果 的分量个数是偶数,则符号为正 ()。
- 如果 的分量个数是奇数,则符号为负 ()。
Copula的定义
一个 -维 Copula 是一个映射 ,表现为多元联合累积分布函数(CDF),满足以下性质:
- 边界性(Grounded): 如果任何一个参数 ,则 。
- 边缘均匀性(Uniform Margins): 如果除了 以外的所有参数都为 1,则函数值等于 。
- d-递增性(d-increasing): 对于任意超矩形 (其中 ),该矩形上的 -体积是非负的。
- 这保证了它对应的概率密度函数是非负的。
与普通联合CDF的区别:
- 普通联合 CDF:描述的是具体的观测值(如:身高 和体重 )同时发生的概率。
- Copula:描述的是分位数(如:身高处于前 且体重处于前 )同时发生的概率。
- Copula相当于去除量纲后的联合CDF
Sklar 定理
令 为一个具有边缘分布函数 的 -维联合分布函数。那么,存在一个 Copula 函数 ,使得对所有 :
反之亦然,如果 是连续分布函数,那么 是唯一确定的,且可以通过下式构造:
其中 ,即 是数据经过累积分布函数(CDF)变换后的值(也就是将任意分布的数据映射到了 区间)。
Copula 出现前后对比
目标: 构建一个双变量分布 ,满足以下两个条件:
- 边缘分布: 和 都要服从指数分布(即 )。
- 相关性:两者要有很强的正相关性(比如 )。
我们来看看在 Copula 理论普及之前和之后,数学家是如何完成这个任务的,以及推导过程有何不同。
Copula 出现之前
方法:硬凑公式
在 Sklar 定理成为主流工具之前,数学家如果想让边缘分布保持指数分布,通常采用FGM (Farlie-Gumbel-Morgenstern) 构造法。
他们的思路是:在独立分布 的基础上加一个小小的扰动项。
假设我们希望联合分布 是这样的形式:
其中 是关联参数。
代入指数分布 :
验证边缘分布:
为了保证这个公式合法,必须验证当 时, 是否变回了 。
计算相关系数 :
经过计算(中间过程放在附录),对于 FGM 分布,相关系数 和参数 的关系是:
数学悲剧发生了:
为了保证 是一个合法的概率分布(即概率密度 ),参数 必须满足 。
这意味着:
结论: 在旧的数学框架下,你费尽心机凑出的这个公式,最高只能描述 0.25 的相关性。
FGM 分布本质上是对独立性的一种一阶线性扰动。因为它只使用了边缘分布及其一阶补码的乘积,所以它无法捕捉变量之间深层或非线性的依赖关系,这导致了它只能描述极弱的相关性。
Copula 出现之后
方法:模块化组装
现在我们有了 Sklar 定理。我们不再需要去凑一个整体公式,而是像搭积木一样。
选择组件:
- 积木 A (边缘分布): ,
- 积木 B (Copula): 我们选一个能描述强相关的 Copula,比如 Clayton Copula(甚至可以描述 的情况):
根据 Sklar 定理 ,我们直接把 和 的表达式塞进去:
这就结束了!这就是我们要的解析式。
对比:概率密度函数 (PDF) 的推导
为了让你感受微积分层面的差异,我们对比一下求 概率密度函数 (PDF) 的过程。
传统方法
你必须对那个复杂的、硬凑出来的整体大公式直接求偏导。如果公式本身很丑(为了满足边缘条件凑得很复杂),求导过程会是一场噩梦,而且很容易出错。
Copula 方法
利用链式法则,PDF 的公式是通用的、解耦的:
其中 是 Copula 的密度。
这一公式的物理意义极强:
- :这是假设两者独立时的概率密度。
- :这是一个修正系数(权重)。
- 如果某处 ,说明这里发生的概率比独立时更高(正相关区域)。
- 如果某处 ,说明这里发生的概率比独立时更低。
常见的 Copula 家族结构
椭圆 Copula (Elliptical Copulas)
这类 Copula 来源于椭圆分布(如正态分布、t分布)。它们保留了相关系数矩阵的概念。
- Gaussian Copula (高斯 Copula):
- $\Phi_{\rho}$ 是相关系数为 $\rho$ 的二元标准正态分布函数。
- $\Phi^{-1}$ 是标准正态分布的逆函数。
- _特点:_ 没有尾部相关性(极端情况下变量趋于独立)。
2. t-Copula:源于多元 t-分布。 - 特点:具有尾部相关性(Tail Dependence)。即使相关系数为0,在极端值时也可能表现出相关,这在金融危机建模中至关重要。
阿基米德 Copula (Archimedean Copulas)
这类 Copula 不是从分布函数推导出来的,而是通过一个生成元函数 (Generator Function) 构建的。结构非常优雅。
一般形式:
其中 是一个连续、严格递减的凸函数,且 。
常见的阿基米德 Copula 包括:
- Clayton Copula: 下尾相关性强(适合模拟大跌时一起跌的市场)。
- Gumbel Copula: 上尾相关性强。
- Frank Copula: 对称依赖结构。
尾部依赖
这是学习 Copula 结构时必须掌握的一个指标。它衡量的是:当一个变量出现极端值时,另一个变量也出现极端值的概率。
定义下尾依赖系数 :
- 对于 Gaussian Copula,(除非 )。
- 对于 Clayton Copula,。
这意味着如果用 Gaussian Copula 去模拟金融危机,你会严重低估风险,因为你忽略了极端的共同崩溃概率。
附录
一个经典FGM问题
这是一个经典的 Farlie-Gumbel-Morgenstern (FGM) 分布族的一个特例。
在这个问题中,边缘分布是标准的指数分布。我们可以通过以下步骤计算相关系数 。
1. 确定边缘分布 (Marginal Distributions)
首先,我们需要找出 和 各自的累积分布函数 (CDF) 和概率密度函数 (PDF)。
令 ,则 。边缘分布 为:
同理,
可以看出, 和 服从参数为 的标准指数分布。
对于标准指数分布:
- 期望 (Mean):
- 方差 (Variance):
- 标准差:
2. 计算联合概率密度函数
联合概率密度函数 是联合 CDF 的混合二阶偏导数:
通过对给定的 求导(或者利用 FGM 分布的通用公式),我们可以得到:
3. 计算
相关系数公式为:
由于已知 ,公式简化为:
我们需要计算 :
将 代入:
这个积分可以拆分为两部分:
第一部分 (独立项):
第二部分 (交叉项):
由于 和 的积分形式完全相同,我们只需要计算其中一个积分 :
利用积分公式 :
- 对于第一项 ():
- 对于第二项 ():
所以:
因此,第二部分的值为:
合并两部分:
4. 最终结果
计算协方差 (Covariance):
计算相关系数 (Correlation Coefficient):
结论:
注意:为了保证 是合法的概率密度函数(即始终非负),参数 的取值范围通常限制在 之间。因此,这种分布的相关系数 的范围被限制在 之间。