文章 | 密码学基础:前置知识
新学期选修密码学,第一节课记了这些笔记,于是退课。
对于给定的有限集合 Ω={a1,a2,⋯,an},如果变量 X 满足 ∀a∈Ω,Pr[X=a]=p(a),其中 p(x) 是映射 p(x):Ω→[0,1],且满足 ∑a∈Ωp(a)=1,那么称 X 是 Ω 上的一个服从概率分布(distribution) p 的离散随机变量(random variable)。
对概率分布 p,可以定义其熵(entropy):H(p)=∑a∈Ωp(a)logp(a)1,这也被称为随机变量 X 的熵 H(X)。
根据函数 f(x)=xlogx1 的凸性,可知当概率分布中各项的概率相等时,即 p(a)=∣Ω∣1,熵达到最大值 H(p)=log∣Ω∣。这样的分布称为均匀分布(uniform distribution)。
对于多个离散随机变量,可以定义联合分布(joint distribution)。如果 p(x,y):Ω1×Ω2→[0,1] 满足 ∀a∈Ω1,b∈Ω2,Pr[X=a,Y=b]=p(a,b),那么称 X,Y 服从联合分布 p,记作 (X,Y)∼p。
同样地,可以定义多个随机变量的联合熵(joint entropy):若(X,Y)∼p,定义 H(X,Y)=∑a∈Ω1b∈Ω2p(a,b)logp(a,b)1。
给定联合分布后,可以重新计算每个变量单独的分布,称为这个变量的边缘分布(marginal distribution):p1(a)=∑b∈Ω2p(a,b),p2(b)=∑a∈Ω1p(a,b)。
如果联合分布可以表示为边缘分布的乘积,称这两个随机变量独立(independent)。
当两个变量 X,Y 独立时,计算得
H(X,Y)=a∈Ω1b∈Ω2∑p(a,b)logp(a,b)1=a∈Ω1b∈Ω2∑p(a)p(b)(logp(a)1+logp(b)1)=b∈Ω2∑p(b)a∈Ω1∑p(a)logp(a)1+a∈Ω1∑p(a)b∈Ω2∑p(b)logp(b)1=H(X)+H(Y) 通过条件概率,可以定义一个随机变量 X 关于随机事件 e 的条件熵(conditional entropy):H(X∣e)=∑a∈ΩPr[X=a∣e]logPr[X=a∣e]1。
随机变量 X 相对于随机变量 Y 的条件熵等于 X 关于 Y 的某一取值的条件熵在 Y 的边缘分布下的期望:H(X∣Y)=∑b∈Ω2Pr[Y=b]H(X∣Y=b)。
对上式变形,可以得出条件熵另外的两种表示:
H(X∣Y)=b∈Ω2∑Pr[Y=b]H(X∣Y=b)=b∈Ω2∑Pr[Y=b]a∈Ω1∑Pr[X=a∣Y=b]logPr[X=a∣Y=b]1=a∈Ω1b∈Ω2∑Pr[X=a,Y=b]logPr[X=a,Y=b]Pr[Y=b] H(X∣Y)=a∈Ω1b∈Ω2∑Pr[X=a,Y=b]logPr[X=a,Y=b]Pr[Y=b]=a∈Ω1b∈Ω2∑Pr[X=a,Y=b]logPr[X=a,Y=b]1−b∈Ω2∑(a∈Ω1∑Pr[X=a,Y=b])logPr[Y=b]1=H(X,Y)−b∈Ω2∑Pr[Y=b]logPr[Y=b]1=H(X,Y)−H(Y) 互信息(mutual information)用于衡量两个随机变量的相关性。其定义为以一个随机变量为条件后,熵的减少值。
I(X;Y)=H(X)−H(X∣Y) 代入 H(X∣Y)=H(X,Y)−H(X) ,得到
I(X;Y)=H(X)+H(Y)−H(X,Y) 从这里可以看出互信息是对称的。因此有
I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y) 进一步变形,可以得到
I(X;Y)=a∈Ω1∑p1(a)logp1(a)1+b∈Ω2∑p2(b)logp2(b)1−a∈Ω1b∈Ω2∑p(a,b)logp(a,b)1=a∈Ω1∑(b∈Ω2∑p(a,b))logp1(a)1+b∈Ω2∑(a∈Ω1∑p(a,b))logp2(b)1−a∈Ω1b∈Ω2∑p(a,b)logp(a,b)1=a∈Ω1b∈Ω2∑p(a,b)logp(a)p(b)p(a,b) 于是可以证明互信息的非负性:
I(X;Y)=a∈Ω1b∈Ω2∑p(a,b)logp(a)p(b)p(a,b)=−a∈Ω1b∈Ω2∑p(a,b)logp(a,b)p(a)p(b)≥−loga∈Ω1b∈Ω2∑p(a,b)p(a,b)p(a)p(b)=0 由此可知 H(X∣Y)≤H(X)。
当随机变量 X 与 Y 独立时,有 H(X,Y)=H(X)+H(Y),可知 H(X∣Y)=H(X),H(Y∣X)=H(Y),I(X;Y)=0。
反过来,当互信息 I(X;Y)=0 时,从上面不等式的取等条件可以看出,p(a,b)p(a)p(b) 不依赖于 a,b 的选取,进而可知 X 与 Y 独立。
当随机变量 Y 完全依赖于 X 时,也即 Pr[X=a,Y=b]={1,0,b=f(a)otherwise ,有
H(X,Y)=a∈Ωb∈f(Ω)∑p(a,b)logp(a,b)1=a∈Ω∑p(a,f(a))logp(a,f(a))1=a∈Ω∑p(a)logp(a)1=H(X) 因此,I(X;Y)=H(Y)。
对于多于两个的随机变量 X1,X2,⋯,Xn,记其概率分布为 p:Ω1×Ω2×⋯×Ωn→[0,1],以及每个变量的边缘分布 Xi∼pi,于是可以定义多元联合熵
H(X1,X2,⋯,Xn)=x1∈Ω1∑x2∈Ω2∑⋯xn∈Ωn∑p(x1,x2⋯,xn)logp(x1,x2⋯,xn)1 以及关于随机事件 e 的多元条件熵
H(X1,X2,⋯,Xn∣e)=x1∈Ω1∑x2∈Ω2∑⋯xn∈Ωn∑p(x1,x2⋯,xn∣e)logp(x1,x2⋯,xn∣e)1 考虑三个随机变量 X,Y,Z 的条件熵,定义
H(X,Y∣Z)=z∑Pr[Z=z]⋅H(X,Y∣Z=z)=x∑y∑z∑Pr[Z=z]⋅Pr[X=x,Y=y∣Z=z]logPr[X=x,Y=y∣Z=z]1=x∑y∑z∑Pr[X=x,Y=y,Z=z](logPr[X=x,Y=y,Z=z]1−logPr[Z=z]1)=H(X,Y,Z)−z∑(x∑y∑Pr[X=x,Y=y,Z=z])logPr[Z=z]1=H(X,Y,Z)−z∑Pr[Z=z]logPr[Z=z]1=H(X,Y,Z)−H(Z) 接下来定义关于随机事件 e 的条件互信息
I(X;Y∣e)=H(X∣e)+H(Y∣e)−H(X,Y∣e) 以及关于随机变量的条件互信息
I(X;Y∣Z)=z∑Pr[Z=z]⋅I(X;Y∣Z=z)=z∑Pr[Z=z]⋅(H(X∣Z=z)+H(Y∣Z=z)−H(X,Y∣Z=z))=H(X∣Z)+H(Y∣Z)−H(X,Y∣Z) 继续定义多元互信息
I(X1;X2;⋯;Xn)=i=1∑nH(Xi)−1≤i<j≤n∑H(Xi,Hj)+⋯+(−1)n−1H(X1,X2,⋯,Xn) 特别地,有三元互信息
I(X;Y;Z)=H(X)+H(Y)+H(Z)−H(X,Y)−H(X,Z)−H(Y,Z)+H(X,Y,Z)=H(X)+H(Y)−H(X,Y)+2H(Z)−H(X,Z)−H(Y,Z)+H(X,Y∣Z)=I(X;Y)−H(X∣Z)−H(Y∣Z)+H(X,Y∣Z)=I(X;Y)−I(X;Y∣Z) 仿照二元互信息,可知
I(X;Y∣e)=x∑y∑Pr[X=x,Y=y∣e]logPr[X=x∣e]⋅Pr[Y=y∣e]Pr[X=x,Y=y∣e] 于是
I(X;Y∣Z)=x∑y∑z∑Pr[Z=z]⋅Pr[X=x,Y=y∣Z=z]⋅logPr[X=x∣Z=z]⋅Pr[Y=y∣Z=z]Pr[X=x,Y=y∣Z=z]=x∑y∑z∑Pr[X=x,Y=y,Z=z]⋅(logPr[X=x,Z=z]⋅Pr[Y=y,Z=z]Pr[X=x,Y=y,Z=z]−logPr[Z=z]1)=−H(Z)−x∑y∑Pr[X=x,Y=y]z∑Pr[X=x,Y=y]Pr[X=x,Y=y,Z=z]⋅logPr[X=x,Y=y,Z=z]Pr[X=x,Z=z]⋅Pr[Y=y,Z=z]≤−H(Z)−x∑y∑Pr[X=x,Y=y]⋅logz∑Pr[X=x,Y=y]Pr[X=x,Y=y,Z=z]⋅Pr[X=x,Y=y,Z=z]Pr[X=x,Z=z]⋅Pr[Y=y,Z=z]=−H(Z)−x∑y∑Pr[X=x,Y=y]⋅(logPr[X=x,Y=y]1+logz∑Pr[X=x,Z=z]⋅Pr[Y=y,Z=z]) 对实数域上的离散随机变量 X,记期望 E(X)=∑a∈Ωap(a),当 X 恒非负时,有马尔可夫不等式(Markov inequality):
Pr[X≥a]=a∑b∈Ωb≥aap(b)≤a∑b∈Ωb≥abp(b)≤a∑b∈Ωbp(b)=aE(X) 如果 X 是另一个随机变量 Y 到其均值的距离的平方,则有切比雪夫不等式(Chebyshev inequality):
Pr[∣Y−EY∣≥c]=Pr[(Y−EY)2≥c2]≤c2E((Y−EY)2)=c2D(Y) 切比雪夫不等式描述了方差与随机变量偏离均值的程度之间的关系。
对于一般的多个随机变量 X1,X2,⋯,Xn,记 X=∑i=1nXi,代入切比雪夫不等式有
Pr[∣∣n1i=1∑nXi−n1i=1∑nEXi∣∣≥c]=Pr[∣∣i=1∑nXi−i=1∑nEXi∣∣≥nc]≤n2c2D(X)=n2c21i=1∑nDXi 若 X1,X2,⋯,Xn 是同分布的,记均值 μ=E(Xi),方差 σ2=D(Xi),则
Pr[∣∣n1i=1∑nXi−μ∣∣≥c]≤nc2σ2 令 n→∞,则
n→∞limPr[∣∣n1i=1∑nXi−μ∣∣≥c]=0 这就是弱大数定律(weak law of large numbers)。
如果对 X1,X2,⋯,Xn 有更多假设,可以给出比弱大数定律更强的估计。
若 X1,X2,⋯,Xn 为独立泊松实验,即 Xi∈{0,1},Pr[Xi=1]=pi,记 X=∑i=1nXi ,μ=EX=∑i=1npi,那么
Pr[i=1∑nXi≥(1+δ)μ]=Pr[etX≥e(1+δ)tμ]≤e(1+δ)tμE(etX)=e(1+δ)tμ1i=1∏nE(etXi)=e(1+δ)tμ1i=1∏n(piet+1−pi)≤e(1+δ)tμ1i=1∏nexp(pi(et−1))=e(1+δ)tμ1exp(i=1∑npi(et−1))=exp((1+δ)tμ)exp(μ(et−1))=exp(μ(1+δ)(et−ln(1+δ)−1+δ1−t)) 令 t=ln(1+δ),则
Pr[i=1∑nXi≥(1+δ)μ]≤((1+δ)1+δeδ)μ 同理,有
Pr[i=1∑nXi≤(1−δ)μ]≤((1−δ)1−δe−δ)μ 此二式称为切诺夫界(Chernoff bound)。
Loading...