数学与统计问题解析及应用

table {
border-collapse: collapse;
width: 100%;
margin-bottom: 1rem;
}
th, td {
border: 1px solid #ddd;
padding: 8px;
text-align: left;
}
th {
background-color: #f2f2f2;
}
tr:nth-child(even) {
background-color: #f9f9f9;
}
pre {
background-color: #f8f8f8;
padding: 15px;
border-radius: 4px;
overflow-x: auto;
}

1、将向量 x1 := [2 3]，x2 := [0 -1] 旋转 30°。

根据二维旋转矩阵 $ R( heta) =
[cosθ−sinθ sinθcosθ][cos⁡θ−sin⁡θ sin⁡θcos⁡θ] $，当 $ heta = 30^circ $ 时，

R(30∘)=[cos30∘−sin30∘ sin30∘cos30∘]=[3√2−12 123√2]R(30∘)=[cos⁡30∘−sin⁡30∘ sin⁡30∘cos⁡30∘]=[32−12 1232]

向量 $ x_1 =
[2 3][2 3] $ 旋转后的向量为：

R(30∘)x1=[3√2−12 123√2][2 3]=[3–√−32 1+33√2]R(30∘)x1=[32−12 1232][2 3]=[3−32 1+332]

向量 $ x_2 =
[0 −1][0 −1] $ 旋转后的向量为：

R(30∘)x2=[3√2−12 123√2][0 −1]=[12 −3√2]R(30∘)x2=[32−12 1232][0 −1]=[12 −32]

所以 $ x_1 $ 旋转后的向量是 $
[3–√−32 1+33√2][3−32 1+332] $，$ x_2 $ 旋转后的向量是 $
[12 −3√2][12 −32] $。

2、计算逻辑斯谛Sigmoid函数f(x) = 1 / (1 + exp(−x))的导数f′(x)。

首先，设 $ u = 1 + e^{-x} $，则

f(x)=1u=u−1f(x)=1u=u−1

根据复合函数求导的链式法则：

f′(x)=dfdu⋅dudxf′(x)=dfdu⋅dudx

先对 $ f(u) = u^{-1} $ 关于 $ u $ 求导，根据求导公式 $ (x^n)’ = nx^{n – 1} $，可得：

dfdu=−u−2=−1u2dfdu=−u−2=−1u2

再对 $ u = 1 + e^{-x} $ 关于 $ x $ 求导：

dudx=−e−xdudx=−e−x

然后将 $ frac{df}{du} $ 与 $ frac{du}{dx} $ 相乘：

f′(x)=dfdu⋅dudx=(−1u2)⋅(−e−x)=e−x(1+e−x)2f′(x)=dfdu⋅dudx=(−1u2)⋅(−e−x)=e−x(1+e−x)2

对其进行变形：

f′(x)=e−x(1+e−x)2=(11+e−x)⋅(e−x1+e−x)=(11+e−x)⋅(1−11+e−x)f′(x)=e−x(1+e−x)2=(11+e−x)⋅(e−x1+e−x)=(11+e−x)⋅(1−11+e−x)

因为：

f(x)=11+e−xf(x)=11+e−x

所以：

f′(x)=f(x)(1−f(x))f′(x)=f(x)(1−f(x))

3、计算函数 f(x) = exp(−1 / (2σ²) * (x − µ)²) 的导数 f′(x)，其中 µ, σ ∈ R 为常数。

本题可使用复合函数求导的链式法则来计算导数。

设

u=−12σ2⋅(x−μ)2u=−12σ2⋅(x−μ)2

则

f(x)=euf(x)=eu

根据链式法则

(f(g(x)))′=f′(g(x))⋅g′(x)(f(g(x)))′=f′(g(x))⋅g′(x)

先对 $ e^u $ 关于 $ u $ 求导，再乘以 $ u $ 关于 $ x $ 的导数。

求 $ e^u $ 关于 $ u $ 的导数

：

根据指数函数求导公式 $ (e^x)’ = e^x $，可得

ddu(eu)=euddu(eu)=eu

求 $ u $ 关于 $ x $ 的导数

：

对

u=−12σ2⋅(x−μ)2u=−12σ2⋅(x−μ)2

求导，根据复合函数求导法则，设

v=x−μv=x−μ

则

u=−12σ2⋅v2u=−12σ2⋅v2

先对 $ u $ 关于 $ v $ 求导：

dudv=−12σ2⋅2v=−vσ2dudv=−12σ2⋅2v=−vσ2

再对 $ v $ 关于 $ x $ 求导：

dvdx=1dvdx=1

根据链式法则

dudx=dudv⋅dvdxdudx=dudv⋅dvdx

可得

dudx=−x−μσ2dudx=−x−μσ2

求 $ f(x) $ 关于 $ x $ 的导数

：

根据链式法则

dfdx=dfdu⋅dudxdfdx=dfdu⋅dudx

将

dfdu=eudfdu=eu

和

dudx=−x−μσ2dudx=−x−μσ2

代入可得：

dfdx=e−12σ2⋅(x−μ)2⋅(−x−μσ2)=−x−μσ2⋅e−12σ2⋅(x−μ)2dfdx=e−12σ2⋅(x−μ)2⋅(−x−μσ2)=−x−μσ2⋅e−12σ2⋅(x−μ)2

所以

，函数

f(x)=exp(−12σ2⋅(x−μ)2)f(x)=exp⁡(−12σ2⋅(x−μ)2)

的导数为

f′(x)=−x−μσ2⋅e−12σ2⋅(x−μ)2f′(x)=−x−μσ2⋅e−12σ2⋅(x−μ)2

4、a. ∂fi / ∂x的维度是多少？b. 计算雅可比矩阵。已知f1(x) = sin(x1) cos(x2)，其中x = [x1, x2]⊤ ∈R2；f2(x, y) = x⊤y，其中x, y ∈Rn；f3(x) = xx⊤，其中x ∈Rn

a. 对于 $ f_1 $，$ frac{partial f_1}{partial x} $ 维度为 $ 1 imes 2 $；对于 $ f_2 $，$ frac{partial f_2}{partial x} $ 维度为 $ 1 imes n $；对于 $ f_3 $，$ frac{partial f_3}{partial x} $ 维度为 $ n imes n $。

b. 对于 $ f_1 $，雅可比矩阵

J1=[cos(x1)cos(x2), −sin(x1)sin(x2)]J1=[cos⁡(x1)cos⁡(x2), −sin⁡(x1)sin⁡(x2)]

对于 $ f_2 $，雅可比矩阵

J2=y⊤J2=y⊤

对于 $ f_3 $，雅可比矩阵 $ J_3 $ 的第 $ i $ 行第 $ j $ 列元素为

$$

frac{partial (xx^ op)

{ij}}{partial x_j}

$$

其中 $ (xx^ op)

{ij} = x_i x_j $，当 $ i = j $ 时，

$$

frac{partial (xx^ op)

{ij}}{partial x_j} = 2x_i

当$i≠j$时，当$i≠j$时，

frac{partial (xx^ op)

{ij}}{partial x_j} = x_i

$$

5、你编写了一个计算机程序，该程序有时能编译成功，有时不能。你决定使用参数为µ的伯努利分布来对编译器的这种随机情况（成功与不成功）x进行建模。为伯努利似然函数选择一个共轭先验，并计算后验分布p(µ | x1, …, xN)。

对于伯努利分布的似然函数，其共轭先验是 Beta 分布。

设先验分布为 µ ∼ Beta(α, β)，概率密度函数为：

p(μ∣α,β)=Γ(α+β)Γ(α)Γ(β)μα−1(1−μ)β−1p(μ∣α,β)=Γ(α+β)Γ(α)Γ(β)μα−1(1−μ)β−1

若观察到 $ N $ 次结果 $ x_1, ldots, x_N $，设其中成功的次数为：

h=∑i=1Nxih=∑i=1Nxi

根据贝叶斯定理，后验分布为：

p(μ∣x1,…,xN)∝p(x1,…,xN∣μ)p(μ∣α,β)p(μ∣x1,…,xN)∝p(x1,…,xN∣μ)p(μ∣α,β)

由于伯努利分布：

p(xi∣μ)=μxi(1−μ)1−xip(xi∣μ)=μxi(1−μ)1−xi

因此：

p(x1,…,xN∣μ)=∏i=1Np(xi∣μ)=μh(1−μ)N−hp(x1,…,xN∣μ)=∏i=1Np(xi∣μ)=μh(1−μ)N−h

代入先验分布后，有：

p(μ∣x1,…,xN)∝μh(1−μ)N−h⋅μα−1(1−μ)β−1=μh+α−1(1−μ)(N−h)+β−1p(μ∣x1,…,xN)∝μh(1−μ)N−h⋅μα−1(1−μ)β−1=μh+α−1(1−μ)(N−h)+β−1

即后验分布为：

p(μ∣x1,…,xN)∼Beta(h+α,N−h+β)p(μ∣x1,…,xN)∼Beta(h+α,N−h+β)

6、有两个袋子。第一个袋子里有四个芒果和两个苹果；第二个袋子里有四个芒果和四个苹果。我们还有一枚有偏硬币，它正面朝上的概率是0.6，反面朝上的概率是0.4。如果硬币正面朝上，我们从袋子1中随机挑选一个水果；否则我们从袋子2中随机挑选一个水果。你的朋友掷了硬币（你看不到结果），从相应的袋子中随机挑选了一个水果，并给你拿了一个芒果。这个芒果是从袋子2中挑选出来的概率是多少？

可根据贝叶斯定理进行计算。设事件A为拿到芒果，事件B₁为从袋子1中取水果，事件B₂为从袋子2中取水果。

P(B₁) = 0.6

P(B₂) = 0.4

P(A|B₁) = 4 / (4 + 2) = 2/3

P(A|B₂) = 4 / (4 + 4) = 1/2

根据贝叶斯定理：

代入数值：

P(B₂|A)=0.4×120.6×23+0.4×12=0.20.4+0.2=13P(B₂|A)=0.4×120.6×23+0.4×12=0.20.4+0.2=13

所以这个芒果是从袋子2中挑选出来的概率是

1/3

。

7、考虑单变量函数f(x) = x³ + 6x² – 3x – 5。求其驻点，并指出它们是极大值点、极小值点还是鞍点。

函数极值分析

首先，对函数 $ f(x) = x^3 + 6x^2 – 3x – 5 $ 求一阶导数，令 $ f’(x) = 0 $ 来确定驻点。

一阶导数为：

f′(x)=3×2+12x−3f′(x)=3×2+12x−3

令 $ f’(x) = 0 $，即：

3×2+12x−3=03×2+12x−3=0

化简为：

x2+4x−1=0x2+4x−1=0

根据一元二次方程求根公式：

x=−b±b2−4ac−−−−−−−√2ax=−b±b2−4ac2a

其中 $ a = 1 $，$ b = 4 $，$ c = -1 $，可得：

x=−4±42−4×1×(−1)−−−−−−−−−−−−−−√2×1=−4±20−−√2=−2±5–√x=−4±42−4×1×(−1)2×1=−4±202=−2±5

驻点为：

$ x_1 = -2 + sqrt{5} approx 0.24 $

$ x_2 = -2 – sqrt{5} approx -4.24 $

接着，求二阶导数以判断极值点：

二阶导数为：

f′‘(x)=6x+12f′‘(x)=6x+12

将驻点代入二阶导数：

当 $ x = -2 + sqrt{5} $ 时：

f′‘(−2+5–√)=6(−2+5–√)+12=65–√>0f′‘(−2+5)=6(−2+5)+12=65>0

所以 $ x = -2 + sqrt{5} $ 是极小值点。

当 $ x = -2 – sqrt{5} $ 时：

f′‘(−2−5–√)=6(−2−5–√)+12=−65–√<0f′‘(−2−5)=6(−2−5)+12=−65<0

所以 $ x = -2 – sqrt{5} $ 是极大值点。

8、考虑随机梯度下降的更新方程。写出当使用大小为 1 的小批量时的更新公式。

当小批量大小为 1 时，随机选择一个样本对应的损失函数来估计梯度，标准梯度下降更新方程

θi+1=θi−γi∑n=1N(∇Ln(θi))⊤θi+1=θi−γi∑n=1N(∇Ln(θi))⊤

变为

θi+1=θi−γi(∇Lnj(θi))⊤θi+1=θi−γi(∇Lnj(θi))⊤

其中 $ n_j $ 是随机选择的一个样本索引。

9、判断以下陈述的真假：a. 任意两个凸集的交集是凸集。b. 任意两个凸集的并集是凸集。c. 凸集B减去凸集A的差集是凸集。

a. 真；b. 假；c. 假

10、判断以下陈述的真假：a. 任意两个凸函数的和是凸函数。b. 任意两个凸函数的差是凸函数。c. 任意两个凸函数的积是凸函数。d. 任意两个凸函数的最大值是凸函数。

a. 真；b. 假；c. 假；d. 真

11、使用以下两种内积计算向量 $oldsymbol{x} =
[1 2 3][1 2 3]$ 和 $oldsymbol{y} =
[−1 −1 0][−1 −1 0]$ 之间的距离：a. $langle oldsymbol{x}, oldsymbol{y}
angle := oldsymbol{x}^{T}oldsymbol{y}$；b. $langle oldsymbol{x}, oldsymbol{y}
angle := oldsymbol{x}^{T}Aoldsymbol{y}$，其中 $A =
[210 13−1 0−12][210 13−1 0−12]$。

公式为：距离 $d(oldsymbol{x},oldsymbol{y})=sqrt{langle oldsymbol{x} – oldsymbol{y}, oldsymbol{x} – oldsymbol{y}
angle}$，

a 情况按 $langle oldsymbol{x}, oldsymbol{y}
angle := oldsymbol{x}^{T}oldsymbol{y}$ 计算，

b 情况按 $langle oldsymbol{x}, oldsymbol{y}
angle := oldsymbol{x}^{T}Aoldsymbol{y}$ 计算。

12、使用以下两种内积计算向量 $x =
[1 2][1 2]$ 和 $y =
[−1 −1][−1 −1]$ 之间的夹角：a. $langle x, y
angle := x^T y$；b. $langle x, y
angle := x^T B y$，其中 $B :=
[21 13][21 13]$。

可使用计算向量夹角的通用公式

cosω=⟨x,y⟩⟨x,x⟩⟨y,y⟩−−−−−−−−−√cos⁡ω=⟨x,y⟩⟨x,x⟩⟨y,y⟩

进行计算。对于a情况，先计算 $x^T y$、$x^T x$ 和 $y^T y$，再代入公式求夹角；对于b情况，先计算 $x^T B y$、$x^T B x$ 和 $y^T B y$，再代入公式求夹角。

13、考虑具有点积的欧几里得向量空间R⁵。给定子空间U ⊆R⁵和向量x ∈R⁵，其中U = span[   0 -1 2 0 2  ,   1 -3 1 -1 2  ,   -3 4 1 2 1  ,   -1 -3 5 0 7   ]，x =   -1 -9 -1 4 1  。a. 确定x到U的正交投影πU(x)；b. 确定x到U的距离d(x, U)。

一般步骤为：

先判断 $ U $ 的生成集是否为基；

若不是则找出基并写成矩阵 $ B $；

计算 $ B^ op B $ 和 $ B^ op x $；

求解正规方程 $ B^ op B lambda = B^ op x $ 得到 $ lambda $；

通过 $ pi_U(x) = B lambda $ 计算投影；

距离 $ d(x, U) $ 可通过计算 $ |x – pi_U(x)| $ 得到。

14、考虑$mathbb{R}^3$，其內积定义为$langle x, y
angle := x^T
[21012−1−12][21012−1−12]y$。此外，我们将$e_1$，$e_2$，$e_3$定义为$mathbb{R}^3$中的标准/规范基。a. 确定$e_2$在$U = ext{span}[e_1, e_3]$上的正交投影$pi_U(e_2)$。提示：正交性通过內积定义。b. 计算距离$d(e_2, U)$。c. 画出该情景：标准基向量和$pi_U(e_2)$。

可按以下思路求解：

a. 设 $pi_U(e_2) = lambda_1 e_1 + lambda_3 e_3$，根据正交性

⟨e2−πU(e2),e1⟩=0⟨e2−πU(e2),e1⟩=0

和

⟨e2−πU(e2),e3⟩=0,⟨e2−πU(e2),e3⟩=0,

利用给定內积公式列出方程组求解 $lambda_1$ 和 $lambda_3$，进而得到 $pi_U(e_2)$。

b. 根据距离公式

d(e2,U)=|e2−πU(e2)|,d(e2,U)=|e2−πU(e2)|,

其中范数由內积

|v|=⟨v,v⟩−−−−√|v|=⟨v,v⟩

计算。

c. 在三维坐标系中画出标准基向量 $e_1$，$e_2$，$e_3$ 和求得的 $pi_U(e_2)$。

15、计算矩阵 a. $A =
[1011][1011]$ 和 b. $B =
[−2221][−2221]$ 的特征子空间。

需通过以下步骤计算：

对于矩阵A，先求特征多项式 $det(A – lambda I)$，令其为0得到特征值 $lambda$，再将特征值代入 $(A – lambda I)mathbf{x} = mathbf{0}$ 求解特征向量，特征向量张成的空间即为特征子空间；对于矩阵B同理。

具体计算过程：

矩阵A的特征多项式

det[1−λ0 11−λ]=(1−λ)2det[1−λ0 11−λ]=(1−λ)2

特征值 $lambda = 1$（二重），代入

(A−λI)x=0即[00 10][x1 x2]=[0 0](A−λI)x=0即[00 10][x1 x2]=[0 0]

得 $x_1 = 0$，特征向量为

[0 1][0 1]

特征子空间

E1=span[0 1]E1=span[0 1]

矩阵B的特征多项式

det[−2−λ2 21−λ]=(−2−λ)(1−λ)−4=λ2+λ−6=(λ+3)(λ−2)det[−2−λ2 21−λ]=(−2−λ)(1−λ)−4=λ2+λ−6=(λ+3)(λ−2)

特征值 $lambda_1 = -3, lambda_2 = 2$

当 $lambda = -3$ 时，代入

(B−λI)x=0即[12 24][x1 x2]=[0 0](B−λI)x=0即[12 24][x1 x2]=[0 0]

得 $x_1 = -2x_2$，特征向量为

[−2 1][−2 1]

特征子空间

E−3=span[−2 1]E−3=span[−2 1]

当 $lambda = 2$ 时，代入

(B−λI)x=0即[−42 2−1][x1 x2]=[0 0](B−λI)x=0即[−42 2−1][x1 x2]=[0 0]

得 $2x_1 = x_2$，特征向量为

[1 2][1 2]

特征子空间

E2=span[1 2]E2=span[1 2]

16、以下矩阵是否可对角化？如果可以，确定它们的对角形式以及变换矩阵为对角矩阵时所对应的基。如果不可以，请说明不可对角化的原因。a. $A =
[01-84][01-84]$ b. $A =
[111111111][111111111]$ c. $A =
[54211−1−1-1−13011−12][54211−1−1-1−13011−12]$ d. $A =
[5−6−6-1423−6−4][5−6−6-1423−6−4]$

需通过求矩阵的特征值和特征向量，根据特征向量是否能构成对应空间的一组基来判断矩阵是否可对角化，若可对角化：

对角矩阵的对角元素为特征值

对应的基由特征向量组成

17、考虑一个高斯随机变量x ∼N(x | µx, Σx)，其中x ∈RD。此外，有y = Ax + b + w，其中y ∈RE，A ∈RE×D，b ∈RE，且w ∼N(w | 0, Q)是独立的高斯噪声。a. 写出似然函数p(y | x)。b. 分布p(y) = ∫p(y | x)p(x)dx是高斯分布。计算均值µy和协方差Σy，并详细推导结果。c. 随机变量y根据测量映射z = Cy + v进行变换，其中z ∈RF，C ∈RF ×E，且v ∼N(v | 0, R)是独立的高斯（测量）噪声。写出p(z | y)。计算p(z)，即均值µz和协方差Σz，并详细推导结果。d. 现在测量得到一个值ˆy。计算后验分布p(x | ˆy)。


a. 已知 y = Ax + b + w，w ∼ N(w | 0, Q)，给定 x 时，y 是关于 x 的线性变换加上高斯噪声，所以  
p(y | x) = N(y | Ax + b, Q)。

b. 首先求均值 µy：  
根据期望的线性性质，E[y] = E[Ax + b + w] = AE[x] + b + E[w]，  
因为 x ∼ N(x | µx, Σx)，w ∼ N(w | 0, Q)，所以 E[x] = µx，E[w] = 0，  
可得 µy = Aµx + b。  

然后求协方差 Σy：  
Cov(y, y) = Cov(Ax + b + w, Ax + b + w)，  
由于 b 是常数，其协方差为 0，且 x 与 w 独立，所以  
Σy = ACov(x, x)A⊤ + Cov(w, w) = AΣxA⊤ + Q。  

因此，p(y) = N(y | Aµx + b, AΣxA⊤ + Q)。

c. 对于 p(z | y)，因为 z = Cy + v，v ∼ N(v | 0, R)，所以  
p(z | y) = N(z | Cy, R)。  

接下来求 p(z) 的均值 µz 和协方差 Σz：  
先求均值 µz：E[z] = E[Cy + v] = CE[y] + E[v]，  
由前面已求得 E[y] = Aµx + b，E[v] = 0，  
可得 µz = C(Aµx + b)。  

再求协方差 Σz：  
Cov(z, z) = Cov(Cy + v, Cy + v)，  
由于 y 与 v 独立，所以  
Σz = CCov(y, y)C⊤ + Cov(v, v) = C(AΣxA⊤ + Q)C⊤ + R。  

因此，p(z) = N(z | C(Aµx + b), C(AΣxA⊤ + Q)C⊤ + R)。

d. 后验分布 p(x | ˆy) 也是高斯分布，需要确定其均值和协方差矩阵。  
首先计算联合高斯分布 p(x, y)，这需要计算交叉协方差 Covx,y[x, y] 和 Covy,x[y, x]，  
然后应用高斯条件化规则来计算后验分布的均值和协方差矩阵。

18、考虑 (x in R^D) 的负熵函数 (f(x) = sum_{d = 1}^{D} x_d log x_d)。假设为标准点积，推导其凸共轭函数 (f^*(s))。提示：对合适的函数求梯度并令梯度为零。

通过对凸共轭函数定义

$$ f^

(s) = sup_{x in mathbb{R}^D}(s^T x – f(x))
进行求解，先构造函数进行求解，先构造函数 g(x) = s^T x – sum_{d = 1}^{D} x_d log x_d $$

对其求梯度并令梯度为零，进而求出 $ x $ 关于 $ s $ 的表达式，再代入 $ f^

(s) $ 得到结果。