上海财经大学-432统计学-2023年

一、选择题(每题 2 分, 共 20 题, 总 40 分)

1、盒中共有 $a$ 个白球, $b$ 个黑球以及 $c$ 个红球，现无放回摸球，则白球比黑球先摸出的概率是 ( )
A. $\frac{a}{a+b}$
B. $\frac{b}{a+b}$
C. $\frac{a}{a+b+c}$
D. $\frac{b}{a+b+c}$

Solution: A

用事件 $A$ 表示“白球比黑球先摸出”, 显然红球的数量对该事件无影响, 故设 $P(A) = x$ , 用事件 $W_1, R_1, B_1$ 分别表示首次摸球摸出白、红、黑球, 则由全概率公式有

\begin{aligned} P\left( A \right)& =P\left( A\mid W_1 \right) \cdot P\left( W_1 \right) +P\left( A\mid R_1 \right) \cdot P\left( R_1 \right) +P\left( A\mid B_1 \right) \cdot P\left( B_1 \right) \\ x&=1\cdot \frac{a}{a+b+c}+x\cdot \frac{c}{a+b+c}+0\cdot \frac{b}{a+b+c} \\ \left( a+b+c \right) \cdot x&=a+cx \\ x&=\frac{a}{a+b} \end{aligned}

2、设 $X \sim P(\lambda)$ ，以下判断正确的是 ( )

A. $P(X>2 \lambda) \leq 1-\frac{1}{\lambda}$
B. $P(X>2 \lambda) \leq \frac{1}{\lambda}$
C. $P(X>2 \lambda) \geq \frac{1}{\lambda}$
D. $P(X>2 \lambda) \geq 1-\frac{1}{\lambda}$

Solution: B

利用切比雪夫不等式,

P\left( X>2\lambda \right) =P\left( X-\lambda >\lambda \right) \le P\left( \left| X-\lambda \right|>\lambda \right) \le \frac{\text{Var}\left( X \right)}{\lambda ^2}=\frac{1}{\lambda}

3、从某市 200 个学校随机抽 40 个学校，再从每个学校的班级里抽取一些班级，再从班级里抽取一定数量的老师学生, 属于以下哪种抽样方法 ( )
A. 分层抽样
B. 多阶段抽样
C. 系统抽样
D. 简单随机抽样

Solution: B

多阶段抽样方法是指将总体分成若干层次，然后按照一定的顺序，从每一层次中随机抽取一部分单位，直到达到所需的样本规模。

在这个问题中，总体是某市的所有学校、班级和老师学生，分成了三个层次：学校、班级和老师学生。第一阶段是从 200 个学校中随机抽取 40 个学校，第二阶段是从每个学校的班级里抽取一些班级，第三阶段是从班级里抽取一定数量的老师学生。

4、指数平滑法是通过对过去的观察值加权平均进行预测的一种方法，该方法使 $t+1$ 期的预测值 ( )
A. 等于 ${t}$ 期的实际观察值与 ${t}$ 期的预测值的加权平均值
B. 等于 $t$ 期的实际观察值与 $t+1$ 期的预贬值的加权平均值
C. 等于 ${t}+1$ 期的实际观察值与 ${t}$ 期的预测值的加权平均值
D. 等于 $t+1$ 期的实际观察值与 $t+1$ 期的预贬值的加权平均值

Solution: A

指数平滑法的基本思想是： $t+1$ 期的预测值等于 $t$ 期的实际观察值与 $t$ 期的预测值的加权平均值，其中权重是一个常数 $\alpha$ ，称为平滑系数，取值在 0 到 1 之间:

\hat{y}_{t+1} = \alpha y_t + (1-\alpha) \hat{y}_t

其中， $\hat{y}_{t+1}$ 是 $t+1$ 期的预测值， $y_t$ 是 $t$ 期的实际观察值， $\hat{y}_t$ 是 $t$ 期的预测值。

根据这个公式，可以看出，选项 A 正确.

5、设 $X \sim N(\mu, 1)$ , 考虑假设检验问题 $H_0: \mu=1$ v.s. $H_1: \mu=2$ , 有拒绝域为 $W=\{\bar{x}>c\}$ , 则下列说法不正确的是 ( )

A. 功效函数随着 $\mu$ 单调增
B. 功效函数随着 $c$ 单调增
C. 第一类错误的概率等于 $1-\Phi(\sqrt{n}(c-1))$
D. 第二类错误的概率等于 $\Phi(\sqrt{n}(c-2))$

Solution:

样本均值 $\bar{x}$ 服从正态分布 $N(\mu, \frac{1}{n})$ ，所以 $\sqrt{n}(\bar{x}-\mu)$ 服从正态分布 $N(0, 1)$ 。

功效函数是指在原假设为假时，拒绝原假设的概率，即

\beta(\mu) = P(\bar{x}>c | \mu) = 1 - \Phi(\sqrt{n}(c-\mu))

其中， $\Phi$ 是标准正态分布的累积分布函数。

根据这个公式，可以看出：

功效函数随着 $\mu$ 单调增，因为 $\sqrt{n}(c-\mu)$ 随着 $\mu$ 单调减，而 $\Phi$ 是单调增的函数。所以选项 A 正确。
功效函数随着 $c$ 单调减，因为 $\sqrt{n}(c-\mu)$ 随着 $c$ 单调增，而 $\Phi$ 是单调增的函数。所以选项 B 错误。
第一类错误的概率等于在原假设为真时，拒绝原假设的概率，即
$\alpha = P(\bar{x}>c | \mu=1) = 1 - \Phi(\sqrt{n}(c-1))$
所以选项 C 正确。
第二类错误的概率等于在备择假设为真时，接受原假设的概率，即
$\beta = P(\bar{x}\leq c | \mu=2) = \Phi(\sqrt{n}(c-2))$
所以选项 D 正确。

综上所述，选项 B 是不正确的说法。

6、 $A, B, C$ 都是事件, 下列关于事件运算的表达式中, 正确的是 ( )
A. $(A-B)-C=A-(B-C)$
B. $A C=\emptyset, B \subset A$ , 则 $B C=\emptyset$
C. $(A \cup B)-B=A$
D. $(A-B)+B=A$

Solution: B

选项 A 错误，因为 $(A-B)-C$ 是指包含 $A$ 中但不包含 $B$ 和 $C$ 中元素的事件，而 $A-(B-C)$ 是指包含 $A$ 中但不包含 $B-C$ 中元素的事件。这两个事件不一定相等，例如当 $C \subset A-B$ 时， $(A-B)-C=\emptyset$ ，而 $A-(B-C)=C \neq \emptyset$ 。
选项 B 正确，因为如果 $AC=\emptyset$ ，则表示 $A$ 和 $C$ 没有共有元素，如果又有 $B \subset A$ ，则表示 $B$ 中的所有元素都属于 $A$ ，那么就一定不属于 $C$ ，所以 $BC=\emptyset$ 。
选项 C 错误，因为 $(A \cup B)-B$ 是指包含属于 $A \cup B$ 但不属于 $B$ 的元素的事件，而这些元素就是属于 $A-B$ 的元素。所以 $(A \cup B)-B=A-B \neq A$ , 除非 $B \subset A$ , 那么才有 $(A \cup B)-B=A-B=A$
选项 D 错误，因为 $(A-B)+B=A \cup B \neq A$ , 除非 $B \subset A$ , 那么才有 $(A-B)+B=A \cup B=A$

综上所述，选项 B 是正确的说法。

7、下列时间序列过程中, 一定平稳的是 ( )
A. ARIMA(1, 0, 1)
B. ARIMA(0, 0, 1)
C. ARIMA(1, 1, 1)
D. ARIMA(1, 0, 0)

Solution: B

ARIMA 模型的定义如下：

ARIMA(p, d, q) 模型是指差分 $d$ 次后的时间序列 $y_t$ 可以用自回归模型 AR(p) 和移动平均模型 MA(q) 来描述，即 $\Delta^d y_t = \phi_0 + \phi_1 \Delta^d y_{t-1} + \cdots + \phi_p \Delta^d y_{t-p} + \theta_0 \epsilon_t + \theta_1 \epsilon_{t-1} + \cdots + \theta_q \epsilon_{t-q}$
其中， $\Delta^d y_t = y_t - y_{t-1}$ 表示一阶差分， $\Delta^d y_t = \Delta^{d-1} y_t - \Delta^{d-1} y_{t-1}$ 表示 $d$ 阶差分， $\epsilon_t$ 表示白噪声序列。
如果 $d=0$ ，则表示原始的时间序列 $y_t$ 就是平稳的，不需要差分，即 $y_t = \phi_0 + \phi_1 y_{t-1} + \cdots + \phi_p y_{t-p} + \theta_0 \epsilon_t + \theta_1 \epsilon_{t-1} + \cdots + \theta_q \epsilon_{t-q}$

根据这个定义，可以看出：

选项 A: 因为 ARIMA(1, 0, 1) 模型表示 $y_t$ 是一个 AR(1) 和 MA(1) 的组合，即

y_t = \phi_0 + \phi_1 y_{t-1} + \theta_0 \epsilon_t + \theta_1 \epsilon_{t-1}

当 $|\phi_1|<1$ 时, 这是一个平稳的时间序列过程。

选项 B 正确，因为 ARIMA(0, 0, 1) 模型表示 $y_t$ 是一个 MA(1) 的过程，即

y_t = \phi_0 + \theta_0 \epsilon_t + \theta_1 \epsilon_{t-1}

这是一个平稳的时间序列过程。

选项 C : 因为 ARIMA(1, 1, 1) 模型表示 $y_t$ 需要一阶差分后才能用 AR(1) 和 MA(1) 的组合来描述，即

\Delta y_t = \phi_0 + \phi_1 \Delta y_{t-1} + \theta_0 \epsilon_t + \theta_1 \epsilon_{t-1}

这说明原始的时间序列 $y_t$ 不是平稳的。

选项 D : 因为 ARIMA(1, 0, 0) 模型表示 $y_t$ 是一个 AR(1) 的过程，即

y_t = \phi_0 + \phi_1 y_{t-1} +\theta_0\epsilon_t

当 $|\phi_1|<1$ 时, 这是一个平稳的时间序列过程。

综上所述，选项 B 正确.

8、设 $X \sim b(1, p)$ , 则以下选项中, $p^2$ 的无偏估计是 ( )
A. $\frac{n}{n-1}\left(\bar{x}^2-\frac{\bar{x}}{n}\right)$
B. $\bar{x}^2$
C. $\bar{x}^2-\frac{\bar{x}}{n}$
D. $\frac{n-1}{n}\left(\bar{x}^2-\frac{\bar{x}}{n}\right)$

Solution: A

E\left( \frac{n}{n-1}\left( \bar{x}^2-\frac{\bar{x}}{n} \right) \right) =\frac{n}{n-1}\left( E\left( \bar{x}^2 \right) -\frac{E\left( \bar{x} \right)}{n} \right) =\frac{n}{n-1}\left( p^2+\frac{p\left( 1-p \right)}{n}-\frac{p}{n} \right) =p^2

9、设 $E(X)=-2, E\left(X^2\right)=5$ , 则 $\operatorname{Var}(100-3 X)=$ ( )
A. 9
B. 3
C. 1
D. 2

Solution: A

\operatorname{Var}(100-3 X)=9 \operatorname{Var}(X)=9 \times\left(E\left(X^2\right)-E^2(X)\right)=9

10、两个正整数相加为偶数的概率为 ( )
A. $1 / 8$
B. $1 / 4$
C. $1 / 3$
D. $1 / 2$

Solution: D

假设从正整数中抽一个数, 为奇数、偶数的概率均为 $1/2$ , 则答案显然为 D.

11、关于假设检验中的概念, 以下说法正确的是( )
A. 第一类错误是指 $H_0$ 为假时，接受备择假设
B. 第二类错误是指 $H_1$ 为假时，接受原假设
C. 检验功效是指 $H_0$ 为假时，假设检验拒绝原假设的概率
D. 检验功效是指 $H_1$ 为假时，假设检验接受原假设的概率

Solution: C

首先，假设检验中的概念如下：

原假设 $H_0$ 是指被检验的假设，通常是一个等式或者不等式。
备择假设 $H_1$ 是指与原假设相反的假设，通常是一个不等式。
拒绝域 $W$ 是指根据样本数据拒绝原假设的区域，通常是一个区间或者两个区间。
第一类错误是指 $H_0$ 为真时，拒绝原假设的错误，其概率记为 $\alpha$ 。
第二类错误是指 $H_1$ 为真时，接受原假设的错误，其概率记为 $\beta$ 。
检验功效是指 $H_1$ 为真时，拒绝原假设的概率，其值为 $1-\beta$ 。

根据这些定义，可以看出：选项 C 正确

12、假设人的IQ服从 $N\left(100,15^2\right)$ , 则IQ在70分以下的比例为 ( )
A. $2.5 \%$
B. $5 \%$
C. $10 \%$
D. $16 \%$

Solution: A

根据 $3 \sigma$ 准则, 两倍标准差内的数据量为 $95.45 \%$ , 故两倍标准差之外的数据量大约为 $4.55$ , 只考虑单边则为 $2.275$ , 与 A 最接近.

13、调查镜片的曲率，据调查 500 个镜片的平均曲率为 0.5 。则调查的总体是 ( )
A. 抽查的 500 个镜片
B. 最近 500 个镜片
C. 今天销售的所有镜片
D. 该厂生产的所有镜片

Solution: D

总体是指我们感兴趣的研究对象的全体，也就是我们想要推断的对象的集合。抽样是指从总体中随机地选取一部分个体作为样本，以便用样本的统计量来估计总体的参数。

根据这些定义，可以看出：

选项 A 错误，因为抽查的 500 个镜片是样本，而不是总体。
选项 B 错误，因为最近 500 个镜片也是样本，而不是总体。
选项 C 错误，因为今天销售的所有镜片也是样本，而不是总体。
选项 D 正确，因为该厂生产的所有镜片才是总体，也就是我们想要推断的对象的集合。

14、抓五只蚊子, 患有某疾病的蚊子个数应该服从以下哪种分布 ( )
A. 正态分布
B. 泊松分布
C. 二项分布
D. 学生 $t$ 分布

Solution: C

15、以下关于泊松分布的参数空间和随机变量的取值说法正确的是 ( )
A. 参数空间是离散的，随机变量是离散的
B. 参数空间是连续的，随机变量是离散的
C. 参数空间是离散的，随机变量是连续的
D. 参数空间是连续的，随机变量是连续的

Solution: B

泊松分布的定义如下：

泊松分布是指一个离散型的随机变量，其概率质量函数为
$P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}, k=0,1,2,\cdots$
其中 $\lambda$ 是单位时间内发生的平均次数，也是泊松分布的唯一参数。
泊松分布的参数空间是指 $\lambda$ 可以取的所有可能的值的集合，也就是 $(0, +\infty)$ ，这是一个连续的区间。
泊松分布的随机变量是指发生的次数 $X$ ，它只能取非负整数的值，也就是 $\{0, 1, 2, \cdots\}$ ，这是一个离散的集合。

综上所述，选项 B 是正确的说法。

16、某调查员想检验一中coffee包装是否少于 500g ，那么他采取的假设检验应该为 ( )
A. 双侧检验
B. 单侧且备择假设为小于 500g
C. 单侧且备择假设为大于 500g
D. 单双侧检验均可

Solution: B

在假设检验中, 将我们想要检验的结论放在备择假设.

选项 A 错误，因为双侧检验是用于检验是否不等于某个值的情况，而不是是否小于某个值的情况。
选项 B 正确，因为单侧且备择假设为小于 $500$ g 是符合调查员的目的的，即他想要证明 coffee 包装的重量低于标准值。
选项 C 错误，因为单侧且备择假设为大于 $500$ g 是与调查员的目的相反的，即他想要证明 coffee 包装的重量高于标准值。
选项 D 错误，因为单双侧检验不是可以随意选择的，而是要根据备择假设的形式来确定的。

综上所述，选项 B 是正确的说法。

17、以下关于区间估计的说法正确的是 ( )
A. 区间估计是指用一个区间来估计总体参数的真值
B. 区间估计是指用一个点来估计总体参数的真值
C. 区间估计是指用一个区间来估计样本统计量的真值
D. 区间估计是指用一个点来估计样本统计量的真值

Solution: A

选项 A 正确，因为区间估计就是指用一个区间来估计总体参数的真值，例如用 $(\bar{x}-t_{\alpha/2} \frac{s}{\sqrt{n}}, \bar{x}+t_{\alpha/2} \frac{s}{\sqrt{n}})$ 来估计总体均值 $\mu$ 的真值。
选项 B 错误，因为用一个点来估计总体参数的真值是点估计，而不是区间估计，例如用 $\bar{x}$ 来估计总体均值 $\mu$ 的真值。
选项 C 错误，因为区间估计的目的是估计总体参数，而不是样本统计量，样本统计量的真值是可以直接观察到的，不需要估计。
选项 D 错误，因为同理，点估计的目的也是估计总体参数，而不是样本统计量。

18、大约有 $50 \%$ 的数据会大于
A. 中位数
B. 平均数
C. 众数
D. 均值

Solution: A

19、设 $y$ 为响应变量， $x$ 为自变量，线性回归这种方法最适合于以下哪种场合 ( )
A. $y$ 是连续变量， $x$ 是离散变量
B. $y$ 是连续变量， $x$ 是连续变量
C. $y$ 是离散变量， $x$ 是离散变量
D. $y$ 是离散变量， $x$ 是连续变量

Solution: A

线性回归是指一种用于分析响应变量和自变量之间线性关系的统计方法，其基本模型为

y = \beta_0 + \beta_1 x + \epsilon

其中， $y$ 是响应变量， $x$ 是自变量， $\beta_0$ 和 $\beta_1$ 是回归系数， $\epsilon$ 是随机误差项。

线性回归的目的是通过最小化残差平方和来估计回归系数，从而得到拟合的直线方程，并用于预测或解释响应变量的变化。

选项 A 错误，因为线性回归不适合于自变量是离散变量的情况，因为这样会导致拟合的直线没有意义或者不准确。
选项 B 正确，因为线性回归最适合于响应变量和自变量都是连续变量的情况，因为这样可以更好地反映两者之间的线性关系，并且可以用拟合的直线来预测或解释响应变量的变化。
选项 C 错误，因为线性回归不适合于响应变量是离散变量的情况，因为这样会导致拟合的直线不能很好地描述响应变量的分布或者违反误差项的正态性假设。
选项 D 错误，因为线性回归也不适合于响应变量是离散变量的情况，同理。

20、以下选项中, 不是联合分布函数 $F_{X, Y}(x, y)$ 的性质的是 ( )
A. 非负性
B. 单调性
C. 有界性
D. 左连续性

Solution: D

A, B, C 显然正确. 按照茆书的定义, 分布函数具有右连续性.

二、填空题(每题 3 分, 共 5 题, 总 15 分)

1、 $X_1, X_2$ 独立同分布, 均服从泊松分布 $P(\lambda)$ , 则 $Y=\max \left\{X_1, X_2\right\}$ 的分布列是________

Solution:

由于 $Y=\max \left\{X_1, X_2\right\}$ ，有

P(Y=k) = P(\max \left\{X_1, X_2\right\}=k)

利用条件概率公式，可以将上式改写为

P(Y=k) = P(X_1=k) P(X_2 \leq k | X_1=k) + P(X_2=k) P(X_1 \leq k | X_2=k) - P(X_1=k) P(X_2=k)

而 $X_1, X_2$ 独立同分布，故

P(X_2 \leq k | X_1=k) = P(X_2 \leq k), P(X_1 \leq k | X_2=k) = P(X_1 \leq k), P(X_1=k) = P(X_2=k)

因此，上式可以化简为

P(Y=k) = 2P(X_1=k) P(X_1 \leq k) - P(X_1=k)^2

将泊松分布的概率质量函数代入上式，得到

P(Y=k) = 2\frac{\lambda^k e^{-\lambda}}{k!} \sum_{i=0}^k \frac{\lambda^i e^{-\lambda}}{i!} - \left(\frac{\lambda^k e^{-\lambda}}{k!}\right)^2, k=0,1,2,\cdots

2、等车时间服从指数分布 $\operatorname{E}\left(\frac{1}{5}\right)$ , 如果等候时间大于10则小明会选择走路上班，假如小明一周上班五天, 且每天等待公交车的时间独立, 则一周走路上班次数 $Y$ 的分布是________

Solution:

容易看出这是一个 $n$ 重伯努利事件, 某天走路上班的概率是 $P\left( X\ge 10 \right) =e^{-\frac{10}{5}}=e^{-2}$ , 故 $Y\sim B\left( 5,e^{-2} \right)$ .

3、现有随机变量 $X$ , 设 $E X=2$ ，若 $\hat{\theta}_1, \hat{\theta}_2$ 分别是 $E(X)^2, E(X)^3$ 的无偏估计，则用 $\hat{\theta}_1, \hat{\theta}_2$ 表示 $X$ 三阶中心矩的无偏估计是 ________

Solution:

由于 $E\left((X-E X)^3\right)=E\left(X^3\right)-3 E(X) E\left(X^2\right)+2 E(X)^3$ , 将 $\hat{\theta}_1, \hat{\theta}_2$ 替换，并将 $E X=2$ 代入, 则 $\hat{\theta}_2-6 \hat{\theta}_1+16$ .

4、已知 $X=\ln Y \sim N\left(\mu, \sigma^2\right)$ , 记 $\bar{x}=\sum_{i=1}^n x_i / n, s_n^2=\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 / n, s^2=\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 /(n-1)$ . 则 $e^{\mu+\frac{\sigma^2}{2}}$ 的MLE是________

Solution:

由于 $\left( \bar{x},s_{n}^{2} \right)$ 是 $\left( \mu ,\sigma ^2 \right)$ 的MLE, 根据不变性, 有 $e^{\bar{x}+\frac{s_{n}^{2}}{2}}$ 是 $e^{\mu +\frac{\sigma ^2}{2}}$ 的 MLE.

5、随机变量 $X_1, X_2$ 相互独立, 分别服从 $P\left(\lambda_1\right), P\left(\lambda_2\right)$ , 则 $E(X \mid X+Y=n) =$ ________

Solution:
先求条件分布, 对于 $x = 0, 1, 2, \cdots, n$ , 有

\begin{aligned} P\left( X_1=x\mid X_1+X_2=n \right) &=\frac{P\left( X_1=x,X_1+X_2=n \right)}{P\left( X_1+X_2=n \right)} \\ &=\frac{P\left( X_1=x,X_2=n-x \right)}{P\left( X_1+X_2=n \right)} \\ &=\frac{\frac{\lambda _{1}^{x}}{x!}e^{-\lambda _1}\frac{\lambda _{2}^{n-x}}{\left( n-x \right) !}e^{-\lambda _2}}{\frac{\left( \lambda _1+\lambda _2 \right) ^n}{n!}e^{-\left( \lambda _1+\lambda _2 \right)}} \\ &=\frac{n!}{x!\left( n-x \right) !}\left( \frac{\lambda _1}{\lambda _1+\lambda _2} \right) ^x\left( \frac{\lambda _2}{\lambda _1+\lambda _2} \right) ^{n-x} \end{aligned}

其中利用了泊松分布的可加性, 即 $X_1 + X_2 \sim P(\lambda_1 + \lambda_2)$ . 容易发现实际上

\left( X_1=x\mid X_1+X_2=n \right) \sim B\left( n,\frac{\lambda _1}{\lambda _1+\lambda _2} \right) ,

因此 $E\left( X_1=x\mid X_1+X_2=n \right) =n\frac{\lambda _1}{\lambda _1+\lambda _2}$ .

三、计算题 (4 题, 共 70 分)

1、(10分) 已知某个产品的尺寸 $\sim N\left(4.55,0.108^2\right)$ , 该次抽查先测量了9个产品，平均尺寸为 4.84, 如果产品尺寸方差未发生改变，是否可认为现在生产的产品尺寸仍为 4.55? (取显著性水平 $\alpha=0.05$ )

Solution:

这是一个假设检验问题, 首先建立假设:

H_0: \mu=4.55 \quad \text { v.s. } \quad H_1: \mu \neq 4.55

正态样本, 方差已知, 检验统计量为

z=\frac{\sqrt{n}\left( \bar{x}-\mu _0 \right)}{\sigma}=\frac{3\cdot \left( 4.84-4.55 \right)}{0.108}=8.056

在显著性水平 $\alpha=0.05$ 下, 拒绝域是

W=\{|z|>z_{0.975}\}=\{|z|>1.96\}

检验统计量落在拒绝域中，因此拒绝原假设，认为产品尺寸发生了显著变化。

2、(20 分) 考虑如下时间序列数据

周	1	2	3	4	5	6
观测值	8	13	15	17	16	9

(1) 对此时间序列作用三周滑动平均，求第七周预测值.
(2) 计算三周滑动平均法的训练均方误差MSE.
(3) 用 $\alpha=0.2$ 的指数平滑法第七周预测值.
(4) 比较上述两种方法哪种的预测效果更好.

Solution:

(1) 对此时间序列作用三周滑动平均，求第七周预测值。

三周滑动平均法是一种移动平均模型，它的原理是用最近三周的观测值的算术平均数作为下一周的预测值。公式如下：

\hat{y}_{t+1}=\frac{y_t+y_{t-1}+y_{t-2}}{3}

其中 $\hat{y}_{t+1}$ 表示第 $t+1$ 周的预测值， $y_t$ 表示第 $t$ 周的观测值。

根据题目给出的数据，我们可以计算出前4-7周的预测值如下：

\hat{y}_4=\frac{8+13+15}{3}=12

\hat{y}_5=\frac{13+15+17}{3}=15

\hat{y}_6=\frac{15+17+16}{3}=16

\hat{y}_7=\frac{17+16+9}{3}=14

所以第七周的预测值为14。

(2) 计算三周滑动平均法的训练均方误差MSE.

训练均方误差MSE是一种衡量预测模型好坏的指标，它的定义是预测值与观测值之差的平方和除以样本量。公式如下：

MSE=\frac{\sum_{t\in \mathcal{T}}^{}{\left( y_t-\hat{y}_t \right) ^2}}{\#\mathcal{T}}

其中 $y_t$ 表示第 $t$ 周的观测值， $\hat{y}_t$ 表示第 $t$ 周的预测值， $\mathcal{T}$ 表示用于计算MSE的样本集合。

根据题目给出的数据，我们可以计用4-6周的数据来计算MSE, 即

MSE=\frac{\left( 17-12 \right) ^2+\left( 16-15 \right) ^2+\left( 9-16 \right) ^2}{3}=25

所以三周滑动平均法的训练均方误差为12.75.

(3) 用 $\alpha=0.2$ 的指数平滑法第七周预测值.

指数平滑法是一种自回归模型，它的原理是用最近一期的观测值和上一期的预测值加权平均作为下一期的预测值。公式如下：

\hat{y}_{t+1}=\alpha y_t+(1-\alpha)\hat{y}_t

其中 $\hat{y}_{t+1}$ 表示第 $t+1$ 期的预测值， $y_t$ 表示第 $t$ 期的观测值， $\hat{y}_t$ 表示第 $t$ 期的预测值， $\alpha$ 表示平滑系数，取值在0到1之间。

根据题目给出的数据和 $\alpha=0.2$ ，我们可以计算出前四期的预测值如下：

假设初始预测值 $\hat{y}_1=8$

\hat{y}_2=0.2\times 8+(1-0.2)\times 8=8

\hat{y}_3=0.2\times 13+(1-0.2)\times 8 = 9

\hat{y}_4=0.2\times 15+(1-0.2)\times 9=10.2

\hat{y}_5=0.2\times 17+(1-0.2)\times 10.2=11.56

\hat{y}_6=0.2\times 16+(1-0.2)\times 11.56=12.448

\hat{y}_7=0.2\times 9+(1-0.2)\times 12.448=11.7584

所以第七周的预测值为11.7584。

(4) 一般来说，比较预测效果的好坏可以用MSE或其他误差指标来衡量，误差越小，预测效果越好。为保证公平, 我们同样用4-6周的数据来计算MSE, 有

MSE=\frac{\left( 17-10.2 \right) ^2+\left( 16-11.56 \right) ^2+\left( 9-12.448 \right) ^2}{3}=25.9474

所以指数平滑法的MSE为25.9474，比三周滑动平均法的MSE大。因此，我们可以判断三周滑动平均法的预测效果更好。

3、 (20分) 帕累托分布的分布函数如下

F\left(y \mid \theta_1, \theta_2\right)= \begin{cases}1-\left(\frac{\theta_1}{y}\right)^{\theta_2} & 0<\theta_1 \leq y, \theta_2>0 \\ 0 & \text { 其他 }\end{cases}

现有简单随机样本 $y_1, y_2, \cdots, y_n$ , 试求 $\theta_1, \theta_2$ 的MLE.

Solution:

先求总体的密度函数, 有

f\left( y\mid \theta _1,\theta _2 \right) =\frac{\theta _2}{y^{\theta _2+1}}\theta _{1}^{\theta _2},y\ge \theta _1.

似然函数为

L(\theta_1, \theta_2) = \prod_{i=1}^n f(y_i|\theta_1, \theta_2) = \prod_{i=1}^n \frac{\theta_2\theta_1^{\theta_2}}{y_i^{\theta_2+1}}I_{[\theta_1,\infty)}(y_i)

其中 $I_{[\theta_1,\infty)}(y_i)$ 是示性函数，表示当 $y_i\geq\theta_1$ 时为 1，否则为 0.

对数似然函数为

l(\theta_1, \theta_2) = \log L(\theta_1, \theta_2) = n\log\theta_2 + n\theta_2\log\theta_1 - (\theta_2+1)\sum_{i=1}^n\log y_i + \sum_{i=1}^n\log I_{[\theta_1,\infty)}(y_i)

对 $\theta_1$ 求偏导数，并令其等于零，得到

\frac{\partial l}{\partial \theta_1} = \frac{n\theta_2}{\theta_1} - \sum_{i=1}^n\frac{I'_{[\theta_1,\infty)}(y_i)}{I_{[\theta_1,\infty)}(y_i)} = 0

其中 $I'_{[\theta_1,\infty)}(y_i)$ 是示性函数的导数，表示当 $y_i=\theta_1$ 时为正无穷，否则为 0。

由于示性函数的导数只有在 $y_i=\theta_1$ 时才不为零，所以我们可以将数据集按照从小到大排序，记最小的观测值为 $y_{(1)}$ ，那么只有当 $\theta_1=y_{(1)}$ 时，上式才成立。因此我们得到 $\hat{\theta}_1=y_{(1)}$ 。

对 $\theta_2$ 求偏导数，并令其等于零，得到

\frac{\partial l}{\partial \theta_2} = \frac{n}{\theta_2} + n\log\hat{\theta}_1 - \sum_{i=1}^n\log y_i = 0

其中我们已经代入了 $\hat{\theta}_1=y_{(1)}$ 的结果。解得

\hat{\theta}_2 = -\frac{n}{n\log y_{(1)} - \sum_{i=1}^n\log y_i}

综上，我们得到 $\theta_1, \theta_2$ 的MLE为

\hat{\theta}_1 = y_{(1)}, \quad \hat{\theta}_2 = -\frac{n}{n\log y_{(1)} - \sum_{i=1}^n\log y_i}

4、 (20分) 某元件寿命服从 $\operatorname{Exp}(1)$ ，某系统由 $n$ 个这样的元件组成当系统工作时，这 $n$ 个元件相互独立，令 $X_1, \cdots, X_n$ 表示这 $n$ 个元件的寿命，并记 $X_{(1)}, \cdots, X_{(n)}$ 为样本的次序统计量，令 $Z_1=n X_{(1)}, Z_2=(n-1)\left(X_{(2)}-X_{(1)}\right), \cdots, Z_i = (n - i + 1)(X_{i} - X_{i-1}), \cdots, Z_n=X_{(n)}-X_{(n-1)}$ , 解决以下问题:

(1) 试求 $Z_1, \cdots, Z_n$ 的联合密度函数.
(2) 求 $Z_1$ 的边际密度.
(3) 当 $n$ 个原件中的 $k$ 个 $(1 \leq k \leq n)$ 失效时整个系统失效, 求此系统的平均寿命.

Solution:

(1) $Z_1, \cdots, Z_n$ 的联合密度函数可以由 $X_{(1)}, \cdots, X_{(n)}$ 的联合密度函数推导出来，后者可以根据全体次序统计量联合密度公式得到, 即

f_{X_{\left( 1 \right)},\cdots ,X_{\left( n \right)}}\left( x_1,\cdots ,x_n \right) =n!\prod_{i=1}^n{f}\left( x_i \right) =n!e^{-\sum_{i=1}^n{x_i}},0\le x_1\le \cdots \le x_n

利用 $Z_1, \cdots, Z_n$ 的定义，可以写出：

X_{\left( 1 \right)}=\frac{Z_1}{n},\quad X_{\left( i \right)}=X_{\left( i-1 \right)}+\frac{Z_i}{n-i+1},\quad i=2,\cdots ,n

这个变换的雅可比矩阵是：

J=\left[ \begin{matrix} \frac{1}{n}& 0& 0& \cdots& 0\\ *& \frac{1}{n-1}& 0& \cdots& 0\\ *& *& \frac{1}{n-2}& \cdots& 0\\ \vdots& \vdots& \vdots& \ddots& \vdots\\ *& *& *& \cdots& 1\\ \end{matrix} \right]

其中 $*$ 表示可能不为0, 但不重要, 因为这是一个下三角矩阵, 容易计算雅可比行列式是：

|J| = \frac{(-1)^{n-1}}{n! (n-1)! (n-2)! \cdots 2! 1!} Z_2 Z_3^2 Z_4^3 \cdots Z_n^{n-1}

因此， $Z_1, \cdots, Z_n$ 的联合密度函数是：

f_{Z_1,\cdots ,Z_n}\left( z_1,\cdots ,z_n \right) =n!\cdot \frac{1}{n!}\cdot e^{-\sum_{i=1}^n{z_i}}=e^{-\sum_{i=1}^n{z_i}},\quad z_1,\cdots ,z_n>0

(2) 从 (1) 的结果容易看出, $Z_1, Z_2, \cdots, Z_n$ 独立同分布, 均服从参数为 1 的指数分布. 即有

f_{Z_1}\left( z_1 \right) =e^{-z_1},z_1>0

(3) 相当于求 $E X_{(k)}$ , 当 $k = 1$ 时,

EX_{\left( 1 \right)}=\frac{1}{n}EZ_1=\frac{1}{n}

当 $k = 2,3,\cdots, n$ 时,

\begin{aligned} EX_{\left( k \right)}&=E\left[ X_{\left( k-1 \right)}+\frac{Z_k}{n-k+1} \right] \\ &=E\left[ \left\{ X_{\left( k-2 \right)}+\frac{Z_{k-1}}{n-k} \right\} +\frac{Z_k}{n-k+1} \right] \\ &=E\left[ \sum_{i=1}^k{\frac{Z_i}{n-i+1}} \right] =\sum_{i=1}^k{\frac{1}{n-i+1}} \end{aligned}

四、计算题 (1 题, 共 25 分)

1、(25分) 考虑简单一元线性回归模型:

y_i=\alpha+\beta x_i+\varepsilon_i, \quad \varepsilon_i \text{i.i.d} \sim N\left(0, \sigma^2\right)

(1) 现收集到 $n$ 个样本 $(x_1, y_1), \cdots, (x_n, y_n)$ , 求 $\alpha, \beta, \sigma^2, \sigma$ 的MLE.
(2) 若现有三个样本观测值 $(1,8),(3,2),(5,1)$ , 试计算上面四个MLE的具体值.
(3) 给出 $\alpha, \beta, \sigma^2$ 的MLE的各两条性质, 并说出理由.

Solution:

(1) 一元线性回归模型的参数 $\alpha, \beta, \sigma^2, \sigma$ 的最大似然估计（MLE）非常常见, 此处略去过程, 有

\hat{\beta} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{l_{xy}}{l_{xx}}

\hat{\alpha} = \bar{y} - \hat{\beta} \bar{x}

\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{\alpha} - \hat{\beta} x_i)^2

根据MLE的不变性, 有 $\hat{\sigma} = \sqrt{\hat{\sigma}^2}$

其中 $\bar{x}$ 和 $\bar{y}$ 是样本均值.

(2) 根据上面的公式，我们可以计算出三个样本观测值的 MLE：

\bar{x} = \frac{1 + 3 + 5}{3} = 3

\bar{y} = \frac{8 + 2 + 1}{3} = 3.67

l_{xx} = {(1 - 3)^2 + (3 - 3)^2 + (5 - 3)^2} = 8

l_{xy}=\left( 1-3 \right) \left( 8-3.67 \right) +\left( 3-3 \right) \left( 2-3.67 \right) +\left( 5-3 \right) \left( 1-3.67 \right) =-14

故 $\hat{\beta}=\frac{-14}{8}=-\frac{7}{4}$ , $\hat{\alpha}=3.67-\left( -\frac{7}{4} \right) \times 3=8.92$ .

\hat{\sigma}^2=\frac{1}{3}\left[ \left( 8-8.92+1.75\cdot 1 \right) ^2+\left( 2-8.92+1.75\cdot 3 \right) ^2+\left( 1-8.92+1.75\cdot 5 \right) ^2 \right] =1.3889

以及 $\hat{\sigma}=\sqrt{1.3889}=1.17852$ .

(3)

$\hat{\alpha}$ 是 $\alpha$ 的无偏估计, 且是UMVUE.

$\hat{\beta}$ 是 $\beta$ 的无偏估计, 且是UMVUE.

$\hat{\sigma}^2$ 是 $\sigma^2$ 的渐进无偏估计, 且是渐进有效估计.