多媒体技术基础与应用解析

table {
border-collapse: collapse;
width: 100%;
margin-bottom: 1rem;
}
th, td {
border: 1px solid #ddd;
padding: 8px;
text-align: left;
}
th {
background-color: #f2f2f2;
}
tr:nth-child(even) {
background-color: #f9f9f9;
}
pre {
background-color: #f8f8f8;
padding: 15px;
border-radius: 4px;
overflow-x: auto;
}

1、用你自己的话描述什么是“多媒体”？多媒体仅仅是不同类型媒体的集合吗？

不同人群对多媒体的看法

不同人群对多媒体有不同看法。

消费娱乐供应商

可能认为多媒体是交互式电视或通过高速互联网连接提供的类似有线电视的服务；

硬件供应商

可能将多媒体看作具备良好音效能力的笔记本电脑等；

计算机科学或工程专业学生

认为多媒体是利用多种形式（包括文本、图像、图形、动画、视频、声音等）且具有一定交互性的应用。

多媒体并非简单的不同类型媒体的集合，它涉及多媒体工具、终端系统和应用，其研究几乎触及计算机科学的每个分支，还具有高度跨学科性，涉及电气工程、物理学和心理学等领域。

2、讨论多媒体和超媒体之间的关系。

超媒体与多媒体的关系

超媒体是多媒体的进一步拓展。

多媒体概述

多媒体涵盖以下形式：

文本

图像

动画

视频

声音

强调多种媒体的综合运用。

超媒体概述

由泰德·尼尔森首次提出。

超越了纯文本范畴，包含以下媒体形式：

图形

图像

声音（连续媒体）

视频（连续媒体）

将多种媒体连接在一起。

超媒体的应用

万维网

是超媒体应用的典型代表。

也是最大的超媒体应用。

属于网络多媒体应用。

体现了多媒体与超媒体在网络环境中的融合。

3、水印是一种将隐藏信息嵌入数据的方法。这可能具有重要的法律意义，例如判断一张图片是否被复制、是否被篡改、谁拍摄了它、在哪里拍摄的等。请思考在拍摄图像时可以感知到并秘密嵌入图像中的“信息”，以回答这些问题。另外，类似的问题源于手机的使用，我们可以用什么来确定是谁在使用这部手机，以及何时、何地使用？这可以消除对密码的需求，或者防止他人使用你丢失的手机。

在拍摄图像时可嵌入的信息有：

拍摄者身份信息（如姓名、ID）

拍摄地点（经纬度、具体地址）

拍摄时间

拍摄设备信息（型号、序列号）等

对于手机使用，可通过以下方式确定使用者、使用地点和时间：

生物特征识别（指纹、面部识别、虹膜识别）

设备所在位置信息（GPS定位）

使用时间

4、简述如何使用Adobe Dreamweaver设计一个交互式网页。

在设计交互式网页时，可利用 HTML 4 的图层功能，每个图层对应文本、图像等 HTML 对象。

Adobe HTML5 Pack

：可作为扩展使用。

Dreamweaver 中的操作

：

通过高亮图层标记选中图层并应用效果；

像 Flash 那样添加按钮和行为用于导航与控制；

借助时间轴行为创建动画。

5、作为学习现有图像、视频和音乐处理软件的一项长期练习，制作一个1分钟的数字视频。完成这项练习后，需要达到怎样的效果？

熟悉PC或苹果设备，掌握以下多媒体软件的使用：

视频编辑器

（如 Adobe Premiere）

图像编辑器

（特别是 Photoshop）

制作MIDI的音乐记谱程序

数字音频处理软件

（如 Adobe Audition）

6、(a) 获取（或找到）至少三个数字视频文件。可以使用摄像机拍摄，从网上下载，或者使用静态图像相机、手机等的视频功能拍摄。也可以通过 Premiere 或类似软件从旧的模拟摄像机或录像机中进行视频捕获来制作自己的视频。(b) 尝试将其中一个视频上传到 YouTube。记录上传视频所需的时间，并讨论其与视频质量和大小的关系。比较上传时间和视频的总播放时间长短。(c) 使用音乐处理软件创作（或编辑）一个小的 MIDI 文件。(d) 创建（或找到）至少一个 WAV 文件（也可以是 MP3 文件）。可以自己进行数字化处理，也可以从网上找到一些。可以使用 Audition、Audacity 等软件编辑这个数字音频文件。(e) 使用 Photoshop 创建一个标题和一个结尾。掌握在 Photoshop 中创建 alpha 通道的方法： • 使用喜欢的图像，如 .JPG 格式的。 • 将背景设置为某种纯色，如白色。 • 确保选择了“图像”>“模式”>“RGB 颜色”。 • 选择背景区域（希望该区域在 Premiere 中保持不透明），使用魔棒工具。 • 选择“选择”>“存储选区”>“通道 = 新建”，确定。 • 选择“窗口”>“显示通道”，双击新通道并将其重命名为 Alpha，将其颜色设置为 (0,0,0)。 • 将文件保存为 .PSD 格式。如果在 Photoshop 中创建的 alpha 通道有白色背景，当在 Premiere 中选择“透明度”>“Alpha”时，需要选择“反转键”。(f) 将上述所有内容组合起来制作一个约 60 秒长的电影，包括一个标题、一些字幕、一些配乐和至少三种转场效果。视频的情节线要有趣。(g) 尝试不同的压缩方法，建议在最终产品中使用 MPEG 格式。Adobe Premiere 可以使用 DivX 编解码器生成电影，生成的输出电影可以在该机器上播放。(h) 以上是本练习的最低要求，可以发挥创意，但不要过度投入而影响到生活的其他方面！

多媒体制作练习步骤

这是一组多媒体制作练习，按以下步骤完成：

准备至少三个数字视频文件，获取方式多样。

上传一个视频到 YouTube，记录上传时间并探讨其与视频质量、大小的关系以及和播放时间的长短对比。

用音乐处理软件创作或编辑 MIDI 文件。

准备至少一个 WAV 或 MP3 文件，并可用软件编辑。

用 Photoshop 创建标题和结尾，掌握创建 alpha 通道的方法，若 alpha 通道背景为白色，在 Premiere 中需反转键。

整合上述内容制作约 60 秒的电影，包含标题、字幕、配乐和至少三种转场，情节要有趣。

尝试不同压缩方法，推荐最终产品用 MPEG 格式，也可尝试各种编解码器。

注意不要因过度创意而影响生活。

7、简要解释为什么我们需要使用少于24位的颜色，以及为什么这会产生问题。一般来说，我们需要做些什么来将24位颜色值自适应地转换为8位颜色值？

使用少于24位颜色的原因与转换方法

原因

空间问题

：例如不想不必要地填满智能手机内存。

文件体积更小

：8位颜色图像文件体积更小。

问题

边缘伪影

：简单的转换方案可能会在图像中出现边缘伪影。

RGB值的微小变化会导致代码转换，从而在感知上造成烦人的边缘。

转换方法

方法一：直接划分RGB立方体

将RGB立方体在每个维度上划分为相等的切片。

每个结果立方体的中心作为颜色查找表（LUT）的条目。

将RGB范围 0 – 255 缩放到适当范围生成8位代码。

方法二：基于人眼感知特性

人类对R和G比B更敏感。

将R和G范围 0 – 255 缩小到3位范围 0 – 7。

将B范围 0 – 255 缩小到2位范围 0 – 3。

方法三：中位数切割算法

排序与中位数

：先对R字节值排序并找到中位数。

标记像素

：

– 小于中位数的标记为0。

– 大于中位数的标记为1。

分别处理

：

– 对标记为0和1的像素分别处理G值和B值。

重复步骤

：最终得到8位颜色索引值。

8、假设我们有一个5位灰度图像。要在1位打印机上显示该图像，我们需要多大尺寸的有序抖动矩阵？

由于5位灰度图像有2
⁵
= 32个强度级别，而n×n的抖动矩阵能表示n² + 1个强度级别。要表示32个强度级别，可令n² + 1 ≥ 32，解得n ≥ √31 ≈ 5.57，所以n取6，即需要6×6的有序抖动矩阵。

9、对于颜色查找表（LUT）问题，在一个样本图像上尝试使用中值切割算法。简要解释为什么在处理红苹果图像时，该算法会在最终的24位彩色图像中，在需要的地方（即红色区域）提供更多的颜色渐变。


中值切割算法是一种自适应分区方案，试图将最多的比特和最强的区分能力放在颜色最集中的地方。

在红苹果图像中，大部分像素是红色调，R字节值的中值可能在 0 - 255 的红色范围内处于较高位置。

算法先对 R 字节值排序并找到中值，将小于中值的标记为 0，大于中值的标记为 1。

之后对标记为 0 的像素的 G 值排序并标记，再对标记为 1 的像素做同样操作。

对蓝色通道也重复此过程，最终形成 8 位颜色索引值。

这种方案会将比特集中在需要区分大量相近颜色的地方，在红苹果图像中，红色像素集中，所以会在红色区域分配更多比特，从而在红色区域提供更多颜色渐变。

10、关于非有序抖动，存在这样的情况：可以使用更大的图案，但空间分辨率与强度分辨率之间的权衡受人眼视觉敏锐度的限制（在正常光照下约为1弧分）。(a) 这句话是什么意思？(b) 如果我们将一张纸拿在距离自己1英尺远的地方，点与点之间的近似直线距离是多少？（信息：1弧分是1度角的1/60。圆上的弧长等于角度（弧度制）乘以半径。）我们能看到300dpi打印机打印的点之间的间隙吗？

(a) 这句话意味着虽然可以采用更大的图案来进行非有序抖动，但由于人眼视觉敏锐度的限制，在提升强度分辨率时，空间分辨率的降低程度是有限的，不能无限制地通过增大图案来提高强度分辨率而牺牲空间分辨率。

(b) 首先将1弧分转化为弧度，

1弧分 = 1/60度 = (1/60)×(π/180)弧度。

已知半径r = 1英尺，根据弧长公式l = θr（θ为弧度制角度，r为半径），

可得弧长 l = (1/60)×(π/180)×1英尺 ≈ 0.00029英尺。

1英尺 = 12英寸，

0.00029英尺 ≈ 0.0035英寸。

300dpi表示每英寸有300个点，那么点间距为1/300英寸 ≈ 0.0033英寸。

由于计算出的人眼可分辨的距离0.0035英寸略大于300dpi打印机的点间距0.0033英寸，所以通常情况下可能较难看到点之间的间隙。

11、考虑以下一组与颜色相关的术语：(a) 波长 (b) 颜色级别 (c) 亮度 (d) 白度。你将如何把以下（表述更模糊的）特性与上述术语进行匹配？(a) 亮度 (b) 色调 (c) 饱和度 (d) 色度

(a) 亮度对应 (c) 亮度；

(b) 色调对应 (a) 波长；

(d) 色度与 (b) 颜色级别相关。

12、你认为欧洲的PAL制和北美的NTSC制，哪种制式的闪烁更不易察觉？请说明结论的理由。

欧洲的PAL制闪烁更不易察觉

PAL制帧率为25fps。

NTSC制帧率为29.97fps。

虽然NTSC制帧率稍高，但人眼对闪烁的感知不仅与帧率有关，还和扫描线数量有关。

PAL制每帧有625条扫描线。

NTSC制每帧有525条扫描线。

更高的扫描线数量意味着画面更清晰、稳定，能有效减少闪烁感，因此PAL制闪烁更不易察觉。

13、展示在解调过程中如何从NTSC色度信号C（假设C = I · cos(Fsct) + Q · sin(Fsct) ，其中I、Q为信号分量，Fsc为副载波频率）中提取Q信号。

首先将信号C乘以2 sin(F
_s
ct)，即

C · 2 sin(F
_s
ct) = I · 2 cos(F
_s
ct)sin(F
_s
ct) + Q · 2 sin²(F
_s
ct) ，

然后应用低通滤波以获得Q并丢弃两个较高频率（2F
_sc
）项。

14、数字视频采用色度子采样。这样做的目的是什么？为什么它是可行的？


# 色度子采样说明

## 目的
由于人类对彩色的空间分辨率远低于黑白，对色度信号进行抽取（色度子采样）可减少数据量。

## 可行性原因
人类视觉系统对彩色的空间分辨率较低，对色度信号进行降采样不会对视觉感知产生显著影响，所以色度子采样是可行的。

15、隔行扫描视频的优点是什么？它存在哪些问题？

优点

在制定标准时，难以快速传输完整帧中的大量信息以避免闪烁。

隔行扫描向眼睛呈现双倍数量的场，可减少感知到的闪烁。

问题

由于隔行扫描，奇数行和偶数行在时间上相互错开，通常不易察觉。

当屏幕上有快速动作时，可能会出现模糊现象。

16、我们希望为医生开发一种新的互联网服务。医学超声的频率范围是2 – 10MHz；我们应该选择什么样的采样率？

根据奈奎斯特采样定理，采样率应至少为信号最高频率的两倍。医学超声频率范围是 2 – 10 MHz，最高频率为 10 MHz，所以采样率应至少为 20 MHz。

17、如果大号的声音比歌手的声音高20分贝，那么大号与歌手声音的强度比是多少？

根据分贝计算公式 $ L = 10log_{10}(I / I₀) $，设歌手声音强度为 $ I₁ $，大号声音强度为 $ I₂ $，则

10log10(I₂/I₀)−10log10(I₁/I₀)=2010log10⁡(I₂/I₀)−10log10⁡(I₁/I₀)=20

化简可得

log10(I₂/I₁)=2log10⁡(I₂/I₁)=2

所以

I₂/I₁=102=100I₂/I₁=102=100

即强度比为 $ 100:1 $。

18、已知由于音频放大器的频率响应函数，在可听频率范围两端出现音频输出损失是不可避免的。(a) 如果中频范围的输出电压为1伏，在18kHz处有 – 3dB的损失，那么该频率下的输出电压是多少？(b) 为了补偿损失，听众可以通过均衡器调整不同频率的增益（进而调整输出）。如果损失仍为 – 3dB，且在18kHz处通过均衡器的增益为6dB，那么现在的输出电压是多少？[提示：假设log₁₀ 2 = 0.3。]

本题可根据提示进行计算。

(a) -3dB意味着输出电压变为原来的1/√2，约为0.707伏；

(b) 先损失 – 3dB，再增益6dB，相当于总体增益3dB，输出电压变为原来的√2倍，约为1.414伏。

19、假设采样频率是真实频率的1.5倍，那么混叠频率是多少？

当真实频率在采样频率的1.0到1.5倍之间时，混叠频率等于真实频率减去采样频率。

20、请说明你认为卡拉OK机是如何工作的。提示：商业音乐录音的混音方式是，每个乐器发送到左右声道的“声像”参数不同。也就是说，对于一个乐器，会强调左声道或右声道。为了便于去除歌手的声音，歌手的音轨应该如何录制？（通常就是这么做的）

由于商业音乐录音中各乐器左右声道“声像”参数不同，可利用此特点，将歌手声音以相同音量和相位平均分配到左右声道进行录制。这样在播放时，通过相减或滤波等操作，将左右声道信号相减，就能去除歌手声音，留下伴奏。

21、假设电话语音的动态范围意味着Vmax/Vmin的比值约为256。使用均匀量化，我们应该使用多少位来对语音进行编码，以使量化噪声至少比最小可检测电话声音小一个数量级？

由于动态范围与量化位数相关，每增加1位可提供约6dB的分辨率。已知

VmaxVmin=256VmaxVmin=256

对应的动态范围为

20log10(256)≈48dB20log10⁡(256)≈48dB

为使量化噪声至少比最小可检测声音小一个数量级，结合每比特约6dB的分辨率，大约需要

8位

来编码语音。

22、假设一个信号包含1kHz、10kHz和21kHz的音调，并以12kHz的速率进行采样（然后通过一个抗混叠滤波器将输出限制在6kHz）。输出中包含哪些音调？提示：大部分输出是由混叠产生的。

1kHz的音调会正常出现在输出中；

10kHz的音调经混叠后，其别名频率为2kHz（12kHz – 10kHz），会出现在输出中；

21kHz的音调经混叠后，其别名频率为3kHz（21kHz – 2×12kHz + 12kHz – 6kHz），会出现在输出中。

所以输出中包含1kHz、2kHz和3kHz的音调。

23、在通用 MIDI 中，“中央 C 上方的 A”（频率为 440 Hz）是音符 69。要在通道 1 上以最大音量播放比“中央 C 上方的 A”高一个八度（即频率翻倍）的音符，应该发送哪些 MIDI 字节（十六进制）？（不包括起始/停止位）信息：一个八度在钢琴上是 12 个半音，即升高 12 个音符。

首先，一个八度是 12 个音符，“中央 C 上方的 A”是音符 69，那么高一个八度的音符编号是

69 + 12 = 81
。最大音量对应的速度值是

127
（十六进制为

0x7F
），通道 1 在十六进制状态字节中用

0x90
表示（因为 MIDI 通道编号从 0 开始，这里通道 1 对应编号

0
），音符 81 十六进制为

0x51
。所以应发送的 MIDI 字节（十六进制）是

0x90 0x51 0x7F
。

24、给出一个MIDI语音消息的示例（用英文，而非十六进制）。描述你所建议消息的“汇编”语句的各个部分。“程序改变”消息有什么作用？假设“程序改变”的十六进制表示是&HC1。指令&HC103的作用是什么？

示例：Note On message。

“汇编”语句部分：

状态字节（Status byte）用于表明消息类型

数据字节1（Data byte1）用于识别音符

数据字节2（Data byte2）用于指定演奏速度

“程序改变”消息的作用是为特定通道加载特定的音色。指令

&HC103
表示在通道1上加载编号为3的音色。

25、假设输入源是均值为零、方差为 1 的高斯分布，其概率密度函数定义为 fX(x) = 1 / (√(2π)) * e^(−x² / 2)。我们要找到一个四级 Lloyd – Max 量化器。设重建水平为 yi = [y0i, …, y3i] ，边界值为 bi = [b0i, …, b3i]。初始重建水平设置为 y0 = [−2, −1, 1, 2]。由于该源是无界的，最外侧的两个边界是 +∞ 和 −∞，其他边界值计算为重建值的中点，所以初始边界值 b0 = [−∞, −1.5, 0, 1.5, +∞]。通过数值积分和迭代公式（迭代公式为：对于每个重建水平 yj，通过对区间 [bj, bj + 1] 进行积分计算新的重建水平，公式为新的 yj = ∫(从 bj 到 bj + 1) x * fX(x) dx / ∫(从 bj 到 bj + 1) fX(x) dx ）进行迭代，先进行一次 i = 1 的迭代，求出 y10、y11、y12、y13，同时计算 y1 和 y0 差值的平方误差。迭代会一直重复，直到重建水平的连续估计值之间的平方误差低于某个预定义的阈值 φ。编写一个小程序来实现上述描述的 Lloyd – Max 量化器。

以下是一个使用 Python 实现上述 Lloyd – Max 量化器的示例代码：


import numpy as np
from scipy.integrate import quad

# 定义高斯概率密度函数
def fX(x):
    return (1 / np.sqrt(2 * np.pi)) * np.exp(-x**2 / 2)

# 定义计算重建值的函数
def calculate_y(bj_minus_1, bj):
    numerator, _ = quad(lambda x: x * fX(x), bj_minus_1, bj)
    denominator, _ = quad(fX, bj_minus_1, bj)
    if denominator == 0:
        return 0
    return numerator / denominator

# 定义 Lloyd - Max 算法迭代函数
def lloyd_max_quantizer(y0, phi=1e-6):
    y = np.array(y0)
    while True:
        b = [-np.inf] + [(y[j + 1] + y[j]) / 2 for j in range(len(y) - 1)] + [np.inf]
        new_y = []
        for j in range(len(y)):
            new_y.append(calculate_y(b[j], b[j + 1]))
        new_y = np.array(new_y)
        squared_error = np.sum((new_y - y)**2)
        if squared_error < phi:
            break
        y = new_y
    return y

# 初始重建水平
y0 = [-2, -1, 1, 2]

# 运行 Lloyd - Max 量化器
y_final = lloyd_max_quantizer(y0)
print("最终重建水平:", y_final)

这段代码首先定义了高斯概率密度函数

fX
，然后实现了计算重建值的函数

calculate_y
。

lloyd_max_quantizer
函数实现了 Lloyd – Max 算法的迭代过程，直到重建水平的连续估计值之间的平方误差低于预定义的阈值

phi
。最后，使用初始重建水平

y0
运行量化器并输出最终的重建水平。

26、如果二维离散余弦变换（2D DCT）的块大小为8×8，并且我们仅使用直流（DC）分量来创建缩略图，那么我们使用的原始像素比例是多少？

在8×8的块中，只有1个DC分量，总像素数为8×8 = 64个，所以使用的原始像素比例为1/64。

27、编写一个程序来验证离散余弦变换（DCT）矩阵T8是正交矩阵，即它的所有行和列都是正交单位向量（标准正交向量）。这里的T8是一个8×8的矩阵，其元素计算规则如下：当i = 0时，T8[i, j] = 1 / (2 * sqrt(2))；当i > 0时，T8[i, j] = (1 / 2) * cos(((2 * j + 1) * i * pi) / 16) ，其中i和j分别是矩阵的行索引和列索引，取值范围是从0到7。

以下是一个Python程序，用于验证DCT矩阵T8是否为正交矩阵：


import numpy as np

# 定义DCT矩阵T8
N = 8
T8 = np.zeros((N, N))
omega = np.pi
for i in range(N):
    for j in range(N):
        if i == 0:
            T8[i, j] = 1 / (2 * np.sqrt(2))
        else:
            T8[i, j] = (1 / 2) * np.cos(((2 * j + 1) * i * omega) / 16)

# 验证行是否正交
rows_orthogonal = True
for p in range(N):
    for q in range(N):
        if p != q:
            dot_product = np.dot(T8[p, :], T8[q, :])
            if abs(dot_product) > 1e-10:
                rows_orthogonal = False
                break
        else:
            dot_product = np.dot(T8[p, :], T8[q, :])
            if abs(dot_product - 1) > 1e-10:
                rows_orthogonal = False
                break
    if not rows_orthogonal:
        break

# 验证列是否正交
cols_orthogonal = True
for p in range(N):
    for q in range(N):
        if p != q:
            dot_product = np.dot(T8[:, p], T8[:, q])
            if abs(dot_product) > 1e-10:
                cols_orthogonal = False
                break
        else:
            dot_product = np.dot(T8[:, p], T8[:, q])
            if abs(dot_product - 1) > 1e-10:
                cols_orthogonal = False
                break
    if not cols_orthogonal:
        break

# 输出结果
if rows_orthogonal and cols_orthogonal:
    print("T8是正交矩阵。")
else:
    print("T8不是正交矩阵。")

这个程序首先定义了DCT矩阵T8，然后分别验证矩阵的行和列是否为正交单位向量。如果行和列都是正交单位向量，则输出“T8是正交矩阵”；否则，输出“T8不是正交矩阵”。