多媒体技术与应用解析

table {
border-collapse: collapse;
width: 100%;
margin-bottom: 1rem;
}
th, td {
border: 1px solid #ddd;
padding: 8px;
text-align: left;
}
th {
background-color: #f2f2f2;
}
tr:nth-child(even) {
background-color: #f9f9f9;
}
pre {
background-color: #f8f8f8;
padding: 15px;
border-radius: 4px;
overflow-x: auto;
}

1、用你自己的话描述什么是“多媒体”。多媒体仅仅是不同类型媒体的集合吗?


多媒体并非只是不同类型媒体的简单集合。娱乐供应商认为多媒体是交互式电视等服务;硬件供应商觉得多媒体是具备良好音效能力的笔记本电脑等;计算机科学或工程专业学生认为多媒体是利用文本、图像、动画、视频、声音等多种形式并具备一定交互性的应用。

多媒体系统涵盖支持与网络、工具、终端系统和应用等方面,其研究涉及计算机科学各分支,且具有高度跨学科性,涉及电气工程、物理学和心理学等领域。

2、你的任务是思考通过互联网传输气味的问题。假设在一个地方有一个气味传感器,我们希望将(比如说)“香气向量”传输到接收器,以重现相同的气味感觉。你需要设计这样一个系统。列出需要考虑的三个关键问题和该传输系统的两个应用场景。提示:考虑医疗应用。

三个关键问题


气味准确测量与量化


确保传感器准确捕捉和量化气味特征。


数据传输稳定性


保证香气向量在互联网传输中不丢失和失真。


气味重现精准度


使接收器能精准重现相同气味感觉。

两个应用场景


医疗诊断


辅助医生远程诊断患者身体状况。


康复治疗


通过特定气味刺激帮助患者康复。

3、水印是一种将隐藏信息嵌入数据的方法,这在法律方面有重要意义,比如可以用于判断图片是否被复制、篡改,确定谁拍摄了图片以及拍摄地点等。请思考在拍摄图像时可以感知到并秘密嵌入图像中的“信息”,以回答上述这些问题。另外,在手机使用场景中,我们可以用什么来确定是谁在使用这部手机,在哪里使用,以及何时使用?这可以消除使用丢失手机时设置密码或他人使用的需求。

在拍摄图像时可嵌入的“信息”有:

拍摄设备的唯一标识

拍摄地点的经纬度

拍摄时间

拍摄者的身份信息

对于手机使用情况,可通过以下方式确定相关信息:


设备的唯一识别码

:用于识别具体设备


所在基站信息

:用于确定位置


时间戳

:用于确定使用时间


生物识别技术

(如指纹、面部识别):用于确定使用者身份

4、在本地实验室软件中查找并学习Autodesk 3ds Max。阅读在线教程,了解该软件的3D建模技术方法。使用该产品学习纹理映射和动画制作。完成这些步骤后制作一个3D模型。

操作步骤

在本地实验室软件里找到

Autodesk 3ds Max

阅读在线教程了解其

3D建模技术

学习

纹理映射



动画制作

最后制作一个

3D模型

5、假设我们每个像素有24位可用于彩色图像。然而,我们注意到人类对R和G的敏感度比对B高——实际上,对R或G的敏感度是对B的1.5倍。我们如何最好地利用这些可用的位?

可以将R和G范围

0..255

缩小到

3位范围

0..7


,将B范围缩小到

2位范围

0..3


,总共

8位



缩小R和G时,可将R或G字节值除以

(256/8 =) 32

然后截断。

每个像素用其

8位索引

替换,通过颜色查找表生成

24位颜色

也可采用

中值切割算法

等自适应分区方案,将更多位和更强的区分能力放在颜色最集中的地方。

6、对于颜色查找表(color LUT)问题,在一个样本图像上尝试中值切割算法。简要解释为什么在一张红苹果图像上执行该算法时,会在生成的24位彩色图像中,在需要的地方(即红色区域)提供更多的颜色渐变。


中值切割算法是一种自适应分区方案,会将更多的比特位和区分能力放在颜色最集中的地方。

在红苹果图像中,大部分像素是红色调,该算法会先对R字节值排序并找到其中值,小于中值的标记为`0`,大于中值的标记为`1`。由于红苹果图像中红色像素多,R字节值的中值在`0 - 255`的红色刻度上可能较高。

之后对标记为`0`的像素的G值排序并标记,再对B通道进行同样操作,重复步骤得到`8`位颜色索引值。

这样的方案会将比特位集中在需要区分大量相近颜色的地方,在红苹果图像中就是红色区域,所以能在红色区域提供更多颜色渐变。

7、(a) 句子“甚至可以使用更大的图案,但空间分辨率与强度分辨率之间的权衡受到我们视觉敏锐度的限制(在正常光照下约为1弧分)”是什么意思?(b) 如果我们将一张纸拿在距离为1英尺的地方,点与点之间的近似直线距离是多少?(信息:1弧分是1度角的1/60。圆上的弧长等于角度(弧度制)乘以半径。)我们能看到300 dpi打印机打印的点之间的间隙吗?

(a) 该句子意味着虽然可以采用更大的图案来进行非有序抖动,但

空间分辨率



强度分辨率

之间存在一种权衡关系,且这种权衡受

人类视觉敏锐度

的限制,在正常光照下视觉敏锐度约为

1弧分

(b) 首先将

1弧分

转化为弧度:

1度 = π/180弧度

1弧分 = 1/60度

所以 1弧分 = (1/60) × (π/180) 弧度

已知半径

r

= 1英尺,根据弧长公式:


l

= 角度(弧度制) × 半径

可得弧长:


l

= (1/60) × (π/180) × 1 英尺 ≈ 0.00029 英尺

单位换算:

1英尺 = 12英寸

所以

l

≈ 0.00029 × 12 英寸 =

0.0035英寸

打印机参数:


300 dpi

表示每英寸有300个点

点间距 = 1/300 英寸 ≈

0.0033英寸

结论:

由于计算出的可分辨的点间距

0.0035英寸

略大于

300 dpi

打印机的点间距

0.0033英寸

,所以

理论上较难看到

300 dpi 打印机打印的点之间的间隙。

8、考虑以下一组与颜色相关的术语:(a) 波长,(b) 颜色级别,(c) 亮度,(d) 白度。你将如何把以下(表述更模糊的)特征与上述每个术语相匹配?(a) 亮度,(b) 色调,(c) 饱和度,(d) 色度。


亮度对应 (c) 亮度;  
色调对应 (a) 波长;  
饱和度与颜色的“纯度”相关,在给定内容中没有直接与之对应的明确术语,但更接近颜色“饱和”程度概念,勉强对应 (b) 颜色级别;  
色度是对颜色属性的综合度量,在给定内容中无直接对应术语,从广义颜色属性上可对应 (b) 颜色级别。  

所以大致匹配为:  
(a) 亮度 - (c) 亮度;  
(b) 色调 - (a) 波长;  
(c) 饱和度 - (b) 颜色级别;  
(d) 色度 - (b) 颜色级别。

9、 (a) 假设摄像机未对图像进行伽马校正。一般来说,这些图像在屏幕上会呈现出怎样的效果?(b) 如果我们人为地提高存储图像像素的输出伽马值(可以在Photoshop中进行此操作),图像会受到什么影响?

(a) 若图像未经伽马校正,在屏幕上显示时,较暗的值会显示得更暗。

(b) 人为提高存储图像像素的输出伽马值,会使图像整体变暗,暗部颜色会变得更暗,可能导致图像暗部细节丢失。

10、彩色喷墨打印机使用CMYK模型。当青色墨水喷在一张白纸上时,(i)为什么在日光下它看起来是青色的?(ii)在蓝光下它会呈现什么颜色?为什么?

(i)在日光下,青色墨水看起来是青色是因为青色是减色法中的原色,它会吸收红光,反射绿光和蓝光,而日光包含各种可见光,人眼接收到反射的绿光和蓝光混合后就感知为青色。

(ii)在蓝光下,青色墨水会呈现蓝色。因为青色墨水能反射蓝光,所以在蓝光照射下,它反射的蓝光进入人眼,人就看到蓝色。

11、你认为欧洲的PAL制和北美的NTSC制,哪种制式的闪烁更不易察觉?请说明结论的理由。

欧洲的PAL制闪烁更不易察觉。PAL制使用每秒25帧,NTSC制为了避免音频和颜色信号的潜在干扰,将帧率降为约29.97fps。

通常帧率越高,闪烁越不易察觉,然而人眼对于接近或超过24fps的帧率感知差异不大,且PAL制有625条扫描线,高于NTSC制的525条,更高的分辨率有助于减少闪烁的可察觉性,所以PAL制的闪烁更不易察觉。

12、有时,电视信号会被组合成少于电视传输所需的所有部分。(a) 演播室广播电视总共使用多少种信号,分别是什么信号?(b) S – video 代表什么?S – video 使用多少种信号,分别是什么信号?(c) 标准模拟电视接收实际广播了多少种信号?这种视频叫什么?

(a) 演播室广播电视使用三种单独的视频信号,分别对应红、绿、蓝图像平面,即分量视频信号。

(b) S-video 代表分离视频或超级视频。S-video 使用两种信号,一根线传输亮度信号,另一根线传输复合色度信号。

(c) 标准模拟电视接收实际广播一种信号,这种视频叫复合视频。

13、数字视频采用色度子采样。这样做的目的是什么?为什么可行?

目的:

由于人类对彩色的空间分辨率远低于黑白,对色度信号进行抽取(子采样)是合理的,可减少数据量。

可行性:

因为人类视觉系统对彩色的空间分辨率较低,所以可以在不显著影响视觉感知的情况下对色度信号进行子采样。

14、普通电视与高清电视/超高清电视最显著的区别是什么?高清电视/超高清电视发展的主要推动力是什么?

以下是将给定文本内容调整为Markdown格式的结果:


普通电视与高清电视/超高清电视最显著的区别在于

画面质量和带宽需求


高清电视

(HDTV)和

超高清电视

(UHDTV)能提供更优画面质量,接近IMAX电影。

同时,它们需要更高的带宽/比特率。

高清电视(HDTV)

发展的主要推动力是宽屏电影。

观众发现坐在屏幕附近能获得更强的沉浸感。

因此HDTV主要是为了增加视野,尤其是

宽度

超高清电视(UHDTV)

发展是为了满足如

虚拟现实

等需要真实沉浸感的应用。

15、隔行扫描视频的优点是什么?它存在哪些问题?


## 优点

在制定标准时,难以快速传输整帧信息以避免闪烁,**隔行扫描**通过向眼睛呈现双倍数量的场,减少了感知到的闪烁。

## 问题

由于隔行扫描,奇数行和偶数行在时间上相互偏移,通常不易察觉,但在屏幕上有快速动作时,可能会出现模糊现象。

16、给出至少三个理由,说明峰值信噪比(PSNR)不一定是评估视频质量的好指标。

PSNR不一定能反映人所感知的质量,即视觉质量。例如,给图片中所有像素的强度值加上(或减去)一个小的固定值,视觉上可能注意不到质量变化,但PSNR肯定会受影响。

当对有损图像中所有像素任意添加强度值时,这些变化在视觉上几乎难以察觉,即几乎不影响感知的图像质量,但PSNR会改变,所以PSNR不是图像质量评估的最佳指标。

视频质量评估的主要目标是找到比PSNR等简单指标更好的度量方法,使评估能客观进行且结果与人类评估结果具有可比性,这暗示了PSNR存在不足。

17、描述H.261如何处理视频中的时间和空间冗余。

H.261编码方式

处理空间冗余


Y帧宏块大小

:16×16像素


Cb和Cr帧对应区域

:8×8像素

处理流程:

对每个

8×8块

应用

DCT变换

DCT系数经过

量化阶段

量化后的系数进行

之字形扫描

最终进行

熵编码

处理时间冗余

采用

基于运动补偿的P帧编码方案

编码过程:

为目标帧中的每个宏块分配一个

运动向量

通过预测得出

差异宏块

来衡量预测误差

差异宏块的每个

8×8块

同样经过以下处理:


DCT


量化


之字形扫描


熵编码


运动向量

也会被编码


特殊情况

:若预测误差超过可接受水平,宏块本身将被直接编码。

编码优势:

P帧编码对差异宏块进行编码

差异宏块的熵通常比目标宏块小很多

因此可实现

高压缩比

18、讨论H.263中的高级预测模式是如何实现更好的压缩效果的。

在高级预测模式下,用于运动补偿的宏块大小从16减小到8,为亮度图像中的每个宏块生成四个运动向量(来自每个8×8块)。

之后,8×8亮度预测块中的每个像素根据当前亮度块的运动向量以及相邻块的四个运动向量中的两个(即当前亮度块左侧或右侧块的一个运动向量和上方或下方块的一个运动向量)对三个预测值进行加权求和。

虽然发送四个运动向量会产生一些额外开销,但该模式的使用通常能产生更好的预测效果,从而在压缩方面获得显著增益。实验表明,在该模式下,帧间帧的比特率节省4%,帧内帧的比特率节省10%。

19、我们知道,MPEG视频压缩使用I帧、P帧和B帧。然而,早期的H.261标准不使用B帧。描述一种在没有B帧的情况下视频压缩效果不佳的情况。

当视频中有适度运动时,没有B帧的视频压缩效果不佳。引入B帧能双向预测,常可提高预测质量和压缩比且不牺牲画质。在适度运动视频里,有B帧的模式效果令人满意,而没有B帧则无法实现这种基于双向预测的有效压缩。

20、H.264、H.265和H.266中使用了整数变换。(a) 离散余弦变换(DCT)和整数变换之间有什么关系?(b) 使用整数变换而非离散余弦变换的主要优点是什么?

(a) H.264中的4×4变换近似于DCT和IDCT,可通过对DCT矩阵的元素进行缩放并四舍五入到最接近的整数来推导近似于DCT矩阵的缩放4×4整数变换矩阵。

(b) 整数运算允许在所有处理器上进行精确的逆变换,并消除了以前基于变换的编解码器中的编码器/解码器不匹配问题;H.264还提供了一种具有非线性步长的量化方案,以在量化尺度的高端和低端都能获得精确的速率控制;4×4整数变换仅涉及整数、16位算术运算,能非常高效地实现。

21、推导H.265中整数变换的H8×8矩阵

以下是调整为 Markdown 格式的文本内容:


H8×8 可以通过取 H16×16 矩阵的第 0、2、4、6 等行的前 8 个元素得到,即:

H8×8=[6464646464646464 908780705743259 89755018−18−50−75−89 87579−43−80−90−70−25 8336−36−83−83−363683 809−70−87−25579043 75−18−89−50508918−75 70−43−8799025−80−57 ]H8×8=[6464646464646464 908780705743259 89755018−18−50−75−89 87579−43−80−90−70−25 8336−36−83−83−363683 809−70−87−25579043 75−18−89−50508918−75 70−43−8799025−80−57 ]


22、请列举至少三个H.265中便于并行处理的特性。

可变块大小运动补偿,亮度图像中块大小从4×4到64×64,宏块结构被不同级别和大小的编码块四叉树结构取代;

多种大小的整数变换,包括4×4、8×8、16×16到32×32。

23、编写一个程序,为简化的 H.26* 编码器和解码器实现具有运动补偿、变换编码和量化的视频压缩。要求如下:1. 使用 4:2:0 进行色度子采样。2. 选择一个类似于 MPEG – 1、2 的视频帧序列(I 帧、P 帧、B 帧),不使用隔行扫描。3. 对于 I 帧,实现 H.264 的 4×4 帧内预测编码。4. 对于 P 帧和 B 帧,仅使用 8×8 进行运动估计,使用对数搜索来获取运动向量,之后使用 H.264 中的 4×4 整数变换。5. 使用指定的量化和缩放矩阵(注:这里假设式 12.5 和 12.7 是关于量化和缩放矩阵的规定,但不影响答题,实际操作中明确矩阵即可),控制并展示不同压缩级别和量化损失的效果。6. 不实现熵编码部分。可以选择包含任何公开可用的相关代码。

根据要求,该程序的实现步骤如下:


色度子采样

:使用 4:2:0 进行色度子采样。


帧序列选择

:选择类似于 MPEG-1、2 的视频帧序列(I 帧、P 帧、B 帧),且不使用隔行扫描。


I 帧处理

:实现 H.264 的 4×4 帧内预测编码。


P 帧和 B 帧处理

:仅使用 8×8 进行运动估计,使用对数搜索获取运动向量,之后使用 H.264 中的 4×4 整数变换。


量化和缩放

:使用指定的量化和缩放矩阵(注:这里假设式 12.5 和 12.7 是关于量化和缩放矩阵的规定,但不影响答题,实际操作中明确矩阵即可),控制并展示不同压缩级别和量化损失的效果。


熵编码

:不实现熵编码部分,可选择包含公开可用的相关代码。

24、使用C或MATLAB输入一个语音片段,验证共振峰确实存在,即任何语音片段只有少数重要频率。此外,验证随着所检查语音间隔的变化,共振峰也会发生变化。

一个简单的编码频率分析器的方法是复用离散余弦变换(DCT)编码思想。

在一维情况下,DCT变换公式为:

F(u)=2N−−−√⋅C(u)⋅∑i=0N−1cos((2i+1)uπ2N)⋅f(i)F(u)=2N⋅C(u)⋅∑i=0N−1cos⁡((2i+1)uπ2N)⋅f(i)

其中 $ i, u = 0, 1, …, N – 1 $,常数 $ C(u) $ 的取值为:

当 $ u = 0 $ 时,$ C(u) = frac{sqrt{2}}{2} $

否则,$ C(u) = 1 $

对语音片段的前40ms或后40ms(即32个样本)进行一维DCT变换,就可以得到绝对频率分量。

25、讨论在CELP编码中使用代数码本的优势。

由于代数码本的特殊结构,存在一种快速算法可进行高效的码字搜索。

26、LPC – 10语音编码器在强背景噪声下质量会迅速下降。请讨论为什么MELP在相同的嘈杂条件下表现更好。

MELP在嘈杂条件下表现更好的原因


采用多频段软判决模型


与LPC – 10采用的硬判决浊音/清音模型不同,MELP对激励信号使用多频段软判决模型。LP残差经过带通滤波,并为每个频段估计浊音强度参数,解码器可根据各频段的浊音强度组合周期脉冲和白噪声来重建激励信号,这种方式能更好地适应不同频段在噪声环境下的特性。


模拟边缘浊音段


为消除传统LPC – 10语音编码器在浊音语音段的嗡嗡声,MELP采用抖动浊音状态来模拟边缘浊音语音段。通过非周期性标志指示抖动状态,若在分析端设置了非周期性标志,接收端会在周期脉冲激励中添加随机移位分量,可减少噪声对语音重建的影响。


不假设残差信号频谱平坦


为更好地重建语音信号的短时频谱,MELP不像LPC – 10语音编码器那样假设残差信号的频谱是平坦的。在对LP残差信号进行归一化后,MELP保留对应于前min(10, P/4)个基频谐波的幅度,能更准确地反映语音信号的频谱特征,减少噪声干扰。


应用感知加权滤波器


MELP在语音重建过程中应用感知加权滤波器来抑制量化噪声,提高主观语音质量,有助于在噪声环境下提升语音的可懂度和清晰度。

27、响度与振幅。以下哪个声音更响亮:60 dB的1000 Hz声音还是60 dB的100 Hz声音?

60 dB的1000 Hz声音更响亮。因为人耳对低频不敏感,在相同分贝下,1000 Hz处于人耳更敏感的频率范围,而100 Hz属于低频,所以1000 Hz声音听起来更响亮。

28、在网络上搜索,了解以下心理声学现象的含义:(a) 虚拟音高 (b) 听觉场景分析 (c) 与八度相关的复音 (d) 三全音悖论 (e) 非谐和复音

以下是这些心理声学现象的含义:

(a)

虚拟音高

:当多个谐波成分组合时,即使基频缺失,听众仍能感知到一个特定的音高,这个感知的音高被称为虚拟音高。

(b)

听觉场景分析

:人类听觉系统将复杂的声音环境分解为不同的听觉对象或事件的过程,以便更好地理解和处理声音信息。

(c)

与八度相关的复音

:包含多个频率成分,且这些频率之间存在八度关系的复音。在音乐中,八度是一种重要的音程关系,具有和谐、稳定的听觉感受。

(d)

三全音悖论

:一种听觉错觉现象,不同的人对三全音(两个音之间相差三个全音)的感知和判断可能存在差异,甚至会出现相反的判断结果。

(e)

非谐和复音

:由多个频率成分组成,但这些频率之间的关系不符合谐波关系的复音。非谐和复音通常会产生不和谐、不稳定的听觉感受。

29、将一段CD音频转换为MP3格式,比较原始音频和压缩后音频的质量,你能听出区别吗?

很多人无法听出原始CD音频和转换后的MP3音频之间的区别。

30、(a) 非对称数字用户线路(ADSL)使用电缆调制解调器进行数据传输。(b) 为避免网络过载,传输控制协议(TCP)采用了流量控制机制。(c) TCP的流量控制和拥塞控制都是基于窗口的。(d) 虚电路不会出现乱序交付的情况。(e) 用户数据报协议(UDP)的报头开销比TCP低。(f) 数据报网络在传输前需要进行呼叫建立。(g) 当前的互联网不提供有保证的服务。(h) 恒定比特率(CBR)视频比可变比特率(VBR)视频更便于进行网络流量工程。

(a) 错误

(b) 正确

(c) 正确

(d) 正确

(e) 正确

(f) 错误

(g) 正确

(h) 正确

31、解释为什么RTP没有内置拥塞控制机制,而TCP有。此外,请注意RTSP在流控制方面独立于RTP,即使用单独的通道,这被称为带外,因为数据通道和控制通道是分开的。将两者合并到单个通道中有什么优点或缺点?

RTP与TCP拥塞控制机制的区别及RTSP与RTP合并优缺点

RTP与TCP拥塞控制机制的区别

RTP没有内置拥塞控制机制,而TCP有,原因如下:


RTP用于实时数据传输

,如音频和视频流。


多媒体数据传输具有丢包容忍性

,不需要完美的可靠性。


重传延迟到达的数据在实时应用中可能无法使用


持续重传甚至会阻塞数据流

,不利于连续流传输。


TCP的速率剧烈波动对连续媒体通常不合适


TCP面向连接

,旨在提供可靠的数据传输,需要通过拥塞控制机制来保证传输的稳定性和效率。

将RTSP和RTP合并到单个通道的优缺点

优点:

可能简化系统设计。

减少资源开销。

降低实现复杂度。

缺点:

控制信息和数据混合可能影响实时性。

增加拥塞风险。

一个通道出现问题会同时影响数据和控制信息传输。

32、对于最优提前工作平滑技术,如何通过算法确定在哪个点改变计划的传输速率?传输速率是多少?

算法从区间 $[p, q = p + 1]$ 开始,不断递增 $q$,每次重新计算 $R_{ ext{max}}$ 和 $R_{ ext{min}}$。

若 $R_{ ext{max}}$ 要增加,在区间 $[p, q_{ ext{max}}]$ 创建速率为 $R_{ ext{max}}$ 的速率段,$q_{ ext{max}}$ 是缓冲区满的最晚点;

若 $R_{ ext{min}}$ 要降低,在区间 $[p, q_{ ext{min}}]$ 创建速率为 $R_{ ext{min}}$ 的速率段,$q_{ ext{min}}$ 是缓冲区为空的最晚点。

最大恒定数据速率:

Rmax=minp+1≤t≤qW(t)−(D(p)+B(p))t−pRmax=minp+1≤t≤qW(t)−(D(p)+B(p))t−p

最小数据速率:

Rmin=maxp+1≤t≤qD(t)−(D(p)+B(p))t−pRmin=maxp+1≤t≤qD(t)−(D(p)+B(p))t−p

33、讨论用于网页内容分发的CDN和用于多媒体流的CDN之间的异同。反射器在Akamai的流媒体CDN中起什么作用?

相同点与不同点分析

相同点

对于大型综合CDN运营商(如Akamai),其服务平台可支持网页内容分发和多媒体流分发,并由多个交付网络组成。这些交付网络在高层架构上具有相似性。

不同点

在底层技术及系统组件的实现方面可能存在差异,以更好地适应特定类型内容的需求。例如:


网页内容

:多为静态内容或动态新闻更新;


多媒体流

:涉及实时或按需的视频内容。

反射器在Akamai流媒体CDN中的作用

反射器位于入口点与边缘服务器之间,其主要功能包括:

从入口点接收一个或多个流;

将这些流发送到一个或多个边缘服务器集群,实现流到大量边缘集群的快速复制;

提升内容分发的健壮性:

当入口点和边缘服务器之间不存在单一高质量路径时,系统可使用多个以不同反射器为中间节点的链路不相交路径;

边缘服务器可通过多路径转发的数据恢复单个路径中的数据包丢失;

向最终用户转发最佳组合结果,提升用户体验。

34、对于交错广播,如果所有K个逻辑信道(K ≥ 1)的带宽分配相等,证明访问时间与K的值无关。

对于交错广播,若所有 $ K $ 个逻辑信道带宽分配相等,任何视频的访问时间:

δ=M⋅LBδ=M⋅LB

可以看到,访问时间的表达式中不包含 $ K $,所以访问时间实际上与 $ K $ 的值无关。

35、HTTP传统上不用于媒体流传输的一个重要原因是底层TCP的传输速率波动很大(呈锯齿状),并且在严重拥塞或信道错误期间,它可能会持续阻塞数据管道。解释DASH如何解决这些问题。此外,讨论基本HTTP中缺少但DASH中解决的其他流传输支持。

DASH解决TCP传输速率波动和数据管道阻塞问题的方式

DASH定义了一套跨服务器、客户端和描述文件的实现协议。视频流被编码并分割成多个片段,通过

媒体呈现描述(MPD)

描述片段关系以方便连续播放时的片段获取。

客户端可以利用

多路径



多服务器

方法接收视频片段。

服务器也能根据

客户端下载速度



自身负载

自适应改变

比特率

这些方式有助于应对传输速率波动和避免数据管道阻塞。


基本HTTP缺少但DASH解决的其他流传输支持

1. 标准化

HTTP流在不同实现下使用不同的清单和分段格式。

设备需支持对应专有客户端协议。

DASH作为

国际标准

,可使不同设备互操作。

2. 动态自适应

异构网络和设备要求媒体流动态自适应。

DASH能根据

网络情况



客户端需求

调整视频质量。

3. 多编解码器支持

DASH与编解码器无关。

可无缝封装以下多种编解码器:


MPEG-4


HEVC(H.265)


Google VP9

4. 速率自适应

DASH将速率自适应留给客户端或服务器实现:

客户端可采用

灵活可扩展的接收驱动方法

服务器也能

自适应调整比特率

还可采用

数据驱动解决方案

,利用预测或学习算法优化用户体验。

© 版权声明

相关文章

暂无评论

none
暂无评论...