python 编码类型是先确定宏块类型还是确定片类型

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>电脑 >>python 编码类型是先确定宏块类型还是确定片类型

python 编码类型是先确定宏块类型还是确定片类型

来源：蜘蛛抓取(WebSpider) 时间：2017-10-22 01:56 标签：编码类型

当前位置： >>
基于DM642的H.264视频编码器优化和实现
长春工业大学硕士学位论文基于DM642的H.264视频编码器优化和实现姓名：于宏伟申请学位级别：硕士专业：信号与信息处理指导教师：宋宇
长春工业大学硕士学位论文摘要随着数字视频编码技术的发展和成熟，许多视频编码方案不断被提出和应用。在众多的编码方案中，Ｈ．２６４是目前最有效的编解码标准。Ｈ．２６４标准是由视频图像编码组和运动图像编码组共同开发的新一代视频编码标准。在相同的编码图像质量下，Ｈ．２６４与Ｉ｛．２６３、ＭＰＥｐ４标准相比，分别能节约５０％和２０％的码流，而且加强了对ｆ网络和流媒体应用的支持。作为目前最高效的视频编码标准，Ｈ．２６４的技术特点决定它必然将在视频传播和视频存储领域赢得更多的应用和商机。但是Ｈ．２６４的优越性能是以实现的高复杂度为代价的，这给其嵌入式应用带来了巨大障碍。ＤＳＰ芯片以其超强的处理速度和较低的资源消耗，在许多应用领域有非常出色的表现。ＴＩ公司的ＤＭ６４２芯片是专门为图像视频处理应用设计的，是实现Ｈ．２６４编解码的理想平台。因此研究利用ＤＳＰ芯片实现Ｈ．２６４标准的实时编解码算法具有实用价值。本文详细分析了Ｈ．２６４视频编码标准，对标准中使用的一些新技术做了比较详尽的探讨。例如帧内预测、帧间预测、变换编码、环路滤波、熵编码等编码技术，其中运动估计是帧间预测技术的重要内容，也是Ｈ．２６４编码器的核心内容之一。运动估计是在参考帧中搜索最佳匹配块，确定运动矢量。主要的搜索方法有全搜索法、二维对数搜索法、三步搜索法、对偶搜索法、非对称十字形多层次六边形格点搜索法和增强预测性区域搜索算法（ＥＰＺＳ），其中ＥＰＺＳ算法的性能最优。在分析和研究增强预测性区域搜索算法的基础上，结合分级搜索策略，在低分辨率图像帧中根据分割模式的特点来选用恰当的搜索模板，寻找最佳匹配点确定运动矢量，以该运动矢量作为原图像块的运动矢量预测值之一，然后进行区域搜索。编码实验显示，该方法与ＥＰＺＳ算法相比，在压缩编码图像质量不下降的同时可显著减少编码时间。同时本文研究了ＤＭ６４２图像处理平台，结合ＴＩ的ＲｅｆｅｒｅｎｃｅＦｒａｍｅｗｏｒｋ软件框架，以回放显示应用程序为例，建立软件功能框图。在该软件框架下，编写Ｈ．２６４基本档次编码算法库函数，由应用程序调用来完成编码功能。这样的编码算法函数更具有通用性，可以在同系列不同ＤＳＰ芯片上应用。根据对Ｈ．２６４基本档次编码算法的研究和分析，确定编码流程和编码参数，将编码库函数移植到ＤＭ６４２芯片上实现了低帧率时对图像序列的实时编码。关键词：视频编码，Ｈ．２６４／ＡＶＣ，运动估计，ＥＰＺＳ，ＤＭ６４２长春１＝业大学硕士学位论文Ａｂｓｔｒａｃｔ黝ｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｄｉｇｉｔａｌｖｉｄｅｏｃｏｄｉｎｇｔｅｃｈｎｏｌｏｇｙ，ｍａｎｙｃｏｄｉｎｇｓｔａｎｄａｒｄｓｈａｖｅｂｅｅｎｐｒｏｖｉｄｅｄｔｏｔｈｅｍａｒｋｅｔ．Ａｍｏｎｇｔｈｅｍ，Ｈ．２６４／ＡＶＣｉｓｔｈｅｍｏｓｔｅｆｆｉｃｉｅｎｔｃｏｄｅｃｓｔａｎｄａｒｄｕｎｔｉｌｎｏｗ．ＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐａｎｄＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐｄｅｖｅｌｏｐｅｄｔｈｅＨ．２６４ｓｔａｎｄａｒｄｓａｖｅｊｏｉｎｔｌｙ．ＵｎｄｅｒｔｈｅｓＲｎｌｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎｖｉｄｅｏｑｕａｌｉｔｙ，Ｈ．２６４／ＡＶＣＨ．２６３ｃａｎ５０％ａｎｄ２０％ｂｉｔ―ｓｔｒｅａｍ，ｃｏｍｐａｒｅｄｗｉｔｈａｎｄＭＰＥＧ一４ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｈ．２６４／ＡＶＣｉｍｐｒｏｖｅｓｔｈｅａｂｉｌｉｔｙｔｏｓｕｐｐｏｒｔｔｈｅｎｅｔｗｏｒｋａｐｐｌｉｃａｔｉｏｎａｎｄｔｈｅｖｉｄｅｏｓｔｒｅａｍａｐｐｌｉｃａｔｉｏｎ．Ａｓｔｈｅｍｏｓｔｔｈｅｖｉｄｅｏｌｒａｎｓｍｉｔｉｏｎｅｆｆｉｃｉｅｎｔｖｉｄｅｏｃｏｍｐｒｅｓｓｉｏｎｓｔａｎｄａｒｄ，Ｈ．２６４ｗｉｌｌｂｅｗｉｄｅｌｙｕｓｅｄｉｎａｎｄｖｉｄｅｏｃｏｍｐｒｅｓｓｉｏｎ．Ｂｕｔｉｔｃｏｍｅｓｗｉ也ｔｈｅｃｏｓｔｏｆｈｉｇｈｃｏｍｐｌｅｘｉｔｙ．Ａｎｄｔｈｉｓｉｓｔｈｅｏｂｓｔａｃｌｅｆｏｒｆｒｅｑｕｅｎｃｅａｎｄｌｏｗｒｅｓｏｕｒｃｅｅｍｂｅｄｄｅｄ印ｐｌｉｃａｔｉｏｎｓｗｉｍｃｏｓｔａｒｅＨ．２６４．ＤＳＰｃｈｉｐｓ谢ｍｔｈｅｉｒｈｉｇｈｕｓｅｄｉｎｍａｎｙａｒｅａｓ．ＤＭ６４２ｗａｓｄｅｓｉｇｎｅｄｆｏｒｄｉｇｉｔａｌｖｉｄｅｏｐｒｏｃｅｓｓｉｎｇｂｙＴＩ，ａｎｄｉｔｉｓｔｈｅｏｐｔｉｍａｌｐｌａｔｆｏｒｍｆｏｒＨ．２６４ｃｏｄｅｃ．ｔｈｅｅｎｃｏｄｉｎｇｐｒｉｎｃｉｐｌｅｏｆＴｈｉｓｄｉｓｓｅｒｔａｔｉｏｎｉｎｔｒｏｄｕｃｅｄａｎａｌｙｓｅｓｂｙＨ．２６４，ａｎｄｄｅｓｃｒｉｂｅｓｓｏｍｅｔｅｃｈｎｏｌｏｇｙＨ．２６４．Ｓｕｃｈ嬲ｉｎｔｒａｐｒｅｄｉｃｔｉｏｎ，ｉｎｔｅｒｐｒｅｄｉｃｔｉｏｎ，ｔｒａｎｓｆｏｒｍｅｎｃｏｄｉｎｇ，ｌｏｏｐ－ｆｉｌｔｅｒ，ｅｎｔｒｏｐｙｅｎｃｏｄｉｎｇ．Ａｎｄｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｉｓｔｈｅｋｅｙｔｅｃｈｎｏｌｏｇｙｏｆｉｎｔｅｒｐｒｅｄｉｃｔｉｏｎ．ｎｌｅａｉｍｏｆｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｉｓｔｏｆｍｄｔｈｅｂｅｓｔｍａｔｃｈｐｏｉｎｔａｎｄｔｈｅｔｈｅｂｅｓｔａｓｍｏｔｉｏｎｖｅｃｔｏｒ．Ｔｈｅｒｅａｒｅｓｏｍｅｓｅａｒｃｈａｌｇｏｒｉｔｈｍｓ，ｓｕｃｈｆｕｌｌｓｅａｒｃｈ，２Ｄ?ｌｏｇｓｅａｒｃｈ，ｚｏｎａｌｔｈｒｅｅ―ｓｔｅｐｓｅａｒｃｈ，ｃｏｎｊｕｇａｔｅｓｅａｒｃｈ，ｃｅｎｔｅｒｂａｓｅｄｔｈｒｅｅ－ｓｔｅｐｓｅａｒｃｈａｎｄｅｎｈａｎｃｅｄｐｒｅｄｉｃｔｉｏｎｓｅａｒｃｈ（ＥＰＺＳ）．ＡｎｄＥＰＺＳｉｓｔｈｅｍｏｓｔｅｆｆｉｃｉｅｎｔｓｅａｒｃｈａｌｇｏｒｉｔｈｍ．ＢｙａｎａｌｙｚｉｎｇｔｈｅＥＰＺＳＡｌｇｏｒｉｔｈｍ，ｗｅｉｍｐｒｏｖｅｔｈｅｓｅａｒｃｈａｌｇｏｒｉｔｈｍｗｉｔｈｌｅｖｅｌ―ｓｅａｒｃｈｓｔｒａｔｅｇｙ，ａｎｄｆｕｎｄｔｈｅｍｏｓｔｍａｔｃｈｐｏｉｎｔｉｎｔｈｅｃｏａｒｓｅｉｍａｇｅ．Ｔｈｅｎｏｎｂｙｔｈｅｚｏｎａｌｓｅａｒｃｈａｌｇｏｒｉｔｈｍ，ｗｅｃａｌｌｆｅｎｄｔｈｅｂｅｓｔｃａｎｓａｖｅｍｏｔｉｏｎｖｅｃｔｏｒ．ＳｉｍｌｕａｔｉｏｎｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｎｅｗｍｅｔｈｏｄｃｏｍｐａｒｅｄｗｉｔｈＥＰＺＳｅｎｃｏｄｉｎｇｔｉｍｅｗｉｔｈｏｕｔｄｅｇｒａｄａｔｉｏｎｉｍａｇｅｑｕａｌｉｔｙ．Ｍｅａｎｗｈｉｌｅ，ｔｈｉｓＦｒａｍｅｗｏｒｋ．ＷｉｔｈｔｈｅｄｉｓｓｅｒｔａｔｉｏｎｍａｋｅｓｔｈｅｒｅｓｅａｒｃｈｏｎＤＭ６４２ａｎｄＴＩ’ＳＲｅｆｅｒｅｎｃｅｗｅｌｏｏｐ－ｂａｃｋａｐｐｌｉｃａｔｉｏｎｗｅｄｅｖｅｌｏｐｔｈｅｓｏｆｔｗａｒｅａｓｆｒａｍｅｗｏｒｋ．Ｔｈｅｎｕｓｅｄｏｎｂｕｉｌｄｔｈｅｅｎｃｏｄｅｒｐｒｏｇｒａｍｔｈｅｌｉｂｒａｒｙｆｕｎｃｔｉｏｎ．ＧｅｎｅｒａｌｌｙｉｔｃａｎｂｅｄｉｆｆｅｒｅｎｔＤＳＰｅｎｃｏｄｅｒｐｌａｔｆｏｒｍｓ．ＡｎｄｔｈｅｎａｃｃｏｒｄｉｎｇｔｏｔｈｅｂａｓｅｌｉｎｅｐｒｏｆｉｌｅｏｆＨ．２６４，ｗｅｔｒａｎｓｐｌａｎｔｔｈｅａｌｇｏｒｉｔｈｍｏｎＤＭ６４２ｐｌａｔｆｏｒｍ．ＫｅｙＷｏｒｄｓ：ＶｉｄｅｏＣｏｄｉｎｇ，Ｈ．２６４／ＡＶＣ，ＭｏｔｉｏｎＥｓｔｉｍａｔｉｏｎ，ＥＰＺＳ，ＤＭ６４２长春工业大学硕士学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含任何其他个人或集体己经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体，均己在文中以明确方式标明。本声明的法律结果由本人承担。论文作者签名：孑瓣岫年乒月７日日期：长春工业大学硕士学位论文第一章绪１．１引言论数字视频技术在通信和广播领域获得了日益广泛的应用，随着宽带技术和移动通信的迅猛发展，视频信息和多媒体信息在Ｉｎｔｅｒｎｅｔ和移动网络中的处理和传输技术成为了当前我国信息化的热点。视频信息具有一系列优点，如直观性、确切性、高效性、广泛性等等。但是视频信息的信息量太大，例如，一路可视电话或会议电视信号，由于其活动内容较少，所需带宽较窄，但要达到良好质量，不压缩约需要若干Ｍｂｉｔ／ｓ；又如，一路高清数字电视信号，不压缩约需１Ｇｂｉｔ／ｓ，利用ＭＰＥＧ－２压缩后尚需２０Ｍｂｉｔ／ｓ。因此要使视频得到有效的应用，必须首先解决视频压缩编码问题，其次解决压缩后视频质量保证的问题。这两者是相互矛盾的，是矛盾的两个方面。既要有较大的压缩比，又要保证一定的视频质量。Ｈ．２６４／ＡＶＣ是视频编码专家组（ＩＴＵ―ＴＶＣＥＧ）和运动图像专家组（ＩＳｏ／ＩＥＣＭＰＥＧ）共同开发的新一代视频编码标准。与以前的编码方法相比，Ｈ．２６４具有更高的压缩性能，提高了存储空间利用率，加强了对网络的支持，面向数据包的编码能更好的支持流媒体的应用。它具有很强的抗干扰能力，大大提高了视频传输的可靠性；对不同传输环境有适应性，提高了信道利用率。Ｈ．２６４以其良好的网络适应性和高编码压缩效率，灵活的语法配簧，在视频处理领域较之以往的视频编码标准更加适合视频处理的发展方向，更加适合不同应用环境的对象。作为目前最高效的视频编码标准，Ｈ．２６４的技术特点决定它必然在视频传播和视频存储领域赢得更多的应用和商机。Ｈ．２６４具有较高的复杂度，在编码端计算的复杂度约是Ｈ．２６３的３倍，约是ＭＰＥＧ－４的４－５倍；在解码端计算的复杂度约是Ｈ．２６３的２倍，约是ＭＰＥＧ－４的２－３倍“。。可以说Ｈ．２６４的高性能是以实现的高复杂度为代价的。但是随着芯片处理能力的不断增强，Ｈ．２６４的计算复杂程度在可以接受的范围之内，使得Ｈ．２６４标准的应用越来越广泛。１－２视频编码原理视频编码的主要目的是去除相关性，在允许一定图像失真条件下，以尽可能少的比特数来表征视频信息。虽然高质量视频信源的信息量巨大，但由于视频序列中包含有大量高度相关的冗余信息，这就给应用先进技术去除信息冗余以实现对视频数据的大量压缩带来可能，这些冗余包括：１）空间和时间冗余。图像的空间冗余指的就是图像中相邻像素之间的相关性，而视频序列中的图像在时间轴上又有极强的相关性。视频压缩的目标就是在保证重构图像质量的前提下尽量去除图像本身存在的空问相关性和序列间的时间相关性。长春ｆ工业大学硕士学位论文２）信息熵冗余。由信息论的相关原理可知，它为表示图像数据的一个像素点，只要按其信息熵的大小分配相应比特数即可。然而对于实际图像数据的每个像素，很难得到它的信息熵，在数字化一幅图像时，由于每个像素是用相同的比特数表示，这样必然存在冗余。信息熵冗余、空间冗余和时间冗余统称为统计冗余，因为它们都决定于图像数据的统计特性。３）心理视觉冗余。眼睛所感受到的图像区域亮度不仅仅与区域的反射光有关，这种现象的产生是由于眼睛并不是对所有视觉信息有相同的敏感度。有些信息在通常的视觉过程中相对来说不那么重要，这些信息可以认为是心理视觉冗余的。心理视觉冗余的存在与人观察图像的方式有关，人在观察图像是主要寻找某些比较明显的物体特征，而不是定量的分析图像中每一个像素的亮度。入通过脑子里分析这些特征与先验知识结合以完成对图像的解释过程。正是由于以上的原因，图像的数据压缩是可能的。图像数据压缩技术是多媒体技术中十分重要的组成部分。如果不进行数据压缩，则无论传输还是存储都很难实用化。而采用数据压缩的好处就在于：（１）能很快传输各种媒体的信息源，降低信道占用费用和提高设备吞吐量（２）压缩数据存储容量，降低存储费用（３）可以降低发射机功率，对于多媒体移动通信系统尤为重要，如目前流行的ＷＡＰ手机上网及未来将要开通的３Ｇ业务等．从图像恢复的角度上，信源编码方式可以分成两大类：无损编码和有损编码“１。在无损编码中，原始的信息和信号可以精确地重构，因而信息可以进行任意多次无损编码而不会有任何退化，但其压缩率有限。有损编码系统依靠量化实现，它的压缩是靠丢弃图像中的一些有用信息而达到的，由量化去掉的图像细节信息是不可逆的，称为失真。因此在视频编码中都是将无损编码和有损编码结合使用。从编码方法上来说，可以把图像／视频编码方法划分为熵编码、源编码和混合编码”。等。熵指的是具体数据的平均信息量，定义为在不丢失信息的前提下，描述该信息内容所需的最小比特数。熵编码（ｅｎｔｒｏｐｙｃｏｄｉｎｇ）是纯粹基于信号统计特性的编码方法，它是一种无损编码，解码后能无失真的恢复原图像。熵编码的基本原理是分配给出现概率较大的符号一个短码字，而给出现概率较小的符号一个长码字，这样使得最终的平均码长很小。一个精心设计的熵编码器，其输出的平均码长接近信源的信息熵，即码长的下限。熵编码把己压缩的数据流看作是简单的数字序列，而不关心这些数据具体的语义。源编码用于能够把原始数据中的相关数据与不相关数据区分开的场合。该方法要考虑原始数据的语义，通过消除不相关数据以达到对原始数据流的压缩。与熵编码不同，源编码常常是有损编码。在有损压缩方法中，原始数据流与已编码的数据流相似但不相同。混合编码是熵编码和源编码方法的组合。通常是几种不同的熵编码和源编码方法组织在一起构成一种新的混合编码方法。１．３视频编码标准视频编码国际标准的制定主要由ＩＴ叶Ｔ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ２长春工业大学硕士学位论文１－３视频编码标准视频编码国际标准的制定主要由ＩＴＵ＿Ｔ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ―Ｔｅｌｅｃｏｍｕｎｉｃａｔｉｏｎ）和ＩＳＯ／ＩＥＣ（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ）负责。ＩＴＵ―Ｔ相继发布ＰｉｃｔｕｒｅＥｘｐｅｒｔｓ了Ｈ．２６ｘ系列标准，而ＩｓＯ／ＩＥＣ推出了ＭＰＥＧ（Ｍｏｖｉｎｇ２００３年ＭＰＥＧ和ＶＣＥＧ（ＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ）系列标准。Ｇｒｏｕｐ）联合公布Ｈ．２６４／ＡＶＣ标准。与传统的视频编码器一样，Ｈ．２６４／Ａｖｃ也采用的是混合编码器方案，它仍然采用基于像素块的编码技术，从视频技术发展上来说，它是属于第一代的视频编码方法。但是所谓的基于语义的第二代视频编码方法（如ＭＰＥＧ－４上的应用）由于其算法的复杂性，不易实现，尤其在低码率传输情况下，无法达到满意的性能指标。基于传统视频编码器框架，Ｈ．２６４对各功能模块的基本算法都进行了重大改进，使其编码效率可比现有的视频标准提高５０９６，支持广播视频能在互联网上以小于１Ｍｂｉｔ／ｓ的码率进行高质量传输，因此将使得计划采用Ｈ．２６４技术的ＭＰＥＧ－４在低码率视频传输上取得突破性进展，其优异的压缩性能也将在数字电视广播、视频实时通信、网络视频流媒体传递以及多媒体短信等各个方面发挥重要作用。１．４论文结构安排第一章绪论部分简要介绍了视频编码的原理和标准。第二章首先介绍了Ｈ．２６４编码标准的制定发展过程，然后对标准中的主要技术，如帧内预测编码、帧间预测编码、变换量化、环路滤波、熵编码进行了详细的介绍。第三章针对编码环节中最耗时的运动估计部分进行了详细分析，介绍了全搜索、二维对数搜索法、三步搜索法、对偶搜索法、基于中心的三步搜索法。运动估计的块匹配算法是目前最成功和应用最广泛的帧问预测技术，也是Ｈ．２６４编码器的核心内容之一。但对图像块进行匹配搜索的计算量是巨大的，因此如何在保证一定图像质量条件下进行算法优化，在主客观质量损伤很小的情况下降低复杂度，以达到处理器的实时编解码，使其具有更强的实用性，具有重要的研究价值。然后介绍已经被标准采纳的ＥＰＺＳ算法，并自此基础上进行了改进，取得了一定的效果。第四章介绍了ＴＩ公司的适合图像信息处理的ＤＳＰ芯片ＴＭＳ３２０ＤＭ６４２及数字图像处理平台，分析了Ｆｒａｍｅｗｏｒｋ程序框架。最后结合ＤＭ６４２图像处理平台的特点，提出针对实现Ｈ．２６４基本档次编码的移植实现方法。长春工业大学硕士学位论文第二章Ｈ．２６４编码标准概述２．１Ｈ．２６４编码标准简介Ｈ．２６４标准制定和发展过程２．１．１１９９５年ＩＴＵ－Ｔ推出了针对甚低比特率的压缩标准Ｈ．２６３建议…。Ｈ．２６３最初是针对１０―３０ｋｂｉｔ／ｓ范围的甚低比特率应用设计的，但实验结果表明，在低速率范围内，Ｈ．２６３都取得了惊入的压缩效果，成为当时最成功的数字视频压缩标准。在比特率（ｂｉｔｒａｔｅ）低于３０ｋｂｉｔ／ｓ的应用中，同样的视频质量前提下，Ｈ．２６３的输出码率仅为Ｈ．２６１的一半甚至更少。Ｈ，２６３采用了诸如可变尺寸块运动补偿技术、重叠块运动补偿技术、无限制运动矢量技术和运动矢量预测技术等一系列新的视频编码技术，为混合编码框架的进一步发展奠定了基础。ＶＣＥＧ在Ｈ．２６３建议推出之后继续对其进行改进，将各种新技术以附件的形式加入到Ｈ．２６３中，并提供相应的测试模型（ＴｅｓｔＭｏｄｅｌ），使Ｈ．２６３不断得到完善。１９９８年公布的Ｈ．２６３＋和其后的Ｈ．２６３＋＋分别是改进后的版本，两者也是Ｈ．２６４标准的前身。早在１９９５年，在完成Ｈ．２６３标准的最初版本后ＶＣＥＧ就已经开始着弓三‘‘短期（ｓｈｏｒｔｔｅｒｍ）”和“长期（１０ｎｇｔｅｒｍ）”的研究工作。短期的工作结果是产生了Ｈ．２６３＋标准，而长期的工作目的是形成一个在性能方面与已经存在的视频编解码标准有较大区别的视频编码标准。在标准的初期制定过程中形成的草案被称为Ｈ．２６Ｌ。２００１年７月ＭＰＥＧ对ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ进行招标。同年底在目睹了基于Ｈ．２６Ｌ标Ｃｏｄｉｎｇ）小组来共同研究准的软件编码后的视频流质量远远优于当时基于ＭＰＥＧ－４标准编码后的视频流质量后，ＩＳＯ／ＩＥＣ的ＭＰＥＧ就与ＩＴＵ－Ｔ的ＶＣＥＧ联合形成Ｊ、『Ｃ（ＪｏｉｎｔＶｉｄｅｏ这个标准。２００２年５月，Ｊ、ｒＴ形成委员会草案ＣＤ（ＣｏｍｍｉｔｔｅｅＤｒａｆｔ）。２００２年７月，ＪｖＴ形成了最终委员会草案（ＦｉｎａｌＣｏｍｍｉｔｔｅｅＤｒａｆｔ）。２００２年１２月，ＪｖＴ形成了最终国际标准草案ＦＤＩＳ（ＦｉｎａｌＳｔａｎｄａｒｄ）。ＤｒａｆｔＩｎｔｅｒｎａｔｉｏｎａｌ２００３年３月，标准的最终草案公布，称作Ｈ．２６４／ＡＶＣ或ＭＰＥＧ－４ＶｉｓｕＭ，Ｐａｒｔ２００５年３月，ＩＴＵ－Ｔ公布视频编码标准Ｈ．２６４建议。Ｈ．２６４标准与以往其他视频标准的比较１０．２．１．２２００３年ＩＴＵ－Ｔ在国际上正式公布Ｈ．２６４／ＡＶＣ视频编码标准，其目标是为视频编码应用提供“下一代”的解决方案，提供显著增强的编码效率，同时具有良好的网络亲和性，即可适用于各种传输网络。一Ｈ．２６４规定了四个档次，每个档次支持一组特定的编码功能，并支持一类特定的应用。４长春工业大学硕士学位论文这四个档次的关系和主要编码工具如图２一ｌ所示：应竣交换化矩簿图２－１Ｈ．２６４标准的四个档次和主要编码工具（１）基本档次（ｂａｓｅｌｉｎｅ）主要用于“视频会话”，如会议电视、可视电话、远程医疗、远程教学等，利用Ｉ片和Ｐ片，支持帧内、帧间编码，支持利用基于上下文的自适应变长熵编码（ｃＡＶＬＣ，ｃｏｎｔｅｘｔ―ｂａｓｅｄａｄａｐｔｉｖｅｖａｒｉａｂｌｅｌｅｎｇｔｈｃｏｄｉｎｇ）。（２）主要档次（ｍａｉｎｌｉｎｅ）主要用于消费电子应用，如数字电视广播、数字视频存储等。支持隔行视频，采用Ｂ片的帧间编码和加权预测的帧内编码；支持基于上下文的自适应算术编码（ＣＡＢＡＣ，ｃｏｎｔｅｘｔ―ｂａｓｅｄａｄａｐｔｉｖｅｂｉｎａｒｙａｒｉｔｈｍｅｔｉｃｃｏｄｉｎｇ）。（３）扩展档次（ｅｘｔｅｎｄｅｄ）主要用于网络视频流，如视频点播。支持码流之间有效的切换（ＳＰ和ＳＩ片）、改进误码性能（数据分割），但不支持隔行视频和ＣＡＢＡＣ。（４）高级档次，即新近扩展的ＦＲＥｘｔ（Ｆｉｄｅｌｉｔｙ为四个档次：ｈｉｇｈＲａｎｇｅＥｘｔｅｎｓｉｏｎｓ）部分，具体细分ｐｒｏｆｉｌｅ，ｈｉｇｈｌＯｐｒｏｆｉｔｅ，ｈｉｇｈ４：２：２ｐｒｏｆｉｌｅ，ｈｉｇｈ４：４：４ｐｒｏｆｉｌｅ。主要用于专业级的视频应用、高分辨率／高保真的视频压缩等。ＦＲＥｘｔ对Ｈ．２６４／ｈｖｃ的改善主要在：①进一步引入一些先进的编码工具，提高了压缩效率；②视频源的每个像素的位长均可超过８ｂ，最高可达１２ｂ：③增加了４：２：２与４：４：４的采样格式；④更高的比特率，更高的图像分辨率：⑤可达到图像高保真的要求，支持无损压缩；⑥支持ＲＧＢ格式的压缩，同时避免了色度空间转换的舍入误差。如图２－２所示为高级档次的主要编码工具，有关ＦＲＥｘｔ部分的特点和详细介绍请参阅文献［５］ｏ长春工业大学硕士学位论文蘸蠢◇悯豢戮瓣户声）翳 §芒竺―／‘）ＩＯＰ鲥４２２＿彳艏４Ｐ／图２－２高级档次的主要编码工具２．１．３Ｈ．２６４码流结构及主要的技术改进Ｌａｙｅｒ）。视频为了更加灵活的适应不同应用领域的要求，Ｈ．２６４在设计概念上可以分为两层：视频编码层（ＶＣＬ：ＶｉｄｅｏＣｏｄｉｎｇＬａｙｅｒ）和网络提取层（ＮＡＬ：ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎ编码层负责高效的视频内容表示，网络提取层负责以网络所要求的恰当的方式对数据进行打包和传送。在ＶＣＬ和ＮＡＬ之间定义了一个基于分组方式的接口，打包和相应的信令属于ＮＡＬ的一部分。这样，高编码效率和网络友好性的任务分别由ＶＣＬ和ＮＡＬ来完成。ＶＣＬ层包括基于块的运动补偿混合编码和一些新特性。与前面的视频编码标准一样，Ｈ．２６４没有把前处理和后处理等功能包括在草案”１中，这样可以增加标准的灵活性。ＮＡＬ负责使用下层网络的分段格式来封装数据，包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。例如，ＮＡＬ支持视频在电路交换信道上的传输格式，支持视频在Ｉｎｔｅｒｎｅｔ上利用ＲＴＰ／ＵＤＰ／ＩＰ传输的格式。ＮＡＬ单元包括自己的头部信息、段结构信息和实际载荷信息（即上层的ＶＣＬ数据）。如果采用数据分割技术，数据可能由几个部分组成。这些编码的ＶＣＬ数据，先被映射或封装进ＮＡＬ单元中。每个ＮＡＬ单元包括一个原始字节序列负荷（ＲＢＳＰ，ＲａｗＢｙｔｅＳｅｑｕｅｎｃｅＰａｙｌｏａｄ）和一组对应于视频编码数据的ＮＡＬ头信息。ＮＡＬ单元序列的结构如图２．３所示：Ｈ．２６４／Ａｖｃ编码器的主体结构如图２－４所示：６长春工业大学硕士学位论文图２－４Ｈ．２６４／ＡＶＣ编码器主体结构其中Ｆｎ为当前要编码的帧，它是以宏块为单位进行编码处理的，每个宏块是以帧内或帧问模式进行编码。Ｆ。是指前面已解码的多个参考帧，在帧间模式下宏块根据参考帧Ｆ。进行运动估计ＭＥ（ＭｏｔｉｏｎＥｓｔｉｍａｔｉｏｎ）和运动补偿ＭＣ（ＭｏｔｉｏｎＣｏｍｐｅｎｓａｔｉｏｎ）得到预测值Ｐ，预测值与当前帧Ｆｎ相减得到残差值，再对该残差值进行变换编码Ｔ与量化Ｑ，得到变换量化系数；最后经熵编码输出到网络提取层ＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）。Ｆｎ’为经过滤波得到的重构图像，它将被放入参考帧存储器作为下一帧或几帧编码的参考帧之一。从图２―４的结构来看，Ｈ．２６４编码器在总体结构上与以往的编码器并没有太多的变化，但是在一些局部的编码策略上，Ｈ．２６４引入了一些新的算法与特性，从而增强了压缩能力，也提高了对传输错误的抵抗力，更加适用于现在的无线多媒体和网络多媒体应用。例如：从过去的ＤＣＴ变换发展为整数变换，减少了精度损失；从传统的单一的帧内编码，发展为更加高效、模式更加多样的帧内预测编码，进一步减少了帧内编码的比特数，等等。这些新技术都大大提高了Ｈ．２６４编码器的图像的压缩效果。另一方面，Ｈ．２６４协议从过去的单一的参考帧，发展为多个参考帧进行帧问编码；以过去使用的Ｉ帧、Ｐ帧、Ｂ帧为基础，扩展引入了ｓＰ帧、ｓＩ帧等新的编码类型，这些技术都大大提高了Ｈ．２６４的压缩码流在信道中传输的可靠性。２．２帧内预测一个像素块的帧内预测编码主要是基于同一图片内其它相邻已编码重构的像素块，不需要利用图像序列时间轴上的相关性。与其他标准不同的是，Ｈ．２６４的帧内编码充分利用了图像空间上的相关性，利用周围块的像素值来预测本块的像素值，然后对预测后的残差量进行编码来减小帧内编码的数据量。相对于只有帧间预测的Ｈ．２６３初级版本，Ｈ．２６４引入帧内预测编码算法显著的提高了对视频图像的编码效率。Ｈ．２６４中提出了三种帧内编码（ＩＮＴＲＡ）７长春工业大学硕士学位论文方式：４Ｘ４块的帧内编码，８Ｘ８块的帧内编码和１６Ｘ１６宏块的帧内编码。其中对于４Ｘ４块的帧内编码，总共有９种可选预测编码模式。这些模式都是根据相邻４Ｘ４像素块的可用性和相关性来预测当前４×４中各像素的值，适用于带有大量细节的图像编码。对于１６×１６像素宏块的帧内编码，共有４种可选预测编码模式，适用于平坦区域图像编码。８× ８块的帧内编码是在２００５年标准的建议版中针对ＦＲＥｘｔ部分提出的，共有９种可选预测编码模式，与４Ｘ４块的预测模式相似，这些模式也是根据相邻的块来预测当前块各像素的值。色度块也有４种预测模式，类似于１６Ｘ１６亮度块预测模式。编码器通常选择使预测块与编码块之间差异最小的预测模式。此外，还有一种帧内编码模式称为ＩＰＣＭ，在该模式下，编码器直接传输图像的像素值，而不经过预测和变换。在一些特殊的情况下，特别是图像内容不规则或量化参数非常低时，该模式比“常规操作”（帧内预测．变换一量化．熵编码）效率更高。２．２．１亮度信号的４Ｘ４块帧内预测『斧酽矽黔殿辩劳劳３傩ｂｏｏ憎Ｉｄｏ嘲ｎ?Ｉｅ骞＇●租轴ｇｏｎ■ｄ蝴ｑｉ嘲＇图２－５４Ｘ４块的９种帧内预测模式上图显示了４Ｘ４根据周围像素点进行预测的９种预测方向，Ａ～Ｍ是当前４×４块相邻的像素点。在９种预测模式中，模式２（ＤＣ模式）根据Ａ－＾矗“中已编码像素进行预测，而其余模式只有在所需预测像素全部提供后才能使用。表２．１给出了这９种模式的描述。用ｐｒｅｄ４ｘ４［ｘ，ｙ】，葛ｙ＝Ｏ…３表示４Ｘ４亮度块的像素值，以Ｉｎｔｒａ４ｘ４ＰｒｅｄＭｏｄｅ［１ｕｍａ４ｘ４Ｂｌｋｌｄｘ］。２，ＤＣ模式为例，当―ｂＤ、¨的像素值均为有效可用时：Ｐｒｅｄ４ｘ４［ｘ，ｙ】＝（Ａ＋Ｂ十Ｃ＋Ｄ。卜Ｉ＋Ｊ＋Ｋ＋Ｌ＋４）＞＞３（式２－１）当只有Ａ加ｌ的像素值为有效可用时：８长春工业大学硕士学位论文Ｐｒｅｄ４ｘ４［ｘ，ｙ］２（Ａ｝Ｂ＋Ｃ＋ＩＨ２）＞＞２当只有Ｉ￣Ｊ的像素值为有效可用时：Ｐｒｅｄ４ｘ４【ｘ，ｙ】＝（Ｉ＋Ｊ＋Ｋ＋Ｌ＋２）＞＞２（式２－２）（式２．３）当』ｋＤ、Ｈ的像素值均无效时：Ｐｒｅｄ４ｘ４［ｘ，ｙ】＝（１＜＜（ＢｉｔＤｅｐｔｈ－１））ＢｉｔＤｅｐｔｈ为像素的分辨率（如ｇｂｉｔ／ｐｉｘｅｌ）（式２－４）表２－１４ｘ４预测模式描述ＮａｍｅｏｆＩｎｔｒａ４ｘ４ＰｒｅｄＭｏｄｅ［１ｕｍａ４ｘ４Ｂｌｋｌｄｘ］Ｉｎｔｒａ４ｘ４ｖｅｒｔｉｃａｌＩｎｌｒａ４ｘ４ｏｒｉｚｏｎｔａｌＩｎｔｒａ４ｘ４ＤＣＩｎｔｒａ４ｘ４ｄｉａｇｏｎａｌｄｏｗｎ－ｌｅｆｔＩｎｔｒａ４ｘ４ｄｉａｇｏｎａｌｄｏｗｎ―ｒｉｇｈｔＩｎｌｒａ４ｘ４ｖｅｒｔｉｃａｌ―ｒｉｇｈｔＩｎｔｒａ４ｘ４Ｉｎｔｒａ４ｘ４ＰｒｅｄＭｏｄｅ［１ｕｍａ４ｘ４Ｂｌｋｌｄｘ】Ｏ１２３４５６７ｈｏｒｉｚｏｎａｌ．ｄｏｗｎＩｎｔｒａ４ｘ４ｖｅｒｔｉｅａｌ－１ｅＲＩｎｔｒａ４ｘ４ｈｏｒｉｚｏｎｔａｌ－ｕｐ８２．２．２亮度信号的１６×１６宏块的帧内预测模式对于１６Ｘ１６块的帧内编码，有４种帧内预测模式，分别为：垂直、水平、ＤＣ（均值）和平面预测模式，如图２－６所示。表２－２给出了这４种模式的描述。０（ｖｅｒｔｉｅａｌＪ１ＣｔⅢｉｚａａｔａ０Ｖ６预测模式９长春工业大学硕士学位论文模式描述模式０（垂直）模式１（水平）模式２（ＤＣ）由上边像素推出相应像素值由左边像素推出相应像素值由上边和左边像素平均值推出相应像素值利用线形“ｐｌａｎｅ”函数及左、上像素推出相应像素模式３（平面）２．２．３色度信号的８×８块的帧内预测模式上面预测模式都是针对图像块的亮度分量，而对于宏块的两个８×８色度分量所采用的预测模式与１６×１６亮度块类似，且两种色度分量常采用同一种预测模式。４种预测模式类似于帧内１６Ｘ１６预测的４种预测模式，只是模式编号不同。其中ＤＣ模式为模式０、水平为模式１、垂直为模式２、平面为模式３。２．３帧间预测Ｈ．２６４帧问预测编码是基于像素块的运动补偿技术，是利用前面已重构的图像作为运动估计的参考帧，支持多参考帧应用，支持更灵活的块尺寸运动估计和更精确的运动矢量（１／４像素精度）。２．３．１多种模式的帧间预测Ｈ．２６４支持宏块的８种分割模式：１个１６×１６，或２个１６×８，或２个８×１６，或４个８×８；每个８×８模式子宏块又可以分为：１个８×８，或２个８×４，或２个４×８，或４个４Ｘ４。这些分割和子宏块大大提高了各宏块之间的关联性。这种分割下的运动补偿称为树状结构运动补偿，如图２．７所示：口圉田田Ｅｏｄｅ＝ｌ８ｘ８ｍｏｄｅ＝２８×４ｌｏｄｅ＝３４Ｘ８口目田田ｍ×ｉｅ＝４ｍｏｄｅ＝５１ｒｏｄｅ＝８∞ｄｅ＝７图２．７宏块及子宏块分割１０长春工业大学硕士学位论文每种分割模式下有不同尺寸的块，每个块都需要依据参考帧进行运动估计，运动估计得到的每个块的运动矢量都需要传送到解码端，这样分割的块越多需要传输的矢量就越多。通常，对于一幅图像中运动平缓、纹理不明显的区域如屏幕背景等应选用尺寸较大的块，以减少编码比特率；对于运动幅度较大及需要精细描述的细节区域，应使用小尺寸块进行更精确的运动估计，但是用过多的小尺寸块又会增加传输运动矢量的比特数，必然使码率增加。因此如何进行适当的选择，就成为编码器实现中需要解决的一个重要问题。利用参考软件模型ＪＭｌ０．２在２．８ＧＨｚＣＰＵ，１ＧＢ内存，Ｗｉｎｄｏｗｓ２０００ＳｅｒｖｉｅｅＰａｃｋ５操作系统下对１２０帧ｅｉｆ序列ｆｏｒｅｍａｎ进行编码测试，码率为１５帧／秒，ＱＰ为３２。表２－３帧间预测不同分割的比较ｏｎｌｙ１６Ｉｎｔｅｒｌ６× Ｉｎｔｅｒ８×ｇ，４×４ｏｎｌｙＩｎｔｅｘ８Ｘ８Ｉｎｔｅｒｌ６×８，８×１６．８ ×８２４７．５６３３４．１６３９．６１４１．１４２１４．０３２２９．３７３３４．１２３９．５９４１．１２２１７．２６２５９．６４４３４．２３９．６２４１．１５２０５．９９ｔｏｔａｌｔｉｍｅ（ｓｅｅ）２０８．９５４３４．０３３９．５６４１．０４２２４．８７ＰＳＮＲ―ＹＰＳＮＲ―ＵＰＳＮＲ．ＶＢｉｔＲａｔｅ（ｋｂｉｔ／ｓ）由上表可以看出，针对ｆｏｒｅｍａｎ序列仅采用１６×１６宏块进行预测，虽然编码时间最少，但图像的信噪比最低，输出码流最大。预测编码可选模式增加，相应需要的编码时间也增加，信噪比增大，码流减小。宏块的色度分量（Ｃｂ和Ｃｒ）为相应亮度分量的一半（水平和垂直各一半）。色度块采用和亮度块同样的分割模式，只是尺寸减半（水平和垂直方向都减半）。例如，对于８×１６亮度块，其相应的色度块的尺寸为４×８；对于８ｘ４亮度块，其相应的色度块尺寸为４ｘ２。色度块的运动矢量也是通过相应的亮度块的运动矢量的水平和垂直分量减半得到的。２．３．２运动补偿的内插算法相对于Ｈ．２６３、ＭＰＥＧ．２等标准使用ｌ／２像素单位的运动估计，Ｈ．２６４支持更为精确的亮度分量１／４像素精度的运动矢量和色度分量１／８像素精度的运动矢量，在运动搜索时１／２、１／４等分数位置上的像素值是由周围整数位置上的像素值经内插滤波器的计算得到。亮度分量半像素精度的内插像素生成方法如图２－８所示。长春工业大学硕士学位论文口口口口嚣国曰田目目口口圆口口口口ＵＵＭＩＩＩ．．．．．．．Ｊ．．．．．．．１．．＿ＪＩｌＮｓ口口首先生成参考图像亮度分量半像素位置像素。半像素点（如ｂ，ｈ，ｍ）通过对相应整像素点进行６抽头滤波得出，权重为（１／３２，一５／３２，５／８，５／８，一５／３２，１／３２）。例如ｂ的计算如下：ｂ＝ｒｏｕｎｄ（（Ｅ－５Ｆ＋２０Ｇ＋２０Ｈ一５１＋ｎ／３２）（式２－５）类似地，ｈ由Ａ、Ｃ、Ｇ、Ｍ、Ｒ、Ｔ滤波得出。如果邻近（垂直或水平方向）整像素点的所有像素都已经计算得到，剩余的半像素点便可以通过对６个垂直或水平方向的半像素点滤波得到。例如，ｊ由ＣＣ，ｄｄ，ｈ，ｍ，ｅｅ，ｆｆ滤波得出。这里６抽头滤波器比较复杂，但可明显改善运动补偿性能。半像素点计算出来以后，１／４像素点就可以通过线性内插得到，如图２－９所示。蔫所示。ＩｌＩＧ誓ｅ■ｂｉＨｇ＿一＃ｈ■Ｉ■ ｒｍｐ＿ＭＳ―Ｎ图２－９亮度１／４像素内插１／４像素点（如ａ，ｃ，ｉ，ｋ，ｄ，ｆ，ｎ，ｑ）由邻近像素内插而得，如４＝ｒｏｕｎｄ（（Ｇ＋ｂ）／２）（式２－６）剩余１／４像素点（ｐ，ｒ）由两个对角线半像素点线性内插得出，如ｅ由ｂ和ｈ获得。相应的，色度像素的１／８精度的运动矢量，也同样由整像素线性内插得出，如图２一１０１２长春工业大学硕士学位论文圆｝?Ｉ由二＿”’ｍｒ＝］＿＿；一Ｔ晕Ｔ１ｉｌ圜一‘上；Ｒ．一Ｉｌｌｓ一。一ｌ｜｛：ｉ｜｛｜ｉ８－ｄｙ圉其中．１刨图２．１０色度１／８像素内插ａ＝ｒｏｕｎｄ（［（８一ｄｘ）?（８一ｄｙ）一＋ｄｘ?（８一ｄｙ）Ｂ＋（８一以）＋ｄｙＣ＋ｄｘ‘或Ｄ］／６４）当ｄ，＝２，ｄｙ＝３时，ａ＝ｒｏｕｎｄ［（３０Ａ＋１０Ｂ＋１８Ｃ＋６Ｄ）／６４］（式２－７）（式２－８）在同等条件下对ＱＣＩＦ格式的ｆｏｒｅｍａｎ序列进行１／４像素精度的内插与１／２像素精度的内插所得数据进行比较，如图２－１１所示。ｆｏｒｅｒｎａｎＱＣｌＦ懈：１５编码较Ｉ１００ＢｉｔＲａｔｅ（ｋｂｉｔ／ｓ）图２－１１两种搜索精度的性能比较【７１从图中可以看到更高像素精度的内插算法使运动搜索更加精确，搜索的像素块之间更加匹配，从而使要进行变换编码的图像残差更小，降低了比特率的同时还提高了帧间预测编１３长春工业大学硕士学位论文码的性能。２．３．３运动矢量的预测每个分割运动矢量的编码需要相当数目的比特，特别是使用小尺寸的分割时。为减少传输比特数，可利用邻近分割较强的相关性，运动矢量（ＭＶ）可由邻近已编码分割的ＭＶ预测而得。预测矢量ＩＶＩＶｐ基于已计算的ＭＶ和ＩｖｌＶＤ（预测与当前的差异），并被编码传送。ＭＶｐ则取决于运动补偿尺寸和邻近ＭＶ的有无。设Ｅ为当前宏块或宏块分割子宏块。Ａ、Ｂ、Ｃ分别为Ｅ的左、上、右上方的三个相应块。如果Ｅ的左边不止一个分割，取其中最上的一个为Ａ；上方不止一个分割时，取最左边的一个为Ｂ。如图２．１２所示为所有分割具有相同尺寸时的邻近分割选择。图２．１３所示为不同尺寸时的邻近分割的选择。ＢＣＩ＾其中：Ｅ图２．１２当前和邻近分割（相同尺寸）图２－１３当前和邻近分割（不同尺寸）（１）传输分割不包括１６×８和８×１６时，ＭＹｐ为Ａ、Ｂ、Ｃ分割耐的中值；（２）对于１６×８分割，上面部分ＭＶｐ由Ｂ预测，下面部分ＭＶｐ由Ａ预测；（３）对于８×１６分割，左面部分ＭＹｐ由Ａ预测，右面部分淅ｐ由ｃ预测；（４）跳跃宏块（ＳｋｉｐｐｅｄＭＢ），同（１）。如果图２―１２所示的已传送块不存在时（例如块在当前片外），埘ｐ的选择需重新进行调整。在解码端，ＭＶｐ以相同的方式形成并加到ＭＶＤ上。对于跳跃宏块而言，由于不存在ＭＶＤ，其运动补偿宏块也由Ｍｖ直接生成“１。２．３．４多参考帧预测目前应用的大多数视频编码器在进行帧间预测时，一般只是使用前面一帧刚解码的图像作为参考帧，这样虽然算法简单、对硬件要求不高，但会导致图像传输时出现的干扰错误在时间轴上的扩散，而且对某些有规律的场景画面无法进一步提高压缩效率。为解决这一问题，Ｈ．２６４引入了多参考帧预测的概念，即当前欲编码帧上的宏块可以在多个参考帧上进行运动搜索，选择最佳参考帧，如图２－１４所示。Ｈ．２６４支持最多１５个参考帧。１４长春工业大学硕士学位论文图２―１４帧间预测使用多个参考帧Ｈ．２６４中每个宏块可以以不同的图片作为参考从而增强了对传输中错误的抵抗力，提高了运动估计的性能，尤其对视频画面为周期性内容或运动和场景的转换及改变摄像镜头的角度在前后两个不同场景之间进行切换等场合，使用多参考帧预测技术对视频压缩效率的提高更为显著；还可以阻止解码错误的时间延伸并解决了未覆盖背景问题，但增加了编解码的复杂性并且由于要存储多个参考帧增加了参考缓冲区的大小。实验：对ＣＩＦ格式的ｆｏｒｅｍａｎ序列进行多参考帧编码测试，分别取１、２、３、４、５个参考帧，每次编码１２０帧，帧率１５帧／秒，ＱＰ为３２，结果如表２―４所示。表２－４多参考帧预测编码比较１个参考帧２个参考帧３．４２５３个参考帧３．９４ｌ４个参考帧４．２５ｌ５个参考帧４．７６５每帧编码时间２．６８２（ｓｅｃ）ＰＳＮＲ－ｙＰＳＮＲ－ＵＰＳＮＲ―Ｖ３４．２３３９．６５４１．１７３４．３５３９．６３４１．２２２０２．３９３４．３７３９．６６４１．１７２００．９１３４．３９３９．６７４１．２４１９９．０８３４．１４３９．７ｌ４１－２５１９８．１９码率２０３．３４（ｋｂｉｔ／ｓ＠１５Ｈｚ）由上表可以看出，增加参考帧数可以提高信噪比，减少码流，但搜索次数要增加，相应的编码时问增加。在本文编码软件中只使用一个参考帧。２．４变换编码Ｈ．２６４变换是建立在ＤＣＴ变换的基础上，但是与ＤＣＴ变换却完全不同，主要表现在：（１）它是整数变换，其中所有运算都是整数运算；（２）如按照标准进行反变换，在解码端和编码端不会产生误匹配问题。（３）变换的核心运算部分只用到加法和移位操作，不需要乘除运算；．长春工业大学硕士学位论文（４）变换中系数的缩放被融入到量化器中。根据宏块残差数据的不同类型，标准采用了三种不同的变换编码方案并分别对应三种变换矩阵凹：（１）针对宏块所有残差４Ｘ４块的整数变换（ｉｎｔｅｇｅｒｔｒａｎｓｆｏｒｍ），使用普通残差变换矩阵；（２）在１６Ｘ１６帧内编码模式下，（在步骤ｌ后）提取各４Ｘ４块的亮度ＤＣ系数进行哈德曼变换（ｈａｄａｍａｒｄｔｒａｎｓｆｏｒｍ），使用亮度块直流变换矩阵；（３）针对色度ＤＣ系数２Ｘ２块的交换，使用色度块直流变换矩阵。这三种变换矩阵如图２―１５所示：㈦１１１习㈦－１习睇］普通残差变换矩阵亮度块ｌ漉变换矩阵色度块苴漉变换矩阵‰ｔｌｌ文１９＆ＵＶ图２。１６宏块内个残差块的扫描顺序图２．１６表示了一个宏块各类型像素块组织顺序，从一ｌ到２５，其中“一ｌ”指从各个４Ｘ４亮度块中提取出来的ＤＣ残差系数，１６和１７为从色度４Ｘ４中提取出的ＤＣ残差系数。如果宏块以１６Ｘ１６帧内模式被编码，那么标为“一１”的块（它包含每个４Ｘ４亮度分量块的直流系数）首先被传输。然后亮度分量残差块０－－－１５以上图所示的顺序被传输。块１６和１７包含一个分别来自ｃｂ和Ｃｒ色度分量的直流系数。最后色度分量残差块１８－－，２５被传输。帧模式下，一个４Ｘ４块内，系数的扫描顺序采用ｚｉｇ－ｚａｇ扫描顺序，如图２－１７：１６长春工业大学硕士学位论文８５／，＞？／／／，／４图２．１７４Ｘ４内系数的扫描顺序２．４．１整数变换对所有４Ｘ４残差数据，Ｈ．２６４／ＡＶＣ变换编码的基本算法采用整数变换，这种变换编码来源于ＤＣＴ变换但也有很多的不同，它完全只涉及整数的计算而没有精度的损失。其中：ｒ－删＝『｜三ｉ－ｂ］［ｘｌ匡＂ｂ―６二：：口ｌｌ口二：：｜６一ｃＩＩ口三ｂ÷ｉ一４（式２．９）一ｃ口＝≯压ｃｏｓ◇＝压酬争将系数矩阵中的ａ和ｂ提取出来，上式经修改得到口２１ｙ＝ｃａ簖７，。Ｅ＝Ｉ三÷ｉ］防－Ｉｉ－］ｉＨ∞∞Ｅ＝｜：三二；。时【ｄ―了修改：霄ａｂｂ２ａｂｂ２ｄ２ａｂｂ２ａｂｂ２。口２口２ａｂａｂ１１－ｄ１＿，＿１－，ｌｌ１１。口ｂ ―ｄＪＬ１ａｂ（式２―１０）其中ｄ＝ｃ／ｂ，ＣＸＣ７是核心的二维变换，Ｅ为提取出来的对应位置上的系数矩阵。ｏ为对应位置上的点乘。为简化变换的实现，将ｄ近似为１／２，为保证变换的正交性，ｂ也进行６２√詈，则式（２―１０）被修改为式（２―１１）．『１１１１１『１２１１］口２ａｂ／２ｂ２／４ａｂ／２ｂ２／４口２ａｂ／２ｂ２／４ａｂ／２６２／４ｒ－（啊叫；１蚓２２州１一一ｌＩ１：量２一１７１到１。一ｌ曲／２口２ａｂ／２∥ａｂ／２ａｂ／２长春工业大学硕士学位论文其中。蟛为核心的整数变换，这种变换与ＤＣＴ相比有几乎相同的压缩性能且有很多优势，其计算只以整数进行加减和移位而没有精度的损失。Ｂ为提取出来的变换矩阵对应位置上的乘数因子，该矩阵系数将被整合到量化器中。２．４．２量化Ｈ．２６４使用比例量化器，其基本操作如式：Ｚ，ｊ＝ｒｏｕｎｄ（Ｙ，，｜Ｑｍ０（式２－１２）其中Ｙ，ｊ为经过整数变换后得到的变换系数（见式２?１１），Ｑ＿。称为量化步长，乙称为量化系数。ｒｏｕｎｄ（）为向前取整。量化步长有５２级，使用时被ＱＰ值索引，ＱＰ值每增加６，量化步长Ｑｓｔｅｐ就加倍。量化步长范围的扩大使得编码器能够进行更灵活和精确地控制，在比特率和图像质量之间达到折中。详细的量化步长表请参阅文献【１０１。由式（２－３）可知Ｙ＝（ＣＸＣ７）ｏＥ＝ｗｏＥ，则Ｌ＝形，?巨，其中（式２－１３）彬，与Ｅ。皆为各矩阵对应位置上的系数，式（２．１２）可改为：Ｚ，ｊ２ｒｏｕｎｄ（Ｗ，ｊ?胛／％）表２－５４Ｘ４块中各点位置ＰＦ值对应位置分布ＰＦａ２ＰＦ就是Ｅ。的对应分布，见表２－５：（Ｏ，ｏ），（２，０），（Ｏ，２），（２，２）（１，１），（１，３），（３，１），（３，３）其他位置ｂ２／４ａｂ／２在Ｈ．２６４标准中，将变换和量化结合在一起同时实现，这样可以最大限度地减少由于不可避免的小数运算而带来的误差。２．５环路滤波基于像素块的编码特性之一是它的块结构。在重建图像块时，往往由于块边界象素值的量化误差而形成影响图像主观质量的“块效应”。为改善图像主观质量，Ｈ．２６４标准采纳了去块效应滤波器技术。它的基本思想是：当块边界上两边差异较小则使用滤波器使差别“平滑”掉，若边界上图像特征明显就不使用滤波。这样既减弱了“块效应”的影响又避免滤掉图像的客观特征，同时在相同主观质量下能使比特率减少５―１０％【１１】。１８长春工业大学硕士学位论文Ｄ３Ｄ２ｐ１ＤＯＨｏｒｉｚｏｎｔａｌｂｏｕｎｄａｒｙＶｅ『ｔＪｃａｌｂｏｕｎｄａｎ／ａＯｑ１ＩＰ３ｐ２ｐ１ｐｏ∞ｑ’ｎ２ａ３ｑ２ｑ３图２．１８相邻４ｘ４块的垂直边界和水平边界如图２―１８所示，相邻４×４边界两边的像素ｐ０～ｐ３与ｑ０～ｑ３之间要进行差值计算，再与标准中定义的阈值ａ与１３，１１与Ｂ决定于相邻块使用的量化参数ＱＰ，随着ＱＰ的变化而变化。对边界进行量化判决还依靠标准中定义的边界强度值Ｂｓ（Ｂｏｕｎｄａｒｙｓｔｒｅｎｇｔｈ），在满足以下条件时Ｂｓ＝０：相邻块Ｐ与ｑ均为帧内编码；ｑ与Ｐ的预测误差编码为零或是处于Ｓｋｉｐｐｅｄ模式；Ｐ与ｑ有相同的参考帧和相同运动矢量，在Ｂｓ＞０Ｉｊｌｐ０．ｑｏｌ，Ｉｐｌ―ｐｏｌ和ｌｑｌ?ｑｏｆ都小于阈值ａ或Ｂ时，开始对块边界两边像素进行滤波处理。若边界有显著差异，即图像本身特征明显，高于阈值限定，则判决滤波不会发生。由于阈值受ＱＰ影响，ＱＰ大时意味着边界两边的差异主要是由量化引起的，块效应明显，ａ与１３的值就大，所以滤波发生的可能性就大；反之，ＱＰ值小意味着由量化引起的边界差异就小，其显著的差异很可能是图像的本身特征，ａ与Ｐ的值随ＱＰ减小则滤波发生的可能性就小。这样的设计即考虑到保留图像本身纹理特征，减少滤波失真，又可平滑掉块之间的量化差异，减少块效应。使用滤波器对图像的客观质量评价影响不大，但从视觉上来说块效应的减弱可以使图像的主观质量得到显著的提高。２．６熵编码Ｈ．２６４中，熵编码是针对控制信息以及前面步骤的结果数据（如运动矢量、残差变化量化结果等）进行处理。由于这些数据理论上是不允许有失真的，尤其是控制信息，否则，解码端无法正确恢复数据。所以，对这类数据只能采用无失真的熵编码方法来进行压缩。１９长春工业大学硕士学位论文Ｈ．２６４中的熵编码有两种：（１）采用基于指数Ｇｏｌｏｍｂ码的统一变字长编码（ｕｎｉｖｅｒｓａｌｖａｒｉａｂｌｅｌｅｎｇｔｈｃｏｄｉｎｇ）对除了变换系数之外的所有语法流元素进行编码。扫描变换系数采用更灵活的基于上下文的变长编码（ＣＡＶＬＣ）。（２）采用基于上下文的自适应二进制算术编码（ＣＡＢＡＣ），这种熵编码方法的复杂度高，压缩效率也更优，是主要档次（ｍａｉｎｐｒｏｆｉｌｅ）中使用的熵编码方法。更详尽的介绍请参阅文献‘１２１‘１朝２．６．１基于指数型Ｇｏｌｏｍｂ码的统一变长编码（ｕＶＬｃ）统一变长编码具有简洁规范的特点，编码可以实时完成而无需浪费空间来存储映射码表。这种设计避免了对每种语法元素定义不同的变长编码表。指数型Ｇｏｌｏｍｂ编码码字的构造如下：ｃｏｄｅ＿ｗｏｒｄ＝【Ｍ个０】＋【１】＋［Ｉｎｆｏ】（式２－１４）其中，Ｉｎｔｏ是一个Ｍｂ“的数据。其编解码过程如下：编码，输入为待编码的码字ｃｏｄｅＭ＝ｌ０９２（ｃｏｄｅ―ｎｕｍ＋１）Ｉｎｆｏ＝ｃｏｄｅ―ｎｕｍ＋１－２”ｎｕｌｎ：（式２－１５）（式２－１６）ｃｏｄｅ＿ｗｏｒｄ＝［Ｍ个０】＋【１】＋［Ｉｎｆｏ】解码：（式２－１７）读入Ｍ个以“１”为结尾的０；根据得到的Ｍ，读入接下来的Ｍ个Ｉｒｆｆｏ数据；还原ｃｏｄｅ―ｎｕｍｃｏｄｅ―ｎｕｍ＝２”＋Ｉｎｆｏ一１（式２－１８）关于各种语法元素采用的具体编码方式的详细说明参见文献【１４Ｉ。２．６．２基于上下文的自适应变长编码（ＣＡＶＬｃ）基于上下文的自适应交长编码是用于对变换系数的编解码。变换和扫描后的系数有以下几个特点：（１）变换矩阵中有很多０存在，因此通过游程编码（ｒｕｎ－ｌｅｖｅｌ）可以压缩这些信息。（２）按扫描顺序输出的非０变换系数中有很大一部分是连续的±１的序列。ＣＡＶＬＣ中采用了一种特殊的方式来表示这些频繁出现的±１序列（ｔｒａｉｌｉｎｇｌｓ）。（３）相邻子块中的非０系数的个数往往具有一定的相关性。非０系数的个数使用查找表来编码，该查找表是根据相邻块的非０系数的个数来选择的。（４）越靠近直流系数的系数值往往越大。ＣＡＶＬＣ中利用这个特性实现了根据最近编码的长春工业大学硕士学位论文系数幅度值来自适应选择不同的查找表来对相应的数据进行编码。总的来说ｃＡＶＬＣ中与编码信息相关的参数有３部分：（１）ｎｕｍｔｒａｉｌ代表了ｔｒａｉｌｉｎｇｌｓ（Ｏ．３）以及４Ｘ４块中的非０系数的个数；（２）除了ｔｒａｉｌｉｎｇｌｓ信息以外的所有其他非０系数的幅度：（３）行程信息。采用ＣＡＶＬＣ对一个变换系数块进行编码的过程如下：（１）对非０系数的个数以及连续的±ｌ序列的个数进行编码；（２）对ｔｒａｉｌｉｎｇｌｓ的符号进行编码；（３）对其他的非０系数进行编码；（４）对按逆序扫描的第一个非０系数到最后一个系数之问的０的个数进行编码。（５）对每一个非０系数的行程进行编码。具体关于ＣＡＶＬＣ的详细说明和举例请参阅文献ｍ１【１“。基于上下文的自适应二进制算术熵编码是主要档次中使用的熵编码方法，在此不做详细介绍，请参阅文献邮１和Ｈ．２６４标准建议‘”１。２．７码率控制在Ｈ．２６４视频编码标准中仅仅规定了编码后比特流的句法结构和解码器的结构，而对于编码器的结构和实现模式没有具体的规定。然而无论编码器的结构如何，相应的视频编码的控制都是编码实现的核心问题。在对数字视频信号进行压缩编码时，编码器通过相应的编码控制算法以确定各种编码模式，如宏块的划分类型、运动矢量以及量化参数等，已选定的各种编码模式进一步确定了编码器输出比特流的比特率和失真度。Ｈ．２６４编码器采用了基于Ｌａｇｒａｎｇｉａｎ优化算法【１９１的编码模式控制模型，其编码性能相对于以往的所有编码标准有了重大提高。２．７．１Ｌａｇｒａｎｇｉａｎ优化算法考虑Ｋ个信源样本值的集合Ｓ＝（Ｓ１，．．．，Ｓ。），其中Ｓ。可以是矢量或标量。每一个样本值＆可以通过选取编码模式集ｑ＝（ｏｋ。．．，ｑ。）中的某些编码模式，。（１ｋ∈ｏｋ）进行压缩编码。因此对应于样本值集合ｓ，存在相应的编码模式集合Ｉ＝（１１，．．．，，。）在给定的限定码率Ｒ。下，对于给定信源样本序列所选的编码模式，应使编码后的失真度最小，如式２一１９所示。ｍｉｎＤ（Ｓ，ＯＲ（ｓ，，）≤疋模式Ｉ对样本Ｓ进行编码并变换量化后输出。在实际应用中，通常采用下式来选取编码模式。（式２―１９）式中，Ｄ（ｓ，Ｉ）与Ｒ（Ｓ，Ｉ）分别表示输出比特流的失真度和码率。其中，比特流采用编码２Ｉ长春工业大学硕士学位论文，’＝ａｒｇｎｆｍＪ（Ｓ，ＩＩ旯）（式２－２０）（式２―２１）其中，以Ｓ，，Ｊ五）＝Ｄ（Ｓ，Ｉ）＋ｉｔｘＲ（Ｓ，Ｄ式（２―２０）中的五是Ｌａｇｒａｎｇｅ参数。对于样本ｓ及其选定的编码模式Ｉ，当其编码后得到的比特率和失真度的线性组合Ｊ（Ｓ，ＩＩ五）（Ｌａｇｒａｎｇｉａｎ代价函数）最小时，此时的编码模式是最优的。考虑某一样本＆，可认为其编码后的比特率和失真度仅与相应的编码模式，。有关，因此有下面的式子成立：．，（最，，ｌｉｔ）＝，（墨，厶Ｊ五）Ｋｒ（式２－２２）中荟嘏，小）２荟叩，（瓯，厶ｌＡ）的最小值，从而实现相应的编码控制。２．７．２编码控制模型（式２－２３）因此，只要分别对每一个样本ｓｘ∈Ｓ选择最优的编码模式，便可以容易的得到ｄ（ｓ，ＩｆＡ）由于编码后比特流的比特率和失真度与空间和时间的关系密切，基于Ｌａｇｒａｎｇｉａｎ优化算法的编码控制方法不可能在混合视频编码器中简单地实现。假设图像序列Ｓ被分割为Ｋ个不同的块Ａ。，相应的像素用最表示，编码＆所选择的编码模式仇分为帧内模式和帧间模式两类。每种模式均包括预测编码的模式以及相应的编码参数。其中，编码参数为变换系数和量化参数等。对于帧问模式，编码参数还应包括一个或多个运动矢量。在对图像序列Ｓ进行基于块的混合视频编码时，对于每块＆所选定的编码模式应当使编码后的Ｌａｇｒａｎｇｉａｎ代价函数最小，当且仅当此时认为基于块的混合视频编码器达到最优化。对帧间模式，其运动矢量应使代价函数最小，并作为编码参数被编码传输。因此在编码控制模型中，宏块分割模式的判决与帧间模式运动估计的最佳比特分配这两个问题被分别处理。在Ｌａｇｒａｎｇｅ参数旯ｍＤＦ与量化参数Ｑ选定后，Ｈ．２６４的编码器通过最小化Ｌａｎｇｒａｎｇｉａｎ代价函数实现对每一个宏块的编码模式的选定。宏块＆的Ｌａｎｇｒａｎｇｉａｎ代价函数如下式：‰（Ｓｋ，ＩｋｌＱ，ｋ）＝Ｄ肛ｃ（瓯，厶Ｉｇ）＋ｋＸＲ艇ｃ（墨，厶ＩＱ）其中，＾为相应宏块的编码模式。，（式２－２４）在不同的编码模式下，。编码后的比特率Ｒ脚与失真度Ｄ。。的计算方法并不完全相同。在帧内模式下，月艇ｃ（Ｓｋ，ＩＮＴＲＡＩｇ）为熵编码后的比特率，失真度Ｄ。（瓯，ＩＮＴＲＥＡｌ９则由宏块的原始像素和重建像素决定，且有２种计算方式，如下：鼹Ｄ＝∑ｂＩｘ，Ｙ，明一ｓ’【ｘ，ｙ，印ｔ＃Ｊ）∈一（式２―２５）长春工业大学硕士学位论文ＳＡＤ＝∑Ｉ札弘，】一ｓ’Ｂ，Ｙ，ｆｌ｛Ｊ，，擎彳（式２―２６）其中，Ａ为当前宏块。对于ＳＫＩＰ模式，由于无需残差信号，比特率ＲⅨ（Ｓ，ＩＮＴＲＭＪｇ）与失真度Ｄ艇ｃ（Ｓ女，ＩＮＴＲＥＡｌＱ）与量化参数无关。Ｄ雎ｃ（墨，ＩＮＴＲＥＡＱ）由宏块的原始像素值和预测像素值决定，而Ｒ肚ｃ（Ｓｋ，ＩＮＴＲＡｆＱ）Ｎ在Ｈ．２６４中被近似为ｌｂｉｔ／ＭＢ。在帧间模式下，由于采用了基于块的运动估计，Ｌａｇｒａｎｇｉａｎ代价函数的计算与帧内模式或ＳＫＩＰ模式更复杂。对于采用帧问模式的ＡＸＢ大小的块墨，在给定的Ｌａｇｒａｎｇｅ参数＿。。。参考图像ｓ’的情况下，通过最小化Ｌａｇｒａａｇｉａｎ代价函数来实现块墨的运动估计，如式所示；ｍｉ＝ａｒｇｍｉａ｛Ｄ∞（墨，岫＋＾ｍ口Ⅻ置＾舢Ⅳ（墨，功｝（式２－２７）其中，Ｍ为可能的编码模式的集合，Ｒ。（Ｓ，埘）为传输运动矢量（所，，ｍ，，ｍ，）所需的比特数，失真度Ｄ。。由以下式子计算：ＳＳＤ＝∑ｐＩｘ，Ｙ，ｔ］－－８’【ｘ―ｍ，，Ｙ一所，，ｒ―ｍ，１２（Ｊ，ｙ）Ｅ４（式２－２８）ＳＡＤ＝∑№ｙ，ｔ］－ｓ＇ＩＸ－－ｍ，，Ｙ―ｍ，，ｔ―ｍ，】Ｉ（Ｊ，ｙ）Ｅ４（式２－２０）在进行运动估计时，水平与垂直方向的搜索范围为±３２个整像素，并采用一帧或多参考帧图像。为寻找满足式２－２７要求的运动矢量ｍ，，首先在整像素位置进行运动估计的运算，求得满足式（２―２７）要求的运动矢量后，需要进一步确定周围半像素位置的运动矢量是否可使Ｌａｇｒａｎｇｉａｎ代价函数的值进一步降低。由于在Ｈ．２６４中采用了１／４像素的运动估计精度，之前确定的半像素周围１／４像素位置的运动矢量被进一步考察，以确定当采用此１／４像素精度的运动矢量后，Ｌａｇｒａｎｇｉａｎ代价函数是否可获得进一步的降低。通过以上分析可知，最终选定使得Ｌａｇｒａｎｇｉａｎ代价函数值最小的运动矢量具有１／４像素精度。在ｎ．２６４视频编码控制模型中，九ｎｎ。由量化参数确定，由式２―３０计算：另一个Ｌａｇｒａｎｇｉａｎ参数九卯ｎⅣ与ｋ有关，由下式确定：‰ｎＤⅣ＝钆∽ ‰７７０Ｎ＝√钆ｍ（ＳＳＤ）（ＳＡＤ）ｋＭ＝Ｏ．８５ｘ２‘叫’”（式２－３０）（式２―３１）（式２－３２）在Ｈ．２６４中，通常通过速率控制相关算法选择合适的量化参数，并通过相应的Ｌａｇｒａｎｇｉａｎ参数进行视频编码控制。在这方面ＧａｒｙＪ．Ｓｕｌｌｉｖａｎ、ＴｈｏｍａｓＷｉｅｇａｎｄ、ＨｅｉｋｏＳｃｈｗａｒｚ等人做了大量的研究工作Ⅲ】【２”。长春工业大学硕士学位论文第三章运动估计算法基于运动补偿的变换编码方案是视频压缩算法中非常成功的方案，几乎被现存所有视频压缩的国际标准所采用。其中实现运动估计的块匹配法，是目前最成功和应用广泛的帧间预测技术，也是Ｈ．２６４／ＡｖＣ编码器的核心内容之一。其中运动估计的准确性和时间性是影响编码器整体性能的主要因素之一，如Ｈ．２６３中引入的半像素精度运动补偿算法使得Ｈ．２６３比Ｈ．２６１整整提高了一倍的压缩性能，而Ｈ．２６４／ＡＶＣ则更引入了１／４像素精度的运动补偿算法。对图像块进行匹配搜索的计算量是巨大的，它和模式选择部分的处理共占整个编码器运算量的６０％左右。所以如何在保证一定图像质量条件下，尽量减少对运动估计的计算，成为对实时性要求严格的某些应用如算法程序到ＤＳＰ上的移植过程中必须面对的问题。因此，很多针对块匹配的快速运动估计和搜索算法被提出来。运动估计技术本质上仍是一种预测技术，它是利用图像序列在时间上的相关性来预测的。这种方法主要是基于物体运动的惯性原理，通常在前后相邻的几帧图像中，大多数物体的运动量是很小的，甚至是保持不动的，也就是说其运动矢量场具有一定的平滑性、可预测性。因此，完全可以利用上述特性，考虑邻近块的运动矢量作为当前块的预测运动矢量，再加上新的预测矢量搜索提前停止准则，而且采用不同大小的菱形搜索模式对处于不同运动矢量场中的子块分别进行运动估计。目前，基于这种思想的估计算法比较先进，这其中有ＭＶＦＡＳＴ（ＭｏｔｉｏｎＶｅｃｔｏｒＦｉｅｌｄＡｄａｐｔｉｖｅＳｅａｒｃｈＴｅｃｈｎｏｌｏｇｙ）‘２２ｊ、ＰＭＶＦＡＳＴ（ＰｒｅｄｉｃｔｉｖｅＭＶＦＡＳＴ）ｔ”１、ＥＰＺＳ（ＥｎｈａｎｃｅｄＰｒｅｄｉｃｔｉｖｅＺｏｎａｌＳｅａｒｃｈ）。３．１运动估计的匹配准则运动搜索的目的是在搜索窗内寻找与当前块最匹配的数据块，这样就存在着如何判断两个块是否匹配的问题，即如何定义一个匹配准则。而匹配准则的定义与运算复杂度和编码效率都是直接相关的，通常有如下凡类比较常用的匹配函数：设当前帧为．＾，参考帧为Ｚ，（１）最小均方差函数（ＭＳＥ）ＭＳＥ（ＭＶ）＝∑协（ｘ，Ｍｅ）一石（工Ｈ２（２）最小平均绝对值误差（ＭＡＤ）等效于常用的绝对差值和（ＳＡＤ）准则，其性能很好，而且对硬件的要求相对简单，得长春工业大学硕士学位论文到了最广泛的应用。ＭＡＤ（Ｍｒ）＝Ｅ∽（ｘ，ＭＶ）一Ｚ＠Ｈ（３）阅值差别计数（ＮＴＤ）ＮＴＤ（ＭＶ）＝∑６（Ｌ（ｘ，（∥）一ＡＣｘ））其中，当ｋ－ｐｌ＞７＂０时，Ｇ（ａ，∥）＝ｌ；、当ｋ一∥ｌ＜ｒｏ时，Ｇ（ａ，∥）＝０由于在使用块匹配算法进行运动估计的过程中，利用匹配准则函数进行匹配误差的计算是最主要的计算量，因此，我们可以从这方面进一步减少计算量。由于图像的帧内也具有相关性，在计算误差匹配函数时，可以只让图像块中的部分像素参与运算，将块中的所有像素组成一个集合，那么参与计算的这部分像素集合就是它的子集，这种误差匹配的方法被称为子集匹配法。实验结果表明，在匹配误差无明显增加的情况下，采用子集匹配可以大大减少每帧图像的平均搜索时间。以上匹配判决准则都是依据图像的失真程度，并没有完全考虑到与图像编码输出比特率的相关性。尤其是Ｈ．２６４／ＡＶＣ支持多个帧间预测模式（１６Ｘ１６～４×４），若只是简单应用上面的匹配准则的话，在图像内容复杂时编码器为能够进行精确匹配必然尽量使用小尺寸的块，这虽然使匹配的准确性增加了一些，但是随着小尺寸块数量的大幅度增加，码流中需要传输的块的运动矢量也随之增加，必然使码率无法减少，从而影响整个编码器的性能。为此需要结合码率控制模型综合考虑。３．２几种运动估计和快速搜索算法寻找最佳匹配块是帧间图像编码的关键，而最佳匹配块是靠运动搜索来获得。运动搜索就是在搜索算法指定的路径中寻找最佳匹配块及最匹配的运动矢量，各种搜索算法的主要区别就在于如何选择指定搜索窗口内的搜索路径和匹配准则。在匹配准则己确定的情况下，搜索算法的准确度及搜索算法的运算量是衡量搜索算法好坏的标准。３．２．１全搜索算法全搜索（ＦＳ）算法是目前在视频编码的块匹配中研究和应用最广的一项技术。该算法对规定的搜索区域内的所有点进行搜索。若以预测误差衡量，则ＦＳ算法总体最佳，因为对位移矢量的全搜索可得到最小的预测误差。它还具有步长固定、易于设计成并行流水线处理的ＡＳＩＣ等优点。但是全搜索计算量很大。若采用全搜索方法，在ｋ－１帧中的（Ｍ＋２九）×（Ｎ＋２ｄｕ）的搜索范围内找到最佳匹配块，我们需要将ｋ－１帧中对应的子块沿水平和垂直方向逐个像素移动，每移动一次需计算一次ＳＡＤ，然后进行比较。由图３一ｌ可以看出，在（Ｍ＋２ｄｕ）×（Ｎ＋２矗＾，）的搜索范围内总的移动次数为（２如＋１）２，即需要计算（２ｄＭ＋１）２次。若搜索范围为［－１６，＋１５］时，运动估值的运算量是整个软件编码器运算量的５０％以上。虽然长春工业大学硕士学位论文这是最简单可靠的搜索方法，能保证全局最优，同时算法简单，易于实现。但缺点是计算量较大，特别是当搜索区很大时，难于用软件进行实时处理。而对于要求有较好的实时性的应用，若采用全搜索方法则难于实时处理。为了降低计算量，许多快速算法只计算其中的一些像素点，如二维对数搜索法、对偶搜索法、三步搜索法等，但存在搜索到非最佳点的情况，从而会增大帧间预测误差。为此如何寻找符合图像特性的最佳搜索路径，以提高图像编码的运算速率成为快速搜索算法要解决的主要问题。图３－１全搜索方法３．２．２二维对数搜索法（２ＤＬｏＧｓ）二维对数搜索方法的搜索策略是沿着最小失真方向搜索，采用的匹配准则是ＳＡＤ准则。二维对数搜索方法如图３－２所示。在搜索时，每移动一次就检查５个搜索点，这５个搜索点呈现（＋）形状或（×）形状的十字的端像素。如果最佳匹配在十字的中心或在搜索窗口的边界，那么就减少搜索点之间的距离，即减小搜索步长；如果最佳匹配点不在中心或不在搜索窗口的边界，则搜索步长不变。在这个例子中，第一步，如图２―３所示，以（ｉ，ｊ）为中心，以２为步长设５个搜索点（ｉ，ｊ）、（ｉ，ｊ＋２）、（ｉ＋２，ｊ）、（ｉ，ｊ一２）和（ｉ一２，ｊ），分别计算这５个点的ＳＡＤ并比较，找出其中ＳＡＤ最小的点，设ＳＡＤ最小点的坐标为（ｉ，Ｊ一２）；第二步，以点（ｉ，ｊ一２）为中心，仍以２为步长设５个搜索点（ｉ，Ｊ一２）、（ｉ＋２，ｊ一２）、（ｉ，Ｊ）、（ｉ一２，ｊ一２）和（ｉ，ｊ一４），步长不变这是因为近似匹配点（ｉ。Ｊ一２）不是第一次搜索时的中心点，也不是搜索窗口的边界点；依次类推，通过５步可得到最后的运动矢量ｄ（ｉ＋２，ｊ一６）。这５步中得到的近似运动矢量ｄ为（ｉ，ｊ一２）、（ｉ，ｊ一４）、（ｉ＋２，ｊ一４）、（ｉ＋２，ｊ一５）和（ｉ＋２，Ｊ一６）。可以看出，在第五步时步长缩短，这是因为第四步得出的近似匹配点是搜索窗口的边界点。长春工业大学硕士学位论文一‘，．０６ｉ．５ｉ－４；３ｉ－２ｉ－ｌＪ－ｏｉｉ１１ｉ＋３址３ｉ＋４ｉ＋５Ｊｊ－５ｔｊ－４ｊ．３ｊ＋２Ｊ－１ＪＢ黔融Ｉ≥卫、Ｚ一＿――挈Ｖ肇：ｌ矿ＩＬｌ∥ｂ￥｜】ｃＬ，１―Ｌ ―叫．ＩＩ１’＋１ ’＋２ｐ３ｐ４ｊ＋５；‘＾图３―２二维对数搜索方法３．２．３三步搜索法（ＷＳＳ）这种搜索法与二维对数搜索法很接近，但此方法的每步搜索点数均为９，且在开始时搜索点离中心点很远，即搜索步长较大，但每搜索到一个近似运动矢量，下一步搜索都会缩短步长，即每一步搜索的步长都比前一步的步长小，并且此搜索法总共步骤为３步，认为此时的匹配点为最佳匹配点。设匹配准则仍为ＳＡＤ最小准则，如图３―３所示，第一步先确定９个搜索点，图中标记为ｌ的点即为第一步的搜索点，８个搜索点离中心点（ｉ，ｊ）都很远，即步长较大，然后计算这９个点的ＳＡＤ值并比较各ＳＡＤ值的大小，在这个例子中，设点（ｉ＋３，ｊ一３）的ＳＡＤ值最小，可以作为第一个近似的移动矢量ｄ１；第二步，仍是９个搜索点，图中标记２的即为第二步的搜索点，可以看出这一步的搜索点偏离中心点（ｉ＋３，Ｊ一３）较近，即减小了步长，设找到的近似匹配点假定为（ｉ＋３，ｊ一５）；第三步则进一步减小了步长，给出了最后的移动矢量为ｄ（ｉ＋３，Ｊ一６）。在搜索过程中如遇到以下任意一种情况将停止搜索：在当前步骤中计算所有点的ＳＡＤ值；在当前步骤中计算出的最小ＳＡＤ值大于上一步得到的ＳＡＤ值。长春工业大学硕士学位论文７Ｊ。。｝６■５ｉ―ｉ－３ｊ－ｏｉ＿２ｉ－Ｉｉｊ一５ｌｊ４ｆ】一３ｌ牡一瓤Ｔ，工ｉｔ！ｉ！：！―｝！：！．兰！．！！ｉｉ窑ｊ．２ｊ’ｌｊｌ肾孝１夏矿‘。１１Ｘ苫Ｉ１２皿２Ｚ．４上ｌ３一ｐ１―２ｌＴ１，＋３一ｊ＋５图３．３三步搜索法３．２．４对偶搜索法（ｃｓ）该搜索法的主要思想是分别在ｉ和ｊ两个方向上设置搜索点，即先在ｉ／ｊ方向上此方向的近似最佳匹配点，然后再在ｉ／ｊ方向找到ｉ／ｊ方向上的最佳匹配点作为最终的最佳匹配点，从而得到最终运动矢量。设以ＳＡＤ最小作为匹配准则，如图３―４所示，在第一次搜索时，通过计算点（ｉ―Ｉ，ｊ）、（ｉ，ｊ）和（ｉ＋１，ｊ）处的ＳＡＤ值来决定ｉ方向上的最小失真方向。如果计算结果表明点（ｉ＋１，ｊ）处的ＳＡＤ为最小，就计算点（ｉ＋２，Ｊ）处的ＳＡＤ，并从（ｉ，ｊ）、（ｉ＋１，Ｊ）、（ｉ＋２，ｊ）处的ＳＡＤ中找出最小值，按这种方法一直进行下去，直到在ｉ方向上找到最小ＳＡＤ值及其对应的点。在ｉ方向上找到最小ＳＡＤ值对应的点之后，就沿ｊ方向去找最小ＳＡＤ值对应的点，方法与ｉ方向的搜索方法相同。在此例中，假定在ｉ方向上找到的最佳匹配点为（ｉ＋２，Ｊ），然后以同样的方式在此匹配点的Ｊ方向上找到最佳匹配点（ｉ＋２，ｊ一６），最后得到的运动矢量为ｄ（ｉ＋２，ｊ～６）。一‘．．ｉ－６ｉ－５ｉ－４Ｊ。Ｄｉ－３ｉ－２ｉ－Ｉｉｉ＋ｌｉ土２ｉ＋３ｉ４４件５，ｉ一５ｒｊ．４厘；Ｊ，王７，１６／ｉ１。５叶３１－２ｊ?Ｉ●工４Ｊ卜ｔｋ，Ⅵｋ．了工２ｊ十ｌｊ＋２ｌ＋３ｊ＋４．，ｒ―――’。。‘―――――＋ｉＩｉ－６ｉ－５ｉ－４ｉ－３ｉ．】ｉ－Ｉｉｉ＋Ｉｉ＋２ｉ＋３｝Ｈ什５撕图３―４对偶搜索法长春工业大学硕士学位论文３．２．５基于中心三步法（ｃＴＳｓ）该方法的主要思想是减少进行块匹配的搜索点，如图３―５所示，只采用了２５个搜索点。这些搜索点集中分布在预先偏移量的中心区域，共分为菱形的三层。其中里面两层为整数像素精度，最外层偏移中心距离较远，采用的精度比里层低。另外在水平和垂直方向增加了四个搜索点。可以看到２５个搜索点中有１７个点位于图像的水平和垂直方向上，这是考虑到现实中的物体在这两个方向运动的概率比较大，图像的频谱多呈菱形分布。搜索的顺序如图中的标号所示，先里层后外层，在同一层先搜索水平或垂直方向的点，再搜索对角线方向的点。在顺序搜索的过程中，一旦某一搜索点的ＳＡＤ小于预先设置的门限值，则停止搜索，如果这２５点仍然不能找Ｎ４，于门限值的点，也不再继续搜索，以其中最小ＳＡＤ点计算，当然这种情况发生的概率很小。当然固定的搜索顺序并不能保证搜索次数最少，但在大多数情况下搜索次数较少，因而可以不必设置搜索顺序选择。２ＬＬ２吐／爪２０．《帐雠》髦＼￡” ２矗＼砸基日＾＼上２Ｌ１Ｂ［∥／ＰＷｌ们‘图３－５基于中心三步法在前面所述方法中，计算量最小的是ｃｓ，此种方法的搜索步长始终为一个像素点，在一个方向上每搜索一步只需要计算一个像素点的值，但缺点是搜索步骤可能较多。２ＤＬＯＧＳ与ＴＳＳ类似，前者的搜索点数较少，每步搜索５个点，但搜索步骤有可能会相应增加；后者的搜索步骤固定为３，虽然每个步骤都计算９个搜索点，但最大搜索次数是１＋８ｌｏｇ，ｄｕ，小于全搜索法的次数：（２ｄ。＋１）２（ｄｕ为最大偏移量）并且对于容易产生最佳点在搜索区域内的情况，可以使搜索更加精确，性能较好。但ＴＳＳ算法对其第一步搜索产生的误差很敏感，而ＣＴＳＳ算法正是针对这一特点，由中心点从里层向外层进行搜索，由运动矢量增量的概率分布可知，绝大多数的搜索在里层就可以完成，不必要再向外层继续搜寻，从而大大减少了块匹配的运算量；且由于采用的是固定的搜索点，运动矢量大小被限制在［－４．５，＋４．５］内，可以大大减少用于表示运动矢量的比特数；并且ＣＴＳＳ也可以获得较好的主观图像质量。通过实验Ⅲ１说明：不管图像的运动是剧烈还是缓慢，全局搜索的信噪比都是最高，但长春工业大学硕士学位论文是这种搜索方法的计算量也是最大的，对于实时性的应用情况是最差的；其它算法的计算量要明显小于全局搜索，而对于运动剧烈的图像，三步搜索法的信噪比大于中心三步法，这是因为它的每一步的搜索距离较长，对于距离搜索中心较远的运动情况匹配的更好：对运动缓慢的活动图像，因为基于中心的三步搜索是从中心位置逐渐向外搜索，所以对于附近位置的运动匹配效果要优于三步搜索法。３．２．６非对称十字型多层次六边形格点搜索算法（硼ｓ）由于物体的运动千变万化，很难用一种简单的模型去描述，也很难用一种单一的算法来搜索最佳运动矢量，因此实际中大多采用多种搜索算法组合的办法，即根据各类算法的优点灵活组合，可以在最大程度上提高预测的有效性和健壮性。清华大学陈志波等研究人员提出了非对称十字型多层次六边形格点搜索算法Ⅲ】，如图３－６所示。?＇５?∞Ｊ５０５ｔ０１５６辩噼’呻｝ｌ一女印３－２―Ｆ―ｍ甲｝ｌ＿．＿ｄｅｐ４０图３－６非对称十字型多层次六边形格点运动搜索算法该算法首先确定一个最佳预测运动矢量，第二步进行非对称十字型搜索；第三步非均匀多层次六边形格点搜索又分为两个子步骤：小矩形窗搜索和扩展的多层次六边形格点搜索；第四步进行六边形和菱形搜索。在每一步后判断是否满足提前退出准则，如果满足则跳出进行分数像素搜索。，３．２．７增强预测区域搜索方法（ＥＰＺｓ）以上运动搜索快速算法都是在搜索窗内以减少搜索点数为目标，并在以下假设条件下建立的，即误差曲面存在唯一的全局最小点，误差曲面呈单峰分布，误差曲面不存在零梯度区域。然而实际的误差曲面不能满足上述假设，对于复杂或高速运动的视频序列更是如此。作为改进，可以利用相邻块（如左、上、右方向上的相邻块）的运动矢量来预测初始搜索起点，避免掉入局部最小点。在此基础上发展了ＭＶＦＡＳＴ（Ｍｏｔｉｏｎ和ＥＰＺＳ（ＥｎｈａｎｃｅｄＶｅｃｔｏｒＦｉｅｌｄＡｄａｐｔｉｖｅＳｅａｒｃｈＴｅｃｈｎｉｑｕｅ）、ＰＭＶＦＡＳＴ（ＰｒｅｄｉｃｔｉｖｅＭｏｔｉｏｎＶｅｃｔｏｒＦｉｅｌｄＡｄａｐｔｉｖｅＳｅａｒｃｈＴｅｃｈｎｉｑｕｅ）ＰｒｅｄｉｃｔｉｖｅＺｏｎａｌＳｅａｒｃｈ）等区域算法。这些算法利用不同的搜索策略，长春工业大学硕士学位论文根据周围或相关宏块（子宏块）的运动矢量来预测当前块的运动矢量，然后计算ＳＡＤ并结合提前退出准则减少计算量，减少搜索的匹配点数，加速算法收敛。它们可以取得与全搜索相仿的重建图像质量，而运算复杂度有显著的降低。ＥＰＺＳ方法是被Ｈ．２６４参考软件模型采纳的运动搜索方法，是区域搜索算法的代表。ＥＰＺＳ算法㈣是在ＭＶＦＡＳＴ和ＰＭＶＦＡＳＴ基础上发展而来的。附ＦＡＳＴ算法考虑当前块周围三个相邻块（左方、上方、右上方）的运动矢量和（Ｏ，０）运动矢量，并结合两步菱形搜索和固定阈值提前退出准则来进行快速搜索；Ｐ斛ＦＡＳＴ算法在辅ＶＦＡＳＴ的基础上进一步考虑当前块周围三个相邻块的运动矢量的均值作为当前块的预测运动矢量，并将前一帧（参考帧）中同位置块的运动矢量也作为当前块运动矢量的预测值，而且采用了自适应闺值提前退出准则。取得了良好的效果。ＰＭＶＦＡＳＴ被ＭＰＥＧ－４ＰＡＲＴ７采纳作为推荐的运动搜索算法。ＥＰＺＳ在以上基础上分析了运动矢量预测的特点，对预测的相关性进行了区分，认为当前块不仅与其左方、上方、右上方的块具有相关性，而且与前一帧（参考帧）同位置块（ｃｏｌｌｏｃａｔｅｄｂｌｏｃｋ）以及其周围的四个相邻块也具有相关性；前帧的同位置块可能具有很高的运动速率，而与当前块没有相关性，但它的相邻块特别是运动矢量方向指向当ｆ｝｛『块的，将具有很强的相关性，可以作为预测的较好的参考。另外利用多参考帧预测，同位置块在前几帧中的运动矢量可能指向同一方向但具有不同的强度，所以引入加速运动矢量（ａｃｃｅｌｅｒａｔｏｒ所示：ｍｏｔｉｏｎｖｅｃｔｏｒ），如图３―７ｔ－＿缫燃、懑『＼ｃ｝２肿“图３－７而“加速运动矢量∥，。一，：＝：五“一∥，：ｊ（式３－１）因此，在ＥＰＺＳ算法中将运动矢量的预测分为三个集合（集合Ａ、集合Ｂ、集合ｃ），集合Ａ中仅包含一个运动矢量预测即当前块三个相邻块运动矢量的均值；集合Ｂ中包含（Ｏ，Ｏ）运动矢量、前帧同位置块的运动矢量以及当前块三个相邻块的运动矢量，共６个预测值；集合ｃ中包含加速运动矢量和前一帧同位置块的四个相邻块的运动矢量，共５个预测值。在提高预测准确性的同时，ＥＰＺＳ算法还引入自适应提前退出算法，首先设定一个固定长春工业大学硕士学位论文门限值Ｔ１＝２５６，计算集合Ａ后得到的ＳＡＤ值与Ｔ１比较，如果小于Ｔ１则退出，否则继续计算其他集合；根据式３－２确定门限值Ｔ２，ｔ＝吼×ｍｉｎ（ＭＳＡＤＩ，ＭＳＡＤ２，．．．．，ＭＳＡ见）＋ｂｋ其中，ａ女＝１．２，ｂ≈＝１２８。（式３―２）计算集合Ｂ后得到的ＳＡＤ值与Ｔ２比较，如果小于Ｔ２则退出，否则继续计算其他集合；根据式３―２确定门限值Ｔ３，计算集合Ｃ后得到的ＳＡＤ值与Ｔ３比较，如果小于Ｔ３则退出，否则在确定最佳运动搜索后继续使用菱形或正方形搜索模板（如图３－８所示）进行搜索确定最终的运动矢量。图３―８小菱形和正方形搜索模板在参考软件模型ＪＭｌ０．２中对全搜索（Ｆｓ）、非对称十字型多层次六边形搜索ＵｋｔｌｆｅｘａｇｏｎＳ、简化的Ｕｌ肛ｔｅｘａｇｏｎＳ、ＥＰＺＳ算法分别进行测试，实验环境为２．８ＧＣＰｌＪ、１Ｇ内存和Ｗｉｎ２０００ＳｅｒｖｉｅｅＰａｃｋ５揉作系统，对ｃｉｆ格式序列ｆｏｏｔｂａｌｌ进行５帧编码，帧率为１５帧／秒，结果如表３－１：表３－１四种运动搜索算法编码时间比较ＦＳＩ．Ｉ班ｌｅｘａｇｏｎＳ３．０５９４３３．４３７．０４３８．２７７６４．９ＳｉｍｐｌｌｅｄＬｎ棚Ｓ２．８６８６３３。３７３７３８．２７７７４．８４ＥＰＺＳ２．６１３８３３．４１３７．０１３８．０３７６１．５９ａｖｅｒａｇｅｔｉｍｅ（ｓｅｅ／ｆｒａｍｅ）３．０２２３３．３８ＰＳＮＲ－ＹＰＳＮＲ―ＵＰＳＮＲ―ＶＢｉｔ３６．９７３８，２６Ｈｚ７６６．７３ｒａｔｅ（ｋｂｉｔ／ｓ）＠１５．００通过表３－１可以看出，ＥＰＺＳ算法在这四种算法中是耗时最短的，而且提高了信噪比，降低了码率。同时我们也看到参考软件模型的编码效率很低，根本无法满足实时应用的要求。本文在分级搜索方法和ＥＰＺＳ算法基础上结合文献‘２７１提出了一种快速运动估计方法，主要思想是通过分级搜索方法在低分辨率帧中根据分割模式的特点来选用恰当的搜索模板来确定相关性高的运动矢量预测（ｃｏａｒｓｅＭＶ），然后在宏块的某一分割模式下搜索以ｃｏａｒｓｅＭＶ和ｍｅｄｉａｎＭｖ构成预测运动矢量集合，如果满足提前退出准则，进行子像素搜索，否则继续长春工业大学硕士学位论文搜索集合（ＥＰＺＳ算法中已指定）中的其他预测运动矢量，满足提前退出准则后继续进行子像素搜索，否则先进行精细搜索（以小菱形为模板）然后进行子像素搜索。具体步骤是：步骤一：当１６×１６为帧问预测分割模式时，将原图像帧和参考帧经过１／４采样得到低分辨率的图像帧，这样１６Ｘ１６宏块在低分辨率帧中成为１６个像素点，以正方形（如图３－８中所示）为模板在低分辨率帧中进行运动矢量搜索，确定预测运动矢量ｐ＾ｆｆｌ；当以１６×８、８Ｘ１６为分割模式时使用菱形模板；使用其他分割模式时执行步骤二。步骤二：将原图像帧和参考帧经过１／２采样得到次低分辨率图像帧，以ｐＭｎ／１所指位置为起始搜索点，以大正方形（５Ｘ５大小）为模板搜索得预测运动矢量ｃｏａｒｓｅ～Ｗ。步骤三：以ｃｏａｒｓｅＭＶ和ｍｅｄｉａｎＭＹ构成集合Ａ，分别计算ＳＡＤ值，并记录最小值，若ＳＡＤ值小于等于门限值Ｔ１（Ｔ１＝２５６）则退出搜索。否则以（Ｏ，Ｏ）运动矢量、前一帧同位置块的运动矢量、当前块周围三个相邻块（上方、左方和右上方）的运动矢量构成集合Ｂ，分别计算ＳＡＤ值，并记录最小值，若ＳＡＤ值小于门限值Ｔ２（同式３－２）则退出搜索，否则以小菱形为模板进行精细搜索。实验：以ＪＭｌＯ．２为基础用ＥＰＺＳ算法和本文方法对三个ＣＩＦ格式序列ｆｏｒｅｍａｎ、ｎｅｗｓ、ｐａｒｉｓ进行编码测试，帧率为１５帧／秒，ＱＰ分别为３２和２８，参考帧个数为１，搜索范围为１６，编码１２０帧。其他实验环境同表３―１中实验。实验结果如表３－２所示。表３－２编码性能比较表ＥＰＺＳＰＳＮＲ－Ｙ序列编码时间（ｓｅｃ／Ｏ２．２０３２．２５ｌ２．１９３２．２０２２．３２０２．３４１ＰＳＮＲ―Ｙ３５．２２３７．４０３５．３４３８．１１３２．６５３５．７７本文方法编码时间（ｓｅｃ／Ｏ１．６８２Ｉ．７０２１．６８４１．７９８１．６３２１．９３３ｆｏｒｅｍａｎＱＰ＝３２ＱＰ＝２８３５．０６３７．３６３５．７８３８．４８３２．９７３６．０４ＮｅｗｓＱＰ＝３２ＱＰ＝２８ｐａｒｌＳＱＰ－３２ＱＰ＝２８由测试结果可以看出本文方法与ＥＰＺＳ算法相比较减少了编码时间，图像压缩质量变化不大；同时也注意到本文方法增加了存储空间用来存放低分辨率帧的数据，这对嵌入式应用是不利的。从编码时间看出距离实时编码的目标很远，还需要改进和简化编码流程。算法流程如图３－９所示：长春工业大学硕士学位论文图３－９算法流程长春工业大学硕士学位论文第四章ＤＳＰ处理器和Ｄｌｄ６４２图像处理平台ＤＳＰ处理器是一种具有特殊结构的微处理器，与单片机不同，ＤＳＰ特殊的芯片和系统结构使它更适用于高速的计算。随着数字信号处理技术的飞速发展，ＤＳＰ芯片已经在电力、通讯、电机控制、信息家电、信息安全、教学实验、图像／图形处理、网络、数据采集、指纹识别等许多领域里得到广泛的应用。美国ＴＩ公司ＤＳＰ芯片的主要特点［２８１有：（１）采用改进的哈佛结构，允许数据总线和程序总线的局部交叉；数据可以存放在程序存储空间中，被算术运算指令直接使用；高速缓冲存储器Ｃａｃｈｅ的设定，省去了从存储器读指令的时间，提高了运行速度。（２）广泛采用流水线技术以减少指令执行时间，增加处理能力。使取指、译码、取操作数和执行等操作可以重叠执行。（３１采用专用硬件乘法器。乘法是ＤＳＰ运算的重要组成部分。乘法速度越快，ＤＳＰ处理器的性能就越高。ＤＳＰ专用乘法器使乘法可在单指令周期内完成。ｆ４１特殊的指令系统，这个指令系统是专门为数字信号处理设计的。（５）采用多种寻址方式，如间接寻址、循环寻址、位倒序寻址等。（６）独立的ＤＭＡ、ＥＤＭＡ在不影响ＣＰＵ工作的条件下进行数据的搬移或交换，提高数据的吞吐率，提高系统的并行执行能力。（７）支持多处理器接１：１，使得多个处理器可以以并行或串行工作以提高处理速度。（８）支持ＪＴＡＧ（ＪｏｉｎｔＴｅｓｔＡｃｔｉｏｎＧｒｏｕｐ）仿真，便于对ＤＳＰ做片上在线仿真和多ＤＳＰ条件下的测试。４．１０Ｍ６４２处理器ＴＭＳ３２０Ｃ６０００系列ＤＳＰ是１１公司推出的适合于特定应用的高性能处理器，其３２位定点ＣＰＵ和浮点ＤＳＰ具有软件兼容性。其中ＴＭＳ３２０ＤＭ６４２特别适合数字媒体信号处理应用。ＤＭ６４２芯片的ＣＰＵ时钟频率达到６００Ｍｔｔｚ，其ＣＰＵ内部（如图４－１所示）有８个３２位的功能单元，可同时执行８条指令四ｌ。长春工业大学硕士学位论文图４－ＩＤＭ６４２ＣＰＵ如图４－１所示ＤＭ６４２ＣＰＵ采用ＶｅｌｏｃｉＴＩ．２体系结构。主要包括以下部分：（１）功能单元（８个）：．Ｌ１．Ｄ１．ＭＩ．Ｓ１．Ｌ２．Ｄ２．Ｍ２．ｓ２（２）寄存器文件（６４个）：ｈＯ～ｈ３１，ＢＯＭＢ３１；其中ｈＯ～ｈ２，ＢＯＭＢ２可作为条件寄存器；Ａ４～Ａ７，Ｂ４～Ｂ７可作为循环寻址寄存器。（３）寄存器文件交叉通道：Ｘ１，Ｘ２（４）存储器存取通道：ＬＤＩａ，ＬＤＩｂ，（５）数据地址通道：ＤＡＩ，ＤＡ２（６）控制寄存器文件及扩展如果能充分利用这８个功能单元，在完全流水‘３０１的情况下，该芯片的指令吞吐量将达到４８００ＭＩＰＳ。ＤＭ６４２采用ＶｅｌｏｃｉＴｌ．２结构，扩展了ＶｅｌｏｃｉＴＩ体系结构，这样在一个周期内可完成更多的工作。在增加了时钟频率和ＣＰＵ吞吐量的同时要求有足够宽的输入输出（Ｉ／Ｏ）带宽才能发挥效率，因此芯片提供了三条外部总线：一条为同步／异步存储器提供快速无缝链接，数据速率达１．ＩＧＢ／ｓ；另一条为慢速外设提供总线接口；第三条为工业标准主机提供接口。该芯片内部支持两级Ｃａｃｈｅ缓存”“（如图４―２所示），其中第一级Ｃａｃｈｅ对开发人员来说是不可见的，而第二级的Ｃａｃｈｅ大小是可配置的，具体配置为１６ＫＢ的第一级程序缓存（ＬＩＰ），１６ＫＢ的第一级数据缓存（ＬＩＤ），２５６ＫＢ程序数据共用第二级缓存（Ｌ２Ｃａｃｈｅ）。芯片

python 编码类型是先确定宏块类型还是确定片类型

我要回帖

更多关于编码类型的文章

随机推荐

python 编码类型是先确定宏块类型还是确定片类型

我要回帖

更多关于 编码类型 的文章

随机推荐

更多关于编码类型的文章