Overview of Variable Rate Coding in JPEG AI | IEEE Journals & Magazine | IEEE Xplore
JPEG-AI 标准化中空间质量图的比特分布研究与实现 |IEEE 会议出版物 |IEEE Xplore
前期基础知识:量化步长、插值与可变速率编码
**可变速率编码(Variable Rate Coding)**是指在图像或视频压缩中,通过动态调整编码参数(如量化步长、比特分配等),根据比特率的技术实现灵活控制输出。目标是在不同的应用场景下,带宽、设备性能或视觉质量需求,生成从低范围到高范围的比特率,同时优化率失真性能(即在给定比特率下进一步提高其质量,或在给定质量下降低比特率)。
在JPEG AI上下文中,可变速率编码通过以下机制实现:
- 三维质量图:利用通道质量图(调整整体量化步长)和空间质量图(分配区域特定比特),控制亮度(Y)、色度(UV)及感兴趣区域(ROI)的比特分配。
- 条件颜色分离(CCS):分离Y和UV组件,生成独立比特流,支持灵活的颜色组件速度调整。
- 比特率匹配(BRM)算法:通过调整参数(如Δβ)精确匹配目标比特率,偏差小于10%。
- 多模型训练:采用不同率失真权衡(β火车)的模型,支持宽广的速率范围(0.12 到 2.0 bpp)。
核心特点:支持连续速率调整、ROI优化、硬件友好实现,适用于移动设备实时解码等场景,直接传统标准(如VVC intra)显着提升压缩效率(如13.1%-19.2% BD-rate增益)。
量化步长
- 定义:量化步长是图像压缩中用于量化潜在张量(潜在张量)的参数,决定了数据精度的损失程度。缩小的量化步长保留更多细节(精度),需要更多比特;加大的量化步长减少细节(精度),降低比特率。
- 作用:量化步长通过控制潜在张量的量化损失,直接影响编码的率失真(Rate-Distortion)性能,是变率编码实现不同比特率的关键工具。