浙江大学学报(工学版), 2025, 59(1): 62-69 doi: 10.3785/j.issn.1008-973X.2025.01.006

计算机与控制工程

基于轻量残差网络的高效半色调算法

刘登峰,, 陈世海, 郭文静, 柴志雷

1. 江南大学 人工智能与计算机学院,江苏 无锡 214122

2. 康养智能化技术教育部工程研究中心,江苏 无锡214122

Efficient halftone algorithm based on lightweight residual networks

LIU Dengfeng,, CHEN Shihai, GUO Wenjing, CHAI Zhilei

1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China

2. Engineering Research Center of Intelligent Technology for Healthcare, Ministry of Education, Wuxi 214122, China

收稿日期: 2023-08-18  

基金资助: 国家重点研发专项计划资助项目(2022YFE0112400);国家自然科学基金青年项目(21706096);第62批中国博士后科学基金资助项目(2017M621627);江苏省博士后科研项目(1601009A);江苏省自然科学基金青年项目(BK20160162).

Received: 2023-08-18  

Fund supported: 国家重点研发专项计划资助项目(2022YFE0112400);国家自然科学基金青年项目(21706096);第62批中国博士后科学基金资助项目(2017M621627);江苏省博士后科研项目(1601009A);江苏省自然科学基金青年项目(BK20160162).

作者简介 About authors

刘登峰(1980—),女,副教授,从事人工智能模式识别、智能计算系统、发酵过程建模研究.orcid.org/0000-0002-6193-6641.E-mail:liudf@jiangnan.edu.cn , E-mail:liudf@jiangnan.edu.cn

摘要

为了解决图像半色调中处理速度慢以及半色调效果不佳的问题,提出基于轻量型残差卷积神经网络(CNN)的高效半色调算法. 为了解决原始CNN平坦性退化问题,引入噪声补偿块,为模型提供抖动依赖. 为了进一步提升模型性能,在损失函数中引入蓝噪声损失;在半色调常值灰度图像时,抑制低频分量,优化高频区域的各向异性. 实验结果表明,对比现有深度半色调方法,所提算法的参数量下降96.77%,在VOC测试集中结构相似性(SSIM)提升8.17%,峰值信噪比(PSNR)提升0.1333 dB,半色调图像具有蓝噪声特性,处理速度提升57.28%.

关键词: 残差网络 ; 半色调 ; 蓝噪声特性 ; 深度学习 ; 模型轻量化

Abstract

To address the issues of sluggish processing speed and substandard quality of the halftone effect in image halftoning, an efficient halftone algorithm was proposed, which relies on a lightweight residual convolutional neural network(CNN). A noise compensation block was introduced to provide the model with jitter dependencies, to address the issue of flatness degradation in the original CNN. The inclusion of blue noise loss in the loss function was implemented to further optimize the model’s performance. The low-frequency components were suppressed and the anisotropy of the high-frequency region was optimized when halftoning a constant-value grayscale image. Experimental results showed that, compared with the available deep halftone methods, the proposed algorithm exhibited a significant reduction of 96.77% in the number of parameters, the structural similarity (SSIM) improved by 8.17% and the peak signal-to-noise ratio (PSNR) improved by 0.133 3 dB in the VOC test set, the halftone images had blue noise characteristics, and the processing speed was increased by 57.28%.

Keywords: residual network ; halftone ; blue noise characteristic ; deep learning ; model lightweight

PDF (1232KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘登峰, 陈世海, 郭文静, 柴志雷. 基于轻量残差网络的高效半色调算法. 浙江大学学报(工学版)[J], 2025, 59(1): 62-69 doi:10.3785/j.issn.1008-973X.2025.01.006

LIU Dengfeng, CHEN Shihai, GUO Wenjing, CHAI Zhilei. Efficient halftone algorithm based on lightweight residual networks. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(1): 62-69 doi:10.3785/j.issn.1008-973X.2025.01.006

数字半色调是在只能产生二值图像元素的设备上呈现连续调图像错觉的方法. 由于人类视觉系统(human visual system,HVS)的低通滤波特性,半色调图像在足够距离点观测时会被视为连续调图像[1-2]. 半色调图像通常应用于印刷行业[3]. 根据网点聚类的方式不同,半色调图像可以分为2种类型:聚类网点和离散网点. 半色调纹理可以分为周期性纹理和非周期性纹理. 给定连续调图像输入,不同的算法生成的半色调图像之间存在差异. 由于人眼感知的低通特性,视觉效果最佳的半色调图像一般具有蓝噪声分布,符合蓝噪声特性的半色调[4]是生成高质量半色调图像的关键.

在半色调研究中,生成图像的质量和处理效率是重点. 在传统算法中,基于有序抖动的方法[5]并行性较高,处理速度较快,但生成的半色调图像质量较差. 基于误差扩散的方法[6-8]较好平衡了图像质量和处理速度,生成的图像质量比有序抖动方法高,但是因需顺序处理难以并行计算,且生成的半色调图像会引入相关伪影. 基于搜索的方法[9-10]产生的半色调图像质量优于前2种方法,但处理速度缓慢.虽然深度学习在图像处理领域的应用不少,但是它们大多集中在逆半色调方向[11-13],半色调处理方向的应用鲜见. 本研究将深度学习模型应用于数字半色调,提出基于残差网络的半色调算法(halftone algorithm based on residual networks,HalfResNet),使得生成的半色调图像在保持较好结构细节的同时提高处理效率. 通过与已有深度半色调方法[14]在VOC数据集[15]上的性能对比实验,验证所提方法的特性.

1. 相关工作

1.1. 数字半色调

数字半色调的目标是将连续调图像转换成具有有限灰度值的图像,同时尽可能地保持图像显示效果. 基于有序抖动的方法将连续调图像周期性地分割成许多小块,将每个小块与预先设定的抖动阵列进行对比,生成最终的半色调图像. 这类算法具有较高的并行性,处理速度快,但效果较差. 误差扩散算法保持局部色调不变的原则,每一步处理只有一个像素被量化,产生的量化误差通过不同的权重扩散到相邻未处理的像素,会产生视觉伪影,但良好平衡了质量和效率,应用较为广泛. 基于搜索的方法将半色调视为优化问题,可以达到很好的半色调效果,但搜索时间在实时设备上通常难以接受.

1.2. 蓝噪声特性

在图像处理中,通常用颜色来命名各种类型噪声. 白噪声的功率谱在所有频率上均匀分布;粉红噪声是低频白噪声,其功率谱截至某个高频极限;蓝噪声是高频白噪声,功率谱分布在高频区域,被证明是产生高质量半色调图像的关键[3]. 常值灰度图像的蓝噪声半色调具有以下频谱特性[3]:1)不含或含有较少低频分量;2)高频区能量分布相对平坦;3)蓝噪声在主频fb处处于峰值;4)各向异性在所有频率上都低,一般要小于−10 dB. 理想蓝噪声半色调的功率谱如图1所示,其中f为频率,P为功率.

图 1

图 1   理想蓝噪声半色调的功率谱

Fig.1   Power spectrum of ideal blue noise halftone


1.3. 深度半色调

深度神经网络在半色调领域的应用取得了一定效果. Xia等[14]提出的可逆深度半色调算法引入动态高斯噪声,使CNN能够生成非周期性半色调模式. 该算法模型产生的半色调图具有良好的可恢复性,但没有强烈的蓝噪声特性,而且提出的二阶段训练方案较复杂且不稳定. Choi等[16]采用2种深度生成式模型模拟直接二进制搜索算法(direct binary search algorithm,DBS),该算法生成的半色调图像比DBS生成的噪声更少,也不包含误差扩散算法相关的伪影,但算法非常耗时,无法满足实时需求. 本研究所提算法采用轻量化残差网络,处理速度有大幅提升;为了使CNN模型具有更好的抖动模式,在各层残差模块前配备噪声补偿块;为了加强模型的蓝噪声特性,在损失函数中加入显式蓝噪声损失,生成的半色调图像更加符合蓝噪声特性.

2. 基于残差网络的半色调算法

本研究基于蓝噪声的抖动模式并利用有序抖动过程构造半色调图像提出HalfResNet,相较于可逆半色调模型(reversible halftoning method,RVH)算法[14],所提算法的参数量及计算量更少,引入噪声补偿块使模型保持较好的抖动模式,避免CNN产生平坦性退化的现象. HVS对低频信号更加敏感,因此半色调图像应含有较少的低频信号. 良好的蓝噪声半色调图像在所有频率上的各向异性应足够低,为了使产生的半色调图更符合蓝噪声特性,在损失函数中设计显式的蓝噪声损失,优化高频区域的各向异性.

2.1. 网络架构设计

HalfResNet采用16个通道数为64的高效残差块(efficient residual block,ERB)以及16个噪声补偿块(noise compensation block,NCB)构建,其网络中包括2个关键设计:噪声补偿块和二元门,使CNN能够正确地建模半色调. 噪声补偿块解决了原生CNN的平坦性退化问题,在平面区域能够产生良好的抖动模式,在每个残差块之前均配备噪声补偿块,持续给模型提供抖动依赖. 二元门将模型的输出严格量化为0或1的离散值,能够输出正确的半色调,这一步只发生在测试阶段,因为二元门操作不可微,会降低模型的收敛速度,所以训练阶段移除二元门.

图2所示,HalfResNet由3个模块组成:浅层特征提取、深层特征提取和高质量图像半色调模块. 图中,xn为经过网络处理后的特征图. 1)浅层和深层特征提取:给定连续彩色图像输入$ {\boldsymbol{I}}_{{{{\mathrm{c}}}}}\in {\bf{{R}}}^{H\times W\times {C}_{{\mathrm{in}}}} $,其中HWCin分别为图像高度、宽度和输入通道数,使用3×3卷积层提取浅层特征$ {{\boldsymbol{F}}}_{0}\in {{\bf{{{R}}}}}^{H\times W\times C} $

图 2

图 2   基于残差网络的半色调算法的模型结构

Fig.2   Model structure of halftone algorithm based on residual networks


$ {{\boldsymbol{F}}_0} = {H_{{\text{SF}}}}({{\boldsymbol{I}}_{\text{c}}}). $

其中C为特征通道数,HSF(∙)为浅层特征提取模块,从F0中提取深层特征$ {{\boldsymbol{F}}}_{\text{DF}}\in {{\boldsymbol{R}}}^{H\times W\times C} $

$ {{\boldsymbol{F}}_{{\text{DF}}}} = {H_{{\text{DF}}}}({{\boldsymbol{F}}_0}). $

HDF(∙)为深层特征提取模块;包含n个轻量型残差块和n个噪声补偿块,本研究取n=16. 2)图像半色调模块:通过聚合浅层特征和深层特征重构出高质量的半色调图像,表达式为

$ {{\boldsymbol{I}}_{{\text{RH}}}} = {H_{{\text{RH}}}}{\text{(}}{{\boldsymbol{F}}_{\text{0}}}{\text+}{{\boldsymbol{F}}_{{\text{DF}}}}{\text{)}}{\text{.}} $

式中:HRH(∙)为半色调重构模块. IRH为伪半色调图,此时还没有将输出严格限制为0或1. 浅层特征中主要包含低频信息,深层特征包含更多的高频信息. HalfResNet通过长跳跃连接,直接将低频信息传输给重构模块,帮助深层特征提取模块专注于提取更多的高频信息,稳定训练. 图像半色调重构模块采用3×3的卷积对特征进行重建.

2.2. 高效残差块

残差网络在执行计算机视觉问题从低级到高级的任务过程中表现出优异的性能, 原始残差网络中的批量归一化层对特征进行归一化处理,消除了网络输出的灵活性,HalfResNet采用简洁的残差结构进一步提升网络性能. 如图3所示为原始残差网络和轻量化残差网络的构建块对比,其中xl为残差块的特征图输入. 可以看出,轻量化残差网络中删除了批处理归一化操作和最后的ReLU激活函数,实验表明,这种简单的改进可以大大提升模型性能. 批处理归一化与卷积层消耗的内存相当,GPU内存使用量减少,因此在计算资源有限的环境下,可以建立比原始残差网络性能更好的模型.

图 3

图 3   不同残差网络的构建块对比

Fig.3   Building blocks comparison of different residual networks


2.3. 噪声补偿块

典型的CNN由带有偏差项和激活函数的卷积层组成,当输入为平面时,无法引入输出的空间变化,这种现象称为平坦性退化. 该现象由空间共享核的卷积范式引起,会阻碍CNN处理常值灰度的细微变化. 本研究提出噪声补偿块,引入空间变化的特征表示并保证原始输入信息的完整性. 随机性噪声关注整体模式分布而非单个像素值,为模型提供了足够的抖动依赖. 噪声补偿块结构如图4所示,2个卷积分别作为上层网络输出的特征映射和高斯噪声的映射. 通过加性变化得到下层网络的输入为f1(Io)+f2(θN),其中f1f2均为单层卷积网络,Io为上层网络的输出特征,N为动态采样的高斯噪声映射,θ为噪声强度. HalfResNet在每层轻量残差模块前均配备NCB,使平坦区域生成良好的半色调抖动,且没有增加额外参数量.

图 4

图 4   噪声补偿块结构图

Fig.4   Structure of noise compensation block


2.4. 损失函数

损失函数包括色调一致性损失、蓝噪声损失、二值损失和感知一致性损失,表达式为

$ {L}=\omega_1 {L}_\text{T}+\omega _\text{2} {L}_\text{N}+\omega _\text{3} {L}_\text{B}+\omega _4 {L}_\text{G}. $

其中超参数w1=0.6、w2=0.3、w3=0.1、w4=1,根据经验设定. 1)色调一致性损失:为了确保生成的半色调图像在视觉上与输入保持相似,测量分别经过高斯滤波后的灰度输入Ic与半色调图像Oh之间的均方误差.

$ {L}_{\text{T}} = E \in I\left\{ {\left. {\left\| {G({\boldsymbol{O}}_{\text{h}}) - G({\boldsymbol{I}}_{\text{c}})} \right\|_2} \right\}} \right.. $

式中:G(∙)为卷积核大小为11×11的高斯滤波器,$ E $为在训练集中所有输入图像Ic的平均算子. 2)蓝噪声一致性:传统的半色调算法通常须有蓝噪声特性,以避免注入额外的模式. 本研究结合蓝噪声特性,在抖动常值灰度上惩罚低频分量并优化高频区的各向异性.

$ {L}_\text{N}={L}_\text{D}+\sigma {L}_\text{AS}\text{,} $

$ {L}_{{\mathrm{D}}}={E}\in \left\{\right|\left|\right({\mathrm{DCT}}\left({{\boldsymbol{O}}}_{{\mathrm{h}}}\right)-{\mathrm{DCT}}\left({{\boldsymbol{I}}}_{{\mathrm{c}}}\right))\odot M|{|}_{1}\}\cdot $

式中:$ {L}_{\text{D}} $为频谱中的低频分量;$ {L}_{\text{AS}} $为高频区域的各向异性;$ \sigma $为权重因子,根据经验设置为0.1;$ {\text{DCT(}} \cdot {\text{)}} $为离散余弦变换;$ \odot $为元素积;M为常数二值掩码,低频分量设置为1,其他分量设置为0. 半色调处理的输入的灰度值是介于0到1的连续色调图,输出是二值离散图像. 固定灰度图像通过非周期性半色调算法建模为伯努利分布,为平稳随机过程. 平稳随机过程自相关函数的傅里叶变换是功率谱P(f). 非周期半色调过程的自相关函数未知,通过光谱估计的方式得到功率谱.

$ P(f) \approx \frac{1}{N}|{\mathrm{DFT}}({\boldsymbol{O}}){|^2}. $

式中:O为二维图像,$ {\mathrm{DFT}}( \cdot ) $为离散傅里叶变换,N为采样点个数. 径向平均功率谱密度(radial average power spectral density,RAPSD)的表达式为

$ P(f_\rho ) = \frac{1}{{n\;(r\;(f_\rho ))}}\sum\limits_{f \in r(f_\rho )} {\hat P (f)} . $

式中:$ n\;(r\;(f_\rho )) $$ f_\rho $附近宽度$ \Delta \rho \in[0,1) $内的采样点数,$ \hat P (f) $为采样点的功率,$ P(f_\rho ) $为频带内功率谱密度的平均值. 各向异性损失函数表达式为

$ {L}_{\text{AS}} = E \in I\left\{ {\left. {{{(P_\theta (f) - P_\theta (f_\rho ))}^2}} \right\}} \right.. $

频谱分析只对抖动常值灰度图像有意义,为此在每次训练迭代后对一批常值灰度图像进行训练时采用蓝噪声损失,对其他训练集不使用该损失进行训练. 3)二值化损失:生成的半色调图只含有0或1,为了保证模型的稳定性,激励模型的输出值尽可能接近0或者1,采用二值化损失来约束模型的输出二值化损失,表示为

$ {{L}_{\text{B}}} = E \in I\left\{ {\left. {{{\left\| {\mathop {\min }\limits_{d = \{ 0,1\} } \{ |{{\boldsymbol{O}}'_{{{{\mathrm{h}}}}}} - {{\boldsymbol{C}}_d}|\} } \right\|}_1}} \right\}} \right.. $

式中:$ {\boldsymbol{O}}'_{\text{h}} $为在二元门之前的伪半色调图像;$ {{\boldsymbol{C}}_d} $为与$ {\boldsymbol{O}}'_{\text{h}} $大小相同的常值矩阵,其中所有元素的取值均为$ d = \left\{ {0,1} \right\} $. 4)感知一致性损失:为了捕捉半色调图像的感知一致性,在连续特征域内测量半色调模式的差异. 使用预先训练好的逆半色调模型从半色调图像中恢复出连续色调图像,计算半色调图像与连续色调图像的像素级均方误差.

$ {L}_{\mathrm{G}} = E \in I\left\{ {\left. {{{\left\| {F{\text{(}}{{{{\boldsymbol{O}}}}_{{{\mathrm{h}}}}}) - {{{{\boldsymbol{I}}}}_{\text{c}}}} \right\|}_2}} \right\}} \right.. $

式中:F(∙)为逆半色调模式,采用RVH中的逆半色调模块[14]进行逆半色调重建.

3. 实验结果及分析

3.1. 数据集

训练数据集采用公开的VOC数据集. 数据集中有17 125张彩色图像,随机选取其中的13 758幅图像进行训练,保留其中的3 367幅图像作为测试数据集进行定量评价. 通过裁剪和调整使所有图像大小统一为256×256. 训练式(4)不依赖标签,真实的半色调图像在现实中难以获取,因此损失为计算模型输出和原始连续灰度图像的差异. 为了提高模型泛化能力,收集更多不带任何标签的图片作为模型的训练集. 为了进一步证明模型的泛化能力,在多个公开数据集上进行测试,包括Set5[17],Set14[18],T91[19],BSDS100、BSDS200[20],General100[21],Historical、Manga109[22],Urban100[23]数据集.

3.2. 实验环境及训练策略

在NVIDIA GeForce RTX 2080Ti GPU上使用PyTorch 1.10.1、 CUDA 11.3和cuDNN 8.2.0实现基于深度学习的方法. 通过最小化式(4)来训练网络,使用Adam优化器进行训练,批量大小设置为16,学习速率从3.0×10−4调整到1.0×10−5,采用余弦退火计划,训练轮次为Epoch=30.

3.3. 质量评价

将HalfResNet与不同类别的典型算法进行比较,包括Bayer有序抖动算法[5]、Ostromoukhov 误差扩散算法[24]、DBS[25]和RVH[14]. 采用峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity,SSIM)2项指标比较生成的半色调图像与连续灰度图像间的差异. PSNR是有损变换(如图像压缩、图像修复)中常使用的重构度量. 对于半色调图像,PSNR由图像之间的最大像素值L和均方误差MSE来定义. 给定具有N个像素的连续灰度图像和半色调图像,IhIs分别为灰度图像的像素值和半色调图像的像素值,

$ {\text{PSNR}} = 10 {\lg }\left(\frac{{{L^2}}}{{\dfrac{1}{N}{{\displaystyle\sum\nolimits_{i = 1}^N {({I_{\text{h}}}(i) - {I_{\text{s}}}(i))^2} }}}}\right). $

在图像像素使用8个bit位情况下,L=255. 半色调图像是离散化的图像,直接计算连续调图像和灰度图像之间的均方误差不可取. 采用高斯滤波后的半色调图像与高斯滤波后的连续调灰度图像计算PSNR. PSNR仅与像素级的均方误差相关,只关心像素级的差异,SSIM用来衡量图像之间的亮度、对比度和结构的差异. 对于具有N个像素的连续灰度图像和半色调图像,

$ {\text{SSIM}} = \frac{{(2{u_{\mathrm{s}}}{u_{\mathrm{h}}}+{C_1})(2{\sigma _s}{\sigma _h}+{C_2})({\omega _{{\mathrm{s,h}}}}+{C_3})}}{{(u_{\mathrm{s}}^2+u_{\mathrm{h}}^2+{C_1})(\sigma _{\mathrm{s}}^2+\sigma _{\mathrm{h}}^2+{C_2})({\sigma _{\mathrm{s}}}{\sigma _{\mathrm{h}}}+{C_3})}}. $

式中:$ {u_{\mathrm{s}}} $为半色调图像的平均值,$ {\sigma _{\mathrm{s}}} $为半色调图像的方差,$ {u_{\mathrm{h}}} $为灰度图像的平均值,$ {\sigma _{\mathrm{h}}} $为灰度图像的方差,$ {\omega _{{\mathrm{s}},{\mathrm{h}}}} $为半色调图像和灰度图像的协方差. C1C2C3为小常数,防止因式为零. PSNR的取值范围为0~100,SSIM取值为0~1,两者的数值越大表示图像质量越好. 采用包括功率谱和径向平均功率谱的光谱分析方法分析在常值灰度图像上各个算法生成的半色调图像的蓝噪声特性.

3.4. 实验结果

3.4.1. 视觉一致性实验

PSNR与图像之间的均方误差密切相关. 由于半色调图像只有2种离散取值(0或1),计算均方误差时可能不够精确. 因此,在计算PSNR时,最好先使用高斯滤波将半色调图像连续化. 采用高斯滤波后的半色调图像和连续调图像之间的PSNR来衡量色调一致性,采用SSIM度量半色调图像和连续调图像之间的结构相似性,在VOC测试集上的测试结果如表1所示. 由表可知,所提算法获得了具有竞争力的PSNR和最好的SSIM. SSIM更关注图像整体结构的相似性, PSNR只与所有像素值的均方误差有关,因此,SSIM更能反映半色调处理的效果. 传统算法如Ostromoukhov过度模糊精细纹理细节,导致像素级的均方误差变低,PSNR最大.

表 1   半色调算法的定量评价

Tab.1  Quantitative evaluation of halftone algorithms

算法SSIMPSNR
Bayer有序抖动[5]0.098 120.174 1
Ostromoukhov误差扩散[24]0.110 021.133 3
DBS[25]0.092 421.037 0
RVH[14]0.161 520.700 8
本研究0.174 720.834 1

新窗口打开| 下载CSV


图5所示为多种算法在“蜗牛形状器官(snail shaped organ)”图片上的半色调效果. 由图可知,传统算法在边缘细节处理效果欠佳,以过度模糊精细纹理细节为代价抑制伪影的出现,所提算法和RVH都很好保留了图像边缘纹理细节,在螺纹处保留了更多的原始图片的纹路信息. 对比RVH,所提算法在边缘细节部分含噪声更少.

图 5

图 5   不同算法的半色调效果对比

Fig.5   Comparison of halftone effects for different algorithms


为了进一步验证所提算法的泛化能力,在多个公开数据集上进行半色调测试,各种方法在测试数据集上的定量结果如表2所示. 由表可知,所提算法在各公共数据集上的SSIM均为最大值,PSNR的数值较大,表明所提算法具有较好的泛化能力.

表 2   5种算法在公开数据集上的测试结果

Tab.2  Test results of five algorithms in public datasets

数据集Bayer有序抖动Ostromoukhov误差扩散DBSRVH本研究
SSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNR
Set5[17]0.092119.27030.089520.06230.100220.03450.122318.92580.135019.0440
Set14[18]0.110220.52570.119821.91810.109921.82660.166020.07190.180020.1359
T91[19]0.081917.14050.088417.62890.076817.48970.123216.85950.140116.9310
BSDS100[20]0.088319.53220.093720.47780.079320.30550.147719.92980.161120.0607
BSDS200[20]0.075319.41640.080020.31940.066920.13210.126719.65820.140619.7947
General100[21]0.094719.80760.095820.61280.091620.46400.129919.39960.139819.4650
Historical[22]0.151018.66130.149719.42550.122719.17020.229819.49900.241119.9650
Manga109[22]0.247822.96940.222623.29560.233123.27280.254323.28520.264423.1815
Urban100[23]0.144322.69230.161623.55670.135523.36270.214122.73400.225322.9097

新窗口打开| 下载CSV


3.4.2. 蓝噪声特性实验

开展半色调方法的蓝噪声特性研究,分析生成的等灰度图像. 对于给定的常值灰度图像,使用不同算法进行半色调处理,计算各个算法生成的半色调图像的功率谱和径向平均功率谱. 傅里叶振幅谱表示频率分量的振幅,从蓝噪声特性可知,半色调图的功率谱含有较少的低频分量,在高频区域能量分布相对平滑. 如图6所示,3类算法的结果都具有不同程度的蓝噪声特性,含有较少的低频分量;从径向平均功率谱密度可看出,所提算法在高频区域能量分布更加平滑,更符合蓝噪声特性.

图 6

图 6   对常值灰度的半色调光谱分析(灰度为15/255)

Fig.6   Halftone spectral analysis for constant-value grayscale (grayscale of 15/255)


3.4.3. 噪声强度实验

为了分析噪声强度θ对模型的影响,设置θ=0.1、0.2、0.3、0.5、1.0,分别进行实验. 实验环境和训练策略均保持不变,使用VOC训练集,Epoch=100,在VOC测试集上进行测试,采用PSNR和SSIM进行评价,实验结果如表3所示. 由表可知,当θ=0.3时,模型的性能达到最好,因此合适的噪声强度有益于模型产生良好的抖动;当噪声强度过大时,模型的性能会降低.

表 3   噪声强度对模型性能的影响

Tab.3  Effect of noise intensity on model performance

θSSIMPSNRθSSIMPSNR
0.10.158218.05480.50.155617.5647
0.20.167819.53261.00.145316.2547
0.30.174720.8341

新窗口打开| 下载CSV


3.4.4. 消融实验

为了验证所提算法中各组件的有效性,在同一数据集上通过逐步向轻量型残差网络中加入噪声补偿块和各向异性损失的方式测试算法性能,消融实验结果如表4所示. 由表可知,每添加一个模块,算法的性能都会有所提升.

表 4   所提算法的模块消融实验结果

Tab.4  Ablation experimental results of proposed algorithm’s module

残差模块噪声模块各向异性损失PSNRSSIM
18.10000.4557
19.25520.6788
19.37210.7198

新窗口打开| 下载CSV


图7所示为不同模型生成的半色调图像. 可以看出,不添加噪声补偿块生成的半色调图在平坦区域产生退化现象,噪声补偿块弥补了原生CNN的这一缺陷,因此噪声的随机性有助有模型的抖动. 加入各向异性蓝噪声损失有助于模型性能的进一步提升,在边缘区域生成的半色调图像视觉效果更好.

图 7

图 7   不同模型生成的半色调图像

Fig.7   Half-tone images generated by different models


3.4.5. 运行时间

表5所示,将5种算法的运行时间在512×512的“蕾娜(lenna)”图片上进行测试,“*”表示该方法在GPU上进行加速得到的结果. 表中,NP为参数量,tr为运行时间. 由表可知,对比RVH,所提算法参数量下降了96.77%,处理时间减少了57.28%;所提算法与Ostromoukhov的运行时间相当.

表 5   不同算法的运行时间及参数量对比

Tab.5  Runtime and parameter number comparison for different algorithms

算法NP/106tr/ms
Bayer有序抖动[5]0.40
Ostromoukhov误差扩散[24]38.40×10−510.00
DBS[25]2990.00
RVH[14]37.8030.06*
本研究1.2212.84*

新窗口打开| 下载CSV


4. 结 语

本研究提出基于轻量残差网络的高效半色调算法. 引入噪声补偿块,解决了CNN平坦性退化问题,在平坦区域产生了出色的抖动效果;将显式的蓝噪声损失引入损失函数,辅助符合人眼感知的蓝噪声特性半色调图像的生成;采用端到端的模型生成半色调图像,通过跳跃连接将浅层特征和深层特征融合. 与RVH模型相比,所提算法的参数量下降了96.77%,处理速度提高了57.28%;在多个数据集上比较不同算法的性能,相比其他典型算法,所提算法具有最佳的SSIM和有竞争力的PSNR,保留了更多的纹理细节. 本研究为半色调图像处理领域带来了显著的性能提升,为实际应用提供了更高质量和效率的解决方案. 所提算法在某些复杂图像场景下的通用性有待进一步验证,未来将在更大规模的数据集上进行测试.

参考文献

FRANK T, LIU J, GAT S, et al

A machine learning approach to design of aperiodic, clustered-dot halftone screens via direct binary search

[J]. IEEE Transactions on Image Processing, 2022, 31: 5498- 5512

DOI:10.1109/TIP.2022.3196821      [本文引用: 1]

LAU D L, ARCE G R. Modern digital halftoning [M]. 2nd ed. Boca Raton: CRC Press, 2018.

[本文引用: 1]

ULICHNEY R A

Dithering with blue noise

[J]. Proceedings of the IEEE, 1988, 76 (1): 56- 79

DOI:10.1109/5.3288      [本文引用: 3]

KOPF J, COHEN-OR D, DEUSSEN O, et al

Recursive Wang tiles for real-time blue noise

[J]. ACM Transactions on Graphics, 2006, 25 (3): 509- 518

DOI:10.1145/1141911.1141916      [本文引用: 1]

BAYER B E

An optimum method for two level rendition of continuous tone pictures

[J]. IEEE International Conference on Communications, 1973, 9 (1): 26.11- 26.15

[本文引用: 4]

YI Y, LI R, YU C, et al

Quality evaluation metric for greyscale error diffusion halftone images based on texture and visual characteristics

[J]. Imaging Science Journal, 2017, 65 (5/6): 315- 326

[本文引用: 1]

YANG G, JIAO S, LIU J P, et al

Error diffusion method with optimized weighting coefficients for binary hologram generation

[J]. Applied Optics, 2019, 58 (20): 5547- 5555

DOI:10.1364/AO.58.005547     

FUNG Y H, CHAN Y H

Tone-dependent error diffusion based on an updated blue-noise model

[J]. Journal of Electronic Imaging, 2016, 25 (1): 013013

DOI:10.1117/1.JEI.25.1.013013      [本文引用: 1]

CHIZHOV V, GEORGIEV I, MYSZKOWSKI K, et al

Perceptual error optimization for Monte Carlo rendering

[J]. ACM Transactions on Graphics, 2022, 41 (3): 1- 17

[本文引用: 1]

MAO Y, SARKAR U, BORRELL I, et al

Ink drop displacement model-based direct binary search

[J]. IEEE Transactions on Image Processing, 2023, 32: 3897- 3911

DOI:10.1109/TIP.2023.3283924      [本文引用: 1]

XIA M, WONG T T. Deep inverse halftoning via progressively residual learning [C]// Computer Vision–ACCV 2018 . Perth: Springer, 2019: 523–539.

[本文引用: 1]

SHAO L, ZHANG E, LI M

An efficient convolutional neural network model combined with attention mechanism for inverse halftoning

[J]. Electronics, 2021, 10 (13): 1574

DOI:10.3390/electronics10131574     

JIANG H, MU Y

Conditional diffusion process for inverse halftoning

[J]. Advances in Neural Information Processing Systems, 2022, 35: 5498- 5509

[本文引用: 1]

XIA M, HU W, LIU X, et al. Deep halftoning with reversible binary pattern [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 14000–14009.

[本文引用: 7]

SHAO S, LI Z, ZHANG T, et al. Objects365: a large-scale, high-quality dataset for object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 8430–8439.

[本文引用: 1]

CHOI B, ALLEBACH J P

Mimicking DBS halftoning via a deep learning approach

[J]. Electronic Imaging, 2022, 34 (15): 158

[本文引用: 1]

AGUSTSSON E, TIMOFTE R. NTIRE 2017 challenge on single image super-resolution: dataset and study [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops . Honolulu: IEEE, 2017: 126–135.

[本文引用: 2]

HUI Z, WANG X, GAO X. Fast and accurate single image super-resolution via information distillation network [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 723–731.

[本文引用: 2]

ZHANG H, WANG P, ZHANG C, et al

A comparable study of CNN-based single image super-resolution for space-based imaging sensors

[J]. Sensors, 2019, 19 (14): 3234

DOI:10.3390/s19143234      [本文引用: 2]

JIU M, PUSTELNIK N

A deep primal-dual proximal network for image restoration

[J]. IEEE Journal of Selected Topics in Signal Processing, 2021, 15 (2): 190- 203

DOI:10.1109/JSTSP.2021.3054506      [本文引用: 3]

DONG C, LOY C C, TANG X. Accelerating the super-resolution convolutional neural network [C]// Computer Vision–ECCV 2016 . Amsterdam: Springer, 2016: 391–407.

[本文引用: 2]

MATSUI Y, ITO K, ARAMAKI Y, et al

Sketch-based Manga retrieval using Manga109 dataset

[J]. Multimedia Tools and Applications, 2017, 76: 21811- 21838

DOI:10.1007/s11042-016-4020-z      [本文引用: 3]

HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Boston: IEEE, 2015: 5197–5206.

[本文引用: 2]

OSTROMOUKHOV V. A simple and efficient error-diffusion algorithm [C]// Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques . [S.l.]: ACM, 2001: 567–572.

[本文引用: 3]

ANALOUI M, ALLEBACH J P. Model-based halftoning using direct binary search [C]// Human Vision, Visual Processing, and Digital Display III . San Jose: [s.n.], 1992: 96–108.

[本文引用: 3]

/