1. 概念
sRGB圖和raw圖是兩種不同的圖像格式,它們之間的轉換需要一些特定的算法。
sRGB圖是經過圖像信號處理 (ISP) 的彩色圖像,它包含了白平衡、去馬賽克、降噪、顏色空間轉換、色調映射等操作。
raw圖是未經處理的原始圖像,它保存了相機傳感器捕獲的原始數據,通常有更高的位深度和動態范圍。
2. 方法分類
基于模型的方法:這類方法利用了相機ISP中的各個模塊對其進行建模,生成合成的訓練數據對。例如,Unprocessing Images for Learned Raw Denoising 提出了一種方法’unprocess’, 考慮到相機ISP中的各個模塊對其進行建模,生成syntactic訓練數據對。這種方法可以批量生成raw視頻數據,并且根據自己的噪音模型往上加噪音。但是,這種方法也存在一些問題,比如rgb的8bit和raw的12bit的問題,以及tone mapping和白平衡等非線性操作會對數據集造成退化。
基于可逆網絡的方法:這類方法利用了可逆網絡結構來學習RAW和sRGB之間的雙向映射,從而實現可逆的ISP。例如,Invertible Image Signal Processing 重新設計了一個端到端可逆ISP,可以繞過傳統的模塊,最大限度地減少 raw 數據和 jpeg 圖像轉換過程中的信息損失,進一步實現高質量 raw 數據重建。這種方法可以學習到ISP pipeline的一些非線性特性,并且對JPEG壓縮魯棒。但是,這種方法也需要大量的訓練數據,并且可能存在一些不可逆的情況。
基于循環一致性的方法:這類方法利用了循環一致性損失來約束RAW和sRGB之間的轉換,從而實現無監督或半監督的ISP。例如,CycleISP: Real Image Restoration via Improved Data Synthesis 提出了一種循環ISP框架,它可以從真實sRGB圖像合成高質量的RAW圖像,并且可以從合成或真實RAW圖像恢復高質量的sRGB圖像。這種方法可以利用大量的真實sRGB圖像作為數據源,并且可以改善合成數據集中存在的信息缺失問題。但是,這種方法也需要設計合適的循環一致性損失,并且可能存在一些循環偽影。
3. 數據集
- Unprocessing Images for Learned Raw Denoising1 使用了Darmstadt Noise Dataset (DND) 和 Smartphone Image Denoising Dataset (SIDD) 作為訓練和測試數據集。
- Invertible Image Signal Processing2 使用了MIT-Adobe FiveK Dataset 作為訓練數據集,使用了DPED, See-in-the-Dark (SID), Zurich RAW to RGB (ZRR) 作為測試數據集。
- CycleISP: Real Image Restoration via Improved Data Synthesis3 使用了MIT-Adobe FiveK Dataset 和 DPED 作為訓練數據集,使用了DND, SIDD, Nam, RENOIR, NC12 作為測試數據集。
4. 評價指標
- 峰值信噪比 (PSNR):這是一種常用的圖像質量評價指標,它通過計算原始圖像和重建圖像之間的均方誤差 (MSE) 來衡量兩者的相似度。PSNR越高,表示重建圖像越接近原始圖像。例如,Unprocessing Images for Learned Raw Denoising 使用了PSNR來評價從合成的sRGB圖重建raw圖的性能。
- 結構相似性指數 (SSIM):這是一種考慮了人類視覺感知特性的圖像質量評價指標,它通過計算原始圖像和重建圖像之間的亮度、對比度和結構相似度來衡量兩者的視覺質量。SSIM越接近1,表示重建圖像越接近原始圖像。例如,Invertible Image Signal Processing 使用了SSIM來評價從JPEG壓縮的sRGB圖重建raw圖的性能。
- 均方根色彩誤差 (RMSE-C):這是一種專門用于評價顏色還原能力的指標,它通過計算原始圖像和重建圖像之間的色彩距離來衡量兩者的顏色相似度。RMSE-C越低,表示重建圖像越接近原始圖像的顏色。例如,CycleISP: Real Image Restoration via Improved Data Synthesis 使用了RMSE-C來評價從真實sRGB圖合成raw圖的性能。
根據我搜索的結果,這些評價指標各有優缺點,簡要如下:
- PSNR:優點是計算簡單,實現方便,已經應用在視頻編碼標準中。缺點是受像素點的影響大,與人的主觀感受不一致,沒有考慮人類視覺系統的特性12。
- SSIM:優點是考慮了圖像的亮度、對比度和結構三個方面,更符合人類視覺系統的特性,與主觀評價一致性高12。缺點是計算復雜度高,需要對圖像進行局部分割和加權處理12。
- MSE:優點是計算簡單,直觀反映了圖像的失真程度。缺點是沒有考慮到人類視覺系統的非線性特性,對于不同類型的失真敏感度不同34。
圖像質量評價指標的選擇取決于不同的應用場景和目標。一般來說,有以下幾個原則:
- 如果有原始圖像作為參考,可以選擇全參考方法,如PSNR, SSIM等,這些方法可以比較直觀地反映兩幅圖像之間的差異程度。
- 如果沒有原始圖像作為參考,可以選擇無參考方法,如BRISQUE, NIQE等,這些方法可以根據圖像的自然度或統計特征來評估圖像的質量。
- 如果要考慮人類視覺系統的特性,可以選擇基于感知的方法,如VIF, FSIM等,這些方法可以模擬人眼對圖像的感知過程,更符合主觀評價。
- 如果要評價特定類型的失真,如模糊,噪聲,壓縮等,可以選擇針對性的方法,如BLIINDS, DIIVINE等,這些方法可以針對不同的失真因素進行優化。
- 如果要評價多種類型的失真,或者不清楚失真類型,可以選擇通用的方法,如MAD, GM-LOG等,這些方法可以適應多種場景和失真情況。