使用Java分離音頻左右聲道

使用Java分離音頻左右聲道

1.音頻屬性相關(guān)

音頻采樣所得的PCM都含有三個要素:聲道(channel)、采樣率(sample rate)、采樣位數(shù)、時長。

1.1.聲道

記錄聲音時,如果每次生成一個聲波數(shù)據(jù),稱為單聲道;每次生成兩個聲波數(shù)據(jù),稱為雙聲道(立體聲)。單聲道的聲音只能使用一個喇叭發(fā)聲,雙聲道的PCM可以使兩個喇叭同時發(fā)聲(一般左右聲道有分工),更能感受到空間效果。

1.2.采樣率

單位時間內(nèi)采集的樣本數(shù),即:采樣周期的倒數(shù),指兩個采樣之間的時間間隔。采樣頻率越高,聲音質(zhì)量越好,但同時占用的帶寬越大。一般情況下,22KHz相當(dāng)于普通FM的音質(zhì),44KHz相當(dāng)于CD音質(zhì),目前的常用采樣頻率都不超過48KHz。

1.3.采樣位數(shù)

表示一個樣本的二進(jìn)制位數(shù),即:每個采樣點用多少比特表示。計算機(jī)中音頻的量化深度一般為4、8、16、32位(bit)等。例如:采樣位數(shù)為8 bit時,每個采樣點可以表示256個不同的采樣值,而采樣位數(shù)為16 bit時,每個采樣點可以表示65536個不同的采樣值。采樣位數(shù)的大小影響聲音的質(zhì)量,采樣位數(shù)越多,量化后的波形越接近原始波形,聲音的質(zhì)量越高,而需要的存儲空間也越多;位數(shù)越少,聲音的質(zhì)量越低,需要的存儲空間越少。一般情況下,CD音質(zhì)的采樣位數(shù)是16 bit,移動通信是8 bit。

1.4.幀

音頻在量化得到二進(jìn)制的碼字后,需要進(jìn)行變換,而變換(MDCT)是以塊為單位(block)進(jìn)行的,一個塊由多個(120或128)樣本組成。而一幀內(nèi)會包含一個或者多個塊。幀的常見大小有960、1024、2048、4096等。一幀記錄了一個聲音單元,它的長度是樣本長度和聲道數(shù)的乘積。FFmpeg中 AVFrame 結(jié)構(gòu)體中的 nb_samples 代表的就是一幀中單個聲道的音頻樣本數(shù)量。

數(shù)字音頻文件大小(Byte) = 采樣頻率(Hz)× 采樣時長(S)×(采樣位數(shù) / 8)× 聲道數(shù)(單聲道為1,立體聲為2)

2.FFmpeg介紹

FFmpeg 是一個專業(yè)的多媒體框架,能夠解碼、編碼、轉(zhuǎn)碼、復(fù)用、解復(fù)用、流式傳輸、過濾和播放幾乎所有格式的媒體文件。
其核心就是 FFmpeg 程序本身,是一個基于命令行的視頻和音頻處理工具,多用于視頻轉(zhuǎn)碼、基礎(chǔ)編輯(修剪和合并)、視頻縮放、后期效果制作等場景。

ffmpeg -i <inputfile> -hide_banner

2.1.FFmpeg 常用操作

`ffmpeg -i <inputfile> <outputfile>``

  • 1.轉(zhuǎn)碼

$ ffmpeg -i input.avi output.mp4

  • 2.提取音頻

$ ffmpeg -i input.mp4 output.mp3

  • 3.調(diào)整分辨率

$ ffmpeg -i input.mp4 -s 1280x720 output.mp4

  • 4.調(diào)整幀率

$ ffmpeg -i input.webm -c:a copy -c:v vp9 -r 30 output.mkv

  • 5.提取音頻

$ ffmpeg -i input.mp4 output.mp3

  • 6.抓取圖片

$ ffmpeg -i input.mp4 -r 1 -f image2 image-%2d.png

  • 7.裁剪視頻

$ ffmpeg -i input.mp4 -vf "crop=w:h:x:y" output.mp4

  • 8.設(shè)置音頻封面

$ ffmpeg -loop 1 -i inputimage.jpg -i inputaudio.wav -c:v libx264 -tune stillimage -c:a aac -b:a 192k -shortest output.mp4

  • 9.截取視頻片段

$ ffmpeg -i input.mp4 -ss 00:00:50 -codec copy -t 60 output.mp4

  • 10.調(diào)整分辨率

$ ffmpeg -i input.mp4 -filter:v scale=1280:720 output.mp4

3.Jave2(Java音頻視頻編碼器)

JAVE2是一個小的Java庫,它將ffmpeg包裝到j(luò)ava類中。 它是基于Carlo Pelliccia的杰作。 由于不再維護(hù)該代碼,因此我們采用了該代碼,并用當(dāng)前版本替換了ffmpeg可執(zhí)行文件,并修改了代碼以使其與新的二進(jìn)制文件一起使用。

在Java項目中可以通過maven或者gradle的方式引入依賴,這里使用maven講解。

支持Windows,Mac,Linux等平臺

<dependency>
    <groupId>ws.schild</groupId>
    <artifactId>jave-all-deps</artifactId>
    <version>2.7.3</version>
</dependency>

4.JavaDemo

  • 1.獲取音頻信息
import ws.schild.jave.EncoderException;
import ws.schild.jave.MultimediaInfo;
import ws.schild.jave.MultimediaObject;

import java.io.File;

/**
 * <p>
 *
 * @author leone
 * @since 2020-08-08
 **/
public class Test {

    public static void main(String[] args) {
        MultimediaInfo audioInfo = getAudioInfo(new File("/Users/leone/Downloads/mv.wav"));

        assert audioInfo != null;

        System.out.println("音頻時長: " + audioInfo.getDuration());
        System.out.println("音頻聲道數(shù): " + audioInfo.getAudio().getChannels());
        System.out.println("音頻比特率: " + audioInfo.getAudio().getBitRate());
        System.out.println("音頻采樣比特率: " + audioInfo.getAudio().getSamplingRate());


    }

    /**
     * 獲取音頻詳情
     *
     * @param audioFile
     * @return
     */
    public static MultimediaInfo getAudioInfo(File audioFile) {
        MultimediaObject multimediaObject = new MultimediaObject(audioFile);
        try {
            return multimediaObject.getInfo();
        } catch (EncoderException e) {
            e.printStackTrace();
        }
        return null;
    }
}

輸出

15:19:12.619 [main] DEBUG ws.schild.jave.DefaultFFMPEGLocator - Os name is <mac os x> isWindows: false isMac: true
15:19:12.624 [main] DEBUG ws.schild.jave.DefaultFFMPEGLocator - Creating jave temp folder to place executables in </var/folders/31/qwvhtrys2gqdd9bwyb2dzwf80000gn/T/jave>
15:19:12.625 [main] DEBUG ws.schild.jave.DefaultFFMPEGLocator - Executable path: /var/folders/31/qwvhtrys2gqdd9bwyb2dzwf80000gn/T/jave/ffmpeg-x86_64-2.7.3-osx
15:19:12.625 [main] DEBUG ws.schild.jave.DefaultFFMPEGLocator - Need to copy executable to </var/folders/31/qwvhtrys2gqdd9bwyb2dzwf80000gn/T/jave/ffmpeg-x86_64-2.7.3-osx>
15:19:12.625 [main] DEBUG ws.schild.jave.DefaultFFMPEGLocator - Copy from resource <nativebin/ffmpeg-x86_64-osx> to target </var/folders/31/qwvhtrys2gqdd9bwyb2dzwf80000gn/T/jave/ffmpeg-x86_64-2.7.3-osx>
15:19:13.090 [main] DEBUG ws.schild.jave.DefaultFFMPEGLocator - Target </var/folders/31/qwvhtrys2gqdd9bwyb2dzwf80000gn/T/jave/ffmpeg-x86_64-2.7.3-osx> exists
15:19:13.179 [main] DEBUG ws.schild.jave.DefaultFFMPEGLocator - ffmpeg executable found: /var/folders/31/qwvhtrys2gqdd9bwyb2dzwf80000gn/T/jave/ffmpeg-x86_64-2.7.3-osx
15:19:13.182 [main] DEBUG ws.schild.jave.FFMPEGExecutor - About to execute /var/folders/31/qwvhtrys2gqdd9bwyb2dzwf80000gn/T/jave/ffmpeg-x86_64-2.7.3-osx -i /Users/leone/Downloads/mv.wav -hide_banner 
15:19:14.267 [main] DEBUG ws.schild.jave.MultimediaObject - Output line: Guessed Channel Layout for Input Stream #0.0 : stereo
15:19:14.268 [main] DEBUG ws.schild.jave.MultimediaObject - Output line: Input #0, wav, from '/Users/leone/Downloads/mv.wav':
15:19:14.268 [main] DEBUG ws.schild.jave.MultimediaObject - Output line:   Metadata:
15:19:14.268 [main] DEBUG ws.schild.jave.MultimediaObject - Output line:     encoder         : Lavf58.29.100
15:19:14.268 [main] DEBUG ws.schild.jave.MultimediaObject - Output line:   Duration: 00:03:35.64, bitrate: 1411 kb/s
15:19:14.268 [main] DEBUG ws.schild.jave.MultimediaObject - Output line:     Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 44100 Hz, stereo, s16, 1411 kb/s
15:19:14.270 [main] DEBUG ws.schild.jave.MultimediaObject - Output line: At least one output file must be specified
15:19:14.270 [main] DEBUG ws.schild.jave.MultimediaObject - Output line: null
音頻時長: 215640
音頻聲道數(shù): 2
音頻比特率: 1411000
音頻采樣比特率: 44100

  • 2.音頻格式轉(zhuǎn)碼
/**
 * 音頻文件轉(zhuǎn)碼
 *
 * @param source
 * @return
 */
public File audioToWav(File source) {
    try {
        File target = File.createTempFile(UUID.randomUUID().toString(), ".tmp");

        // Audio Attributes
        AudioAttributes audio = new AudioAttributes();

        // Encoding attributes
        EncodingAttributes attrs = new EncodingAttributes();
        attrs.setFormat("wav");
        attrs.setAudioAttributes(audio);

        // Encode
        Encoder encoder = new Encoder();
        MultimediaObject object = new MultimediaObject(source);
        encoder.encode(object, target, attrs);
        return target;
    } catch (Exception ex) {
        ex.printStackTrace();
    }
    return null;
}

5.使用Jave2API分離左右聲道

/**
 * @param originPath
 * @param leftFilePath
 * @param rightFilePath
 * @return
 */
public static File[] doubleChannelSplit(String originPath, String leftFilePath, String rightFilePath) {
    File leftFile = new File(leftFilePath);
    File rightFile = new File(rightFilePath);
    if (leftFile.exists()) {
        leftFile.delete();
    }

    if (rightFile.exists()) {
        rightFile.delete();
    }
    FFMPEGExecutor ffmpeg = locator.createExecutor();
    ffmpeg.addArgument("-i");
    ffmpeg.addArgument(originPath);
    ffmpeg.addArgument("-map_channel");
    ffmpeg.addArgument("0.0.0");
    ffmpeg.addArgument(leftFilePath);
    ffmpeg.addArgument("-map_channel");
    ffmpeg.addArgument("0.0.1");
    ffmpeg.addArgument(rightFilePath);
    BufferedReader br = null;
    try {
        ffmpeg.execute();
        br = new BufferedReader(new InputStreamReader(ffmpeg.getErrorStream()));
        String line;
        while ((line = br.readLine()) != null) {
            logger.info(line);
        }
        return new File[]{leftFile, rightFile};
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        try {
            if (br != null) {
                br.close();
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    return null;
}

6.最后

本來最開始是想用Java調(diào)用系統(tǒng)命令來完成音頻聲道分離的,但是考慮到兼容性,最后看了jave2的源碼發(fā)現(xiàn)javaAPI中的操作也是基于調(diào)用jar包中的命令完成的,所以就采用這種方式實現(xiàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。