1 MediaCodec 介紹
MediaCodec類可以用于使用一些基本的多媒體編解碼器(音視頻編解碼組件),它是Android基本的多媒體支持基礎架構的一部分通常和MediaExtractor、MediaSync、MediaMuxer、MediaCrypto、MediaDrm、Image、Surface和AudioTrack一起使用。
一個編解碼器可以處理輸入的數據來產生輸出的數據,編解碼器使用一組輸入和輸出緩沖器來異步處理數據。
你可以創建一個空的輸入緩沖區,填充數據后發送到編解碼器進行處理。
編解碼器使用輸入的數據進行轉換,然后輸出到一個空的輸出緩沖區。
最后你獲取到輸出緩沖區的數據,消耗掉里面的數據,釋放回編解碼器。
如果后續還有數據需要繼續處理,編解碼器就會重復這些操作。輸出流程如下:
1.1 編解碼器支持的數據類型:
壓縮數據、原始音頻數據和原始視頻數據
你可以通過ByteBuffers能夠處理這三種數據,但是需要你提供一個Surface,用于對原始的視頻數據進行展示,這樣也能提高編解碼的性能。
Surface使用的是本地的視頻緩沖區,這個緩沖區不映射或拷貝到ByteBuffers,這樣的機制讓編解碼器的效率更高。
通常在使用Surface的時候,無法訪問原始的視頻數據,但是你可以使用ImageReader訪問解碼后的原始視頻幀。在使用ByteBuffer的模式下,您可以使用Image類和getInput/OutputImage(int)訪問原始視頻幀。
1.2 編解碼器的生命周期:
主要的生命周期為:Stopped、Executing、Released。
- Stopped的狀態下也分為三種子狀態:Uninitialized、Configured、Error。
- Executing的狀態下也分為三種子狀態:Flushed, Running、End-of-Stream。
從上圖可以看出:
1、當創建編解碼器的時候處于未初始化狀態。首先你需要調用configure(…)方法讓它處于Configured狀態,然后調用start()方法讓其處于Executing狀態。在Executing狀態下,你就可以使用上面提到的緩沖區來處理數據。
2、Executing的狀態下也分為三種子狀態:Flushed, Running、End-of-Stream。在start() 調用后,編解碼器處于Flushed狀態,這個狀態下它保存著所有的緩沖區。一旦第一個輸入buffer出現了,編解碼器就會自動運行到Running的狀態。當帶有end-of-stream標志的buffer進去后,編解碼器會進入End-of-Stream狀態,這種狀態下編解碼器不在接受輸入buffer,但是仍然在產生輸出的buffer。此時你可以調用flush()方法,將編解碼器重置于Flushed狀態。
3、調用stop()將編解碼器返回到未初始化狀態,然后可以重新配置。 完成使用編解碼器后,您必須通過調用release()來釋放它。
4、在極少數情況下,編解碼器可能會遇到錯誤并轉到錯誤狀態。 這是使用來自排隊操作的無效返回值或有時通過異常來傳達的。 調用reset()使編解碼器再次可用。 您可以從任何狀態調用它來將編解碼器移回未初始化狀態。 否則,調用 release()動到終端釋放狀態。
2 MediaCodec API 說明
MediaCodec可以處理具體的視頻流,主要有這幾個方法:
- getInputBuffers:獲取需要編碼數據的輸入流隊列,返回的是一個ByteBuffer數組
- queueInputBuffer:輸入流入隊列
- dequeueInputBuffer:從輸入流隊列中取數據進行編碼操作
- getOutputBuffers:獲取編解碼之后的數據輸出流隊列,返回的是一個ByteBuffer數組
- dequeueOutputBuffer:從輸出隊列中取出編碼操作之后的數據
- releaseOutputBuffer:處理完成,釋放ByteBuffer數據
3 MediaCodec 流控
3.1 流控基本概念
流控就是流量控制。為什么要控制,因為條件有限!涉及到了 TCP 和視頻編碼:
對 TCP 來說就是控制單位時間內發送數據包的數據量,對編碼來說就是控制單位時間內輸出數據的數據量。
- TCP 的限制條件是網絡帶寬,流控就是在避免造成或者加劇網絡擁塞的前提下,盡可能利用網絡帶寬。帶寬夠、網絡好,我們就加快速度發送數據包,出現了延遲增大、丟包之后,就放慢發包的速度(因為繼續高速發包,可能會加劇網絡擁塞,反而發得更慢)。
- 視頻編碼的限制條件最初是解碼器的能力,碼率太高就會無法解碼,后來隨著 codec 的發展,解碼能力不再是瓶頸,限制條件變成了傳輸帶寬/文件大小,我們希望在控制數據量的前提下,畫面質量盡可能高。
一般編碼器都可以設置一個目標碼率,但編碼器的實際輸出碼率不會完全符合設置,因為在編碼過程中實際可以控制的并不是最終輸出的碼率,而是編碼過程中的一個量化參數(Quantization Parameter,QP),它和碼率并沒有固定的關系,而是取決于圖像內容。
無論是要發送的 TCP 數據包,還是要編碼的圖像,都可能出現“尖峰”,也就是短時間內出現較大的數據量。TCP 面對尖峰,可以選擇不為所動(尤其是網絡已經擁塞的時候),這沒有太大的問題,但如果視頻編碼也對尖峰不為所動,那圖像質量就會大打折扣了。如果有幾幀數據量特別大,但仍要把碼率控制在原來的水平,那勢必要損失更多的信息,因此圖像失真就會更嚴重。
3.2 Android 硬編碼流控
MediaCodec 流控相關的接口并不多,一是配置時設置目標碼率和碼率控制模式,二是動態調整目標碼率(Android 19 版本以上)。
配置時指定目標碼率和碼率控制模式:
mediaFormat.setInteger(MediaFormat.KEY_BIT_RATE, bitRate);
mediaFormat.setInteger(MediaFormat.KEY_BITRATE_MODE,
MediaCodecInfo.EncoderCapabilities.BITRATE_MODE_VBR);
mVideoCodec.configure(mediaFormat, null, null, MediaCodec.CONFIGURE_FLAG_ENCODE);
碼率控制模式有三種:
- CQ 表示完全不控制碼率,盡最大可能保證圖像質量;
- CBR 表示編碼器會盡量把輸出碼率控制為設定值,即我們前面提到的“不為所動”;
- VBR 表示編碼器會根據圖像內容的復雜度(實際上是幀間變化量的大小)來動態調整輸出碼率,圖像復雜則碼率高,圖像簡單則碼率低;
動態調整目標碼率:
Bundle param = new Bundle();
param.putInt(MediaCodec.PARAMETER_KEY_VIDEO_BITRATE, bitrate);
mediaCodec.setParameters(param);
3.3 Android 流控策略選擇
- 質量要求高、不在乎帶寬、解碼器支持碼率劇烈波動的情況下,可以選擇 CQ 碼率控制策略。
- VBR 輸出碼率會在一定范圍內波動,對于小幅晃動,方塊效應會有所改善,但對劇烈晃動仍無能為力;連續調低碼率則會導致碼率急劇下降,如果無法接受這個問題,那 VBR 就不是好的選擇。
- CBR 的優點是穩定可控,這樣對實時性的保證有幫助。所以 WebRTC 開發中一般使用的是CBR。
4 將mp3文件轉碼為aac音頻文件
4.1 轉碼實現原理
轉碼實現原理:mp3->pcm->aac,首先將mp3解碼成PCM,再將PCM編碼成aac格式的音頻文件。
PCM:可以將它理解為,未經過壓縮的數字信號,即原始音頻數據,mp3、aac等理解為pcm壓縮后的文件。播放器在播放mp3、aac等文件時要先將mp3等文件解碼成PCM數據,然后再將PCM送到底層去處理播放。
4.2 代碼實現
4.2.1 初始化MediaExtractor
首先要初始化MediaExtractor選擇要操作的音軌,然后在AudioDecodeRunnable中完成解碼操作。因為解碼是相對耗時的操作,所以需要開辟新的線程進行操作。
MediaExtractor:可用于分離視頻文件的音軌和視頻軌道,如果你只想要視頻,那么用selectTrack方法選中視頻軌道,然后用readSampleData讀出數據,這樣你就得到了一個沒有聲音的視頻。此處我們傳入的是一個音頻文件(mp3),所以也就只有一個軌道,音頻軌道。
MediaCodec.createDecoderByType(mime) 創建對應格式的解碼器 要解碼mp3 那么mime="audio/mpeg" 或者MediaFormat.MIMETYPE_AUDIO_MPEG其它同理。
mime:用來表示媒體文件的格式,各種類型定義在MediaFormat靜態常量中,mp3為audio/mpeg;aac為audio/mp4a-latm;mp4為video/mp4v-es。
此處注意前綴 :音頻前綴為audio,視頻前綴為video。我們可用此區別區分媒體文件內的音頻軌道和視頻軌道。
/**
* 將音頻文件解碼成原始的PCM數據
* @param audioPath MP3文件目錄
* @param audioSavePath pcm文件保存位置
* @param listener
*/
public static void getPCMFromAudio(String audioPath, String audioSavePath, final AudioDecodeListener listener){
MediaExtractor extractor = new MediaExtractor();//此類可分離視頻文件的音軌和視頻軌道
int audioTrack = -1;//音頻MP3文件其實只有一個音軌
boolean hasAudio = false;//判斷音頻文件是否有音頻音軌
try {
extractor.setDataSource(audioPath);
for (int i = 0;i < extractor.getTrackCount(); i++){
MediaFormat format = extractor.getTrackFormat(i);
String mime = format.getString(MediaFormat.KEY_MIME);
if (mime.startsWith("audio/")){
audioTrack = i;
hasAudio = true;
break;
}
}
if (hasAudio){
extractor.selectTrack(audioTrack);
//原始音頻解碼
new Thread(new AudioDecodeRunnable(extractor,audioTrack,audioSavePath, new DecodeOverListener() {
@Override
public void decodeIsOver() {
handler.post(new Runnable() {
@Override
public void run() {
if (listener != null){
listener.decodeOver();
}
}
});
}
@Override
public void decodeFail() {
handler.post(new Runnable() {
@Override
public void run() {
if (listener != null){
listener.decodeFail();
}
}
});
}
})).start();
} else {//如果音頻文件沒有音頻音軌
Log.e(TAG,"音頻文件沒有音頻音軌");
if (listener != null){
listener.decodeFail();
}
}
}catch (IOException e){
e.printStackTrace();
Log.e(TAG,"解碼失敗");
if (listener != null){
listener.decodeFail();
}
}
}
4.2.2 創建解碼器
在新的線程中解碼
1、直接從MP3音頻文件中得到音軌的MediaFormat
extractor.getTrackFormat(audioTrack);
2、初始化解碼器,并配置解碼器屬性
MediaCodec.createDecoderByType(format.getString(MediaFormat.KEY_MIME));
audioCodec.configure(format,null,null,0);
3、啟動解碼器
audioCodec.start();//啟動MediaCodec,等待傳入數據
4、你可以創建一個空的輸入緩沖區,填充數據后發送到解碼器進行處理
ByteBuffer[] inputBuffers = audioCodec.getInputBuffers();//MediaCodec在此ByteBuffer[]中獲取輸入數據
int inputIndex = audioCodec.dequeueInputBuffer(TIMEOUT_USEC);
ByteBuffer inputBuffer = inputBuffers[inputIndex];//拿到inputBuffer
int sampleSize = extractor.readSampleData(inputBuffer,0);//將MediaExtractor讀取數據到inputBuffer
audioCodec.queueInputBuffer(inputIndex,inputInfo.offset,sampleSize,inputInfo.presentationTimeUs,0);
audioCodec.queueInputBuffer(inputIndex,0,0,0L,MediaCodec.BUFFER_FLAG_END_OF_STREAM);
5、解碼器使用輸入的數據進行轉換,然后輸出到一個空的輸出緩沖區。
最后你獲取到輸出緩沖區的數據,消耗掉里面的數據,釋放回編解碼器。
如果后續還有數據需要繼續處理,編解碼器就會重復這些操作。
最后寫入pcm文件中。
ByteBuffer[] outputBuffers = audioCodec.getOutputBuffers();//MediaCodec將解碼后的數據放到此ByteBuffer[]中 我們可以直接在這里面得到PCM數據
int outputIndex = audioCodec.dequeueOutputBuffer(decodeBufferInfo,TIMEOUT_USEC);
outputBuffers = audioCodec.getOutputBuffers();
ByteBuffer outputBuffer = outputBuffers[outputIndex];
chunkPCM = new byte[decodeBufferInfo.size];
outputBuffer.get(chunkPCM);
fos.write(chunkPCM);//數據寫入文件中
具體代碼:
public void run() {
try {
MediaFormat format = extractor.getTrackFormat(audioTrack);
//初始化音頻解碼器
MediaCodec audioCodec = MediaCodec.createDecoderByType(format.getString(MediaFormat.KEY_MIME));
audioCodec.configure(format,null,null,0);
audioCodec.start();//啟動MediaCodec,等待傳入數據
ByteBuffer[] inputBuffers = audioCodec.getInputBuffers();//MediaCodec在此ByteBuffer[]中獲取輸入數據
ByteBuffer[] outputBuffers = audioCodec.getOutputBuffers();//MediaCodec將解碼后的數據放到此ByteBuffer[]中 我們可以直接在這里面得到PCM數據
MediaCodec.BufferInfo decodeBufferInfo = new MediaCodec.BufferInfo();//用于描述解碼得到的byte[]數據的相關信息
MediaCodec.BufferInfo inputInfo = new MediaCodec.BufferInfo();
boolean codeOver = false;
boolean inputDone = false;//整體輸入結束標記
FileOutputStream fos = new FileOutputStream(mPcmFilePath);
while (!codeOver){
if (!inputDone){
for (int i = 0;i < inputBuffers.length; i++){
//遍歷所有的編碼器,然后將數據傳入之后,再去輸出端取出數據
int inputIndex = audioCodec.dequeueInputBuffer(TIMEOUT_USEC);
if (inputIndex >= 0){
//從分離器拿出輸入,寫入解碼器
ByteBuffer inputBuffer = inputBuffers[inputIndex];//拿到inputBuffer,新的API中好像可以直接拿到
inputBuffer.clear();
int sampleSize = extractor.readSampleData(inputBuffer,0);//將MediaExtractor讀取數據到inputBuffer
if (sampleSize < 0){//表示所有數據已經讀取完畢
audioCodec.queueInputBuffer(inputIndex,0,0,0L,MediaCodec.BUFFER_FLAG_END_OF_STREAM);
} else {
inputInfo.offset = 0;
inputInfo.size = sampleSize;
inputInfo.flags = MediaCodec.BUFFER_FLAG_SYNC_FRAME;
inputInfo.presentationTimeUs = extractor.getSampleTime();
Log.e(TAG,"往解碼器寫入數據,當前時間戳:" + inputInfo.presentationTimeUs);
//通知MediaCodec解碼剛剛傳入的數據
audioCodec.queueInputBuffer(inputIndex,inputInfo.offset,sampleSize,inputInfo.presentationTimeUs,0);
extractor.advance();
}
}
}
}
boolean decodeOutputDone = false;
byte[] chunkPCM;
while (!decodeOutputDone){
int outputIndex = audioCodec.dequeueOutputBuffer(decodeBufferInfo,TIMEOUT_USEC);
if (outputIndex == MediaCodec.INFO_TRY_AGAIN_LATER){
//沒有可用的解碼器
decodeOutputDone = true;
}else if (outputIndex == MediaCodec.INFO_OUTPUT_BUFFERS_CHANGED){
outputBuffers = audioCodec.getOutputBuffers();
} else if (outputIndex == MediaCodec.INFO_OUTPUT_FORMAT_CHANGED){
MediaFormat newFormat = audioCodec.getOutputFormat();
} else if (outputIndex < 0) {
} else {
ByteBuffer outputBuffer;
if (Build.VERSION.SDK_INT >= 21){
outputBuffer = audioCodec.getOutputBuffer(outputIndex);
} else {
outputBuffer = outputBuffers[outputIndex];
}
chunkPCM = new byte[decodeBufferInfo.size];
outputBuffer.get(chunkPCM);
outputBuffer.clear();
fos.write(chunkPCM);//數據寫入文件中
fos.flush();
Log.e(TAG,"釋放輸出流緩沖區:" + outputIndex);
audioCodec.releaseOutputBuffer(outputIndex,false);
if ((decodeBufferInfo.flags & MediaCodec.BUFFER_FLAG_END_OF_STREAM) != 0){//編解碼結束
extractor.release();
audioCodec.stop();
audioCodec.release();
codeOver = true;
decodeOutputDone = true;
}
}
}
}
fos.close();
mListener.decodeIsOver();
if (mListener != null){
mListener.decodeIsOver();
}
}catch (IOException e){
e.printStackTrace();
if (mListener != null){
mListener.decodeFail();
}
}
}
4.2.3 初始化編碼器
編碼器的創建于解碼器的類似,只不過解碼器的MediaFormat直接在音頻文件內獲取就可以了,編碼器的MediaFormat需要自己來創建。
1、初始化編碼格式
//初始化編碼格式 mimetype 采樣率 聲道數
MediaFormat encodeFormat = MediaFormat.createAudioFormat(MediaFormat.MIMETYPE_AUDIO_AAC,44100,2);
encodeFormat.setInteger(MediaFormat.KEY_BIT_RATE,96000);
encodeFormat.setInteger(MediaFormat.KEY_AAC_PROFILE, MediaCodecInfo.CodecProfileLevel.AACObjectLC);
encodeFormat.setInteger(MediaFormat.KEY_MAX_INPUT_SIZE,500 * 1024);
2、初始化編碼器
//初始化編碼器
MediaCodec mediaEncode = MediaCodec.createEncoderByType(MediaFormat.MIMETYPE_AUDIO_AAC);
mediaEncode.configure(encodeFormat,null,null,MediaCodec.CONFIGURE_FLAG_ENCODE);
mediaEncode.start();
3、讀取pcm文件并寫入編碼器輸入緩存區中
Log.e(TAG,"讀取文件并寫入編碼器" + allAudioBytes.length);
inputIndex = mediaEncode.dequeueInputBuffer(-1);
inputBuffer = encodeInputBuffers[inputIndex];
inputBuffer.clear();
inputBuffer.limit(allAudioBytes.length);
inputBuffer.put(allAudioBytes);//將pcm數據填充給inputBuffer
mediaEncode.queueInputBuffer(inputIndex,0,allAudioBytes.length,0,0);//開始編碼
4、從解碼器輸出緩存區中取出數據并寫入文件中
//從解碼器中取出數據
outBitSize = encodeBufferInfo.size;
outPacketSize = outBitSize + 7;//7為adts頭部大小
outputBuffer = encodeOutputBuffers[outputIndex];//拿到輸出的buffer
outputBuffer.position(encodeBufferInfo.offset);
outputBuffer.limit(encodeBufferInfo.offset + outBitSize);
chunkAudio = new byte[outPacketSize];
AudioCodec.addADTStoPacket(chunkAudio,outPacketSize);//添加ADTS
outputBuffer.get(chunkAudio,7,outBitSize);//將編碼得到的AAC數據取出到byte[]中,偏移量為7
outputBuffer.position(encodeBufferInfo.offset);
Log.e(TAG,"編碼成功并寫入文件" + chunkAudio.length);
bos.write(chunkAudio,0,chunkAudio.length);//將文件保存在sdcard中