- 作者:聲網Agora Cavan*
在日益繁多的直播場景中,如果你也是某位游戲主播的粉絲的話,有一種直播方式是你一定不陌生的,那就是我們今天要聊的屏幕分享。
直播場景下的屏幕分享,不僅要將當前顯示器所展示的畫面分享給遠端,也要將聲音傳輸出去,包括應用的聲音,以及主播的聲音。鑒于這兩點需求,我們可以簡單分析出,進行一次屏幕分享的直播所需要的媒體流如下:
- 一條顯示器畫面的視頻流
- 一條應用聲音的音頻流
- 一條主播聲音的音頻流
ReplayKit 是蘋果提供的用于 iOS 系統進行屏幕錄制的框架。
首先我們來看看蘋果提供的用于屏幕錄制的 ReplayKit 的數據回調接口:
override func processSampleBuffer(_ sampleBuffer: CMSampleBuffer, with sampleBufferType: RPSampleBufferType) {
DispatchQueue.main.async {
switch sampleBufferType {
case .video:
AgoraUploader.sendVideoBuffer(sampleBuffer)
case .audioApp:
AgoraUploader.sendAudioAppBuffer(sampleBuffer)
case .audioMic:
AgoraUploader.sendAudioMicBuffer(sampleBuffer)
@unknown default:
break
}
}
}
從枚舉 sampleBufferType 上,我們不難看出,剛好能符合我們上述對媒體流的需求。
視頻
格式
guard let videoFrame = CMSampleBufferGetImageBuffer(sampleBuffer) else {
return
}
let type = CVPixelBufferGetPixelFormatType(videoFrame)
type = kCVPixelFormatType_420YpCbCr8BiPlanarFullRange
通過 CVPixelBufferGetPixelFormatType,我們可以獲取到每幀的視頻格式為 yuv420。
幀率
通過打印接口的回調次數,可以知道每秒能夠獲取的視頻幀為30次,也就是幀率為 30。
格式與幀率都能符合 Agora RTC 所能接收的范圍,所以通過 Agora RTC 的 pushExternalVideoFrame 就可以將視頻分享到遠端了。
agoraKit.pushExternalVideoFrame(frame)
插入一個小知識
顯示器所顯示的幀來自于一個幀緩存區,一般常見的為雙緩存或三緩存。當屏幕顯示完一幀后,發出一個垂直同步信號(V-Sync),告訴幀緩存區切換到下一幀的緩存上,然后顯示器開始讀取新的一幀數據做顯示。
這個幀緩存區是系統級別的,一般的開發者是無法讀取跟寫入的。但是如果是蘋果自身提供的錄制框架 ReplayKit 能夠直接讀取到已經渲染好且將用于顯示器的幀,且這一過程不會影響渲染流程而造成掉幀,那就能減少一次用于提供給 ReplayKit 回調數據的渲染過程。
音頻
ReplayKit 能提供的音頻有兩種,分為麥克風錄制進來的音頻流,與當前響應的應用播放的音頻流。(下文將前者稱為 AudioMic,后者為 AudioApp)
可以通過下面的兩行代碼,來獲取音頻格式
CMAudioFormatDescriptionRef format = CMSampleBufferGetFormatDescription(sampleBuffer);
const AudioStreamBasicDescription *description = CMAudioFormatDescriptionGetStreamBasicDescription(format);
AudioApp
AudioApp 會在不同的機型下有不一樣的聲道數。例如在 iPad 或 iPhone7 以下機型中,不具備雙聲道播放的設備,這時候 AudioApp 的數據就是單聲道,反之則是雙聲道。
采樣率在部分試過的機型里,都是 44100,但不排除在未測試過的機型會是其他的采樣率。
AudioMic
AudioMic 在測試過的機型里,采樣率為 32000,聲道數為單聲道。
音頻前處理
如果我們將 AudioApp 與 AudioMic 作為兩條音頻流去發送,那么流量肯定是大于一條音頻流的。我們為了節省一條音頻流的流量,就需要將這兩條音頻流做混音(融合)。
但是通過上述,我們不難看出,兩條音頻流的格式是不一樣的,而且不能保證隨著機型的不同,是不是會出現其他的格式。在測試的過程中還發現 OS 版本的不同,每次回調給到的音頻數據長度也會出現變化。那么我們在對兩條音頻流做混音前,就需要進行格式統一,來應對 ReplayKit 給出的各種格式。所以我們采取了以下幾個重要的步驟:
if (channels == 1) {
int16_t* intData = (int16_t*)dataPointer;
int16_t newBuffer[totalSamples * 2];
for (int i = 0; i < totalSamples; i++) {
newBuffer[2 * i] = intData[i];
newBuffer[2 * i + 1] = intData[i];
}
totalSamples *= 2;
memcpy(dataPointer, newBuffer, sizeof(int16_t) * totalSamples);
totalBytes *= 2;
channels = 2;
}
- 無論是 AudioMic 還是 AudioApp,只要進來的流為單聲道,我們都將它轉化為雙聲道;
if (sampleRate != resampleRate) {
int inDataSamplesPer10ms = sampleRate / 100;
int outDataSamplesPer10ms = (int)resampleRate / 100;
int16_t* intData = (int16_t*)dataPointer;
switch (type) {
case AudioTypeApp:
totalSamples = resampleApp(intData, dataPointerSize, totalSamples,
inDataSamplesPer10ms, outDataSamplesPer10ms, channels, sampleRate, (int)resampleRate);
break;
case AudioTypeMic:
totalSamples = resampleMic(intData, dataPointerSize, totalSamples,
inDataSamplesPer10ms, outDataSamplesPer10ms, channels, sampleRate, (int)resampleRate);
break;
}
totalBytes = totalSamples * sizeof(int16_t);
}
- 無論是 AudioMic 還是 AudioApp,只要進來的流采樣率不為 48000,我們將它們重采樣為 48000;
memcpy(appAudio + appAudioIndex, dataPointer, totalBytes);
appAudioIndex += totalSamples;
memcpy(micAudio + micAudioIndex, dataPointer, totalBytes);
micAudioIndex += totalSamples;
- 通過第一步與第二步,我們保證了兩條音頻流都為同樣的音頻格式。但是由于 ReplayKit 是一次回調給到一種數據的,所以在混音前我們還得用兩個緩存區來存儲這兩條流數據;
int64_t mixIndex = appAudioIndex > micAudioIndex ? micAudioIndex : appAudioIndex;
int16_t pushBuffer[appAudioIndex];
memcpy(pushBuffer, appAudio, appAudioIndex * sizeof(int16_t));
for (int i = 0; i < mixIndex; i ++) {
pushBuffer[i] = (appAudio[i] + micAudio[i]) / 2;
}
- ReplayKit 有選項是否開啟麥克風錄制,所以在關閉麥克風錄制的時候,我們就只有一條 AudioApp 音頻流。所以我們以這條流為主,去讀取 AudioMic 緩存區的數據長度,然后對比兩個緩存區的數據長度,以最小的數據長度為我們的混音長度。將混音長度的兩個緩存區里的數據做融合,得到混音后的數據,寫入一個新的混音緩存區(或者直接寫入 AudioApp 緩存區);
[AgoraAudioProcessing pushAudioFrame:(*unsigned* *char* *)pushBuffer
withFrameSize:appAudioIndex * *sizeof*(int16_t)];
- 最后我們再將這段混音后的數據拷貝進 Agora RTC 的 C++ 錄制回調接口里,這時候就可以把麥克風錄制的聲音與應用播放的聲音傳輸到遠端了。
通過對音視頻流的處理,結合 Agora RTC SDK,我們就完成了一個屏幕分享直播場景的實現了。
具體的實現上的細節,可以參考 https://github.com/AgoraIO/Advanced-Video/tree/master/iOS%26macOS/Agora-Screen-Sharing/Agora-Screen-Sharing-iOS