久久草在线视频,天天弄,jlzz大全高潮多水老师

名詞解釋

名稱	含義
sr(sample_rate)	采樣率,表示一秒采樣多少個樣本點
hop_length	步幅;幀移對應卷積中的stride;連續幀分割長度
overlapping	連續兩幀的重疊部分
n_fft	窗口大小；n_fft = hop_length+overlapping
spectrum	光譜，頻譜
spectrogram:	光譜圖；聲譜圖
Chromagram	色譜圖
Scaleogram
magnitude spectrogram
amplitude	振幅
logarithmic amplitude-frequency	對數振幅頻譜圖
mono	單聲道
stereo	立體聲
constant-Q transform (cqt)
pitch	音高
timbral	音色

cqt特征捕獲音高，mfcc捕獲音色

音頻處理的流程

音頻分幀
通過使用窗口函數將長短不一的音頻分割成大小相同的音頻片段。(默認采樣率22050Hz)
一般有兩種描述方式：
方式一：(幀描述方式)使用2048((20481000ms)/22050=93ms)個采樣點，前后兩個窗的重疊5123采樣點。
方式二：(時間描述方式)使用 93ms 的幀長、23ms 的幀移(hop_length)，以及周期性的 Hann 窗口對語音進行分幀。
例如：下面的圖通過一個滑動窗口將一個音頻分割成6個等成的音頻片段。

image.png

#這是一個窗口大小為window_size，連續窗口的重疊部分為window_size/2
def windows(audio, window_size):
    start = 0
    while start < len(audio):
        #len(audio)是一個音頻文件的總樣本點數。
        yield start, start + window_size #取出長度為window_size的樣本點下標索引
        start += (window_size / 2) #計算下一個分割片段的起始位置

計算每一幀mel聲譜圖。

signal = audio[0,2048] #(audio[0,2048] 表示圖中的分割的1片段
#下面一行計算分割片段audio[0,2048]的64階mel譜
#sr表示采樣率,表示一秒采樣多少個樣本點。
#n_fft表示短時傅里葉變化用到的連續的樣本點個數
#hop_length:連續兩個傅里葉變化的重疊樣本點個數
melspec = librosa.feature.melspectrogram(signal, sr=22050,
                                    n_fft=2048, 
                                    hop_length=512, 
                                    n_mels = 64) 
logspec = librosa.logamplitude(melspec)#計算log mel

輸出：

#本代碼計算將一個原始音頻文件分割成等大小的片段，
#然后計算每一個片段的og mel_sepctrogram.
for (start,end) in windows(audio,window_size):
              #(1)此處是為了是將大小不一樣的音頻文件用大小window_size，
              #stride=window_size/2的窗口，分割為等大小的時間片段。
              #(2)計算每一個分割片段的log mel_sepctrogram.
                if(end<= len(audio)): #最后不夠一個窗口的樣本點舍去
                    signal = audio[start:end] #分割的音頻幀(圖中的1，2，3，4，5，6)
                    melspec = librosa.feature.melspectrogram(signal, n_mels = 64) #計算每個分割片段的mel譜
                    logspec = librosa.logamplitude(melspec)#計算log mel 譜

參考教材：

Urban Sound Classification Part 1 Part 2
Karol J. Piczak github
如何使用TensorFlow實現音頻分類任務教材

LibROSA

LibROSA is a python package for music and audio analysis. It provides the building blocks necessary to create music information retrieval systems.

這個過程對應計算信號s(t)的
short-time Fourier transform magnitude平方。窗口大小w. spectrogram(t,w) = |STFT(t,w)|**2。可以理解為譜是傅里葉變換的平方。

計算log mel-spectrogram
y 與 S只需提供一個。y是讀入的音頻文件，S是音頻的譜
n_fft:STFT window size
hop_length : STFT hop length

melspec = melspectrogram(y=None, sr=22050, S=None, n_fft=2048, hop_length=512, power=2.0, **kwargs):
 logspec = librosa.logamplitude(melspec)

def windows(data, window_size):
    start = 0
    while start < len(data):
        yield start, start + window_size
        start += (window_size / 2)

def extract_features(parent_dir,sub_dirs,file_ext="*.wav",bands = 60, frames = 41):
    window_size = 512 * (frames - 1)
    log_specgrams = []
    labels = []
    for l, sub_dir in enumerate(sub_dirs):
        for fn in glob.glob(os.path.join(parent_dir, sub_dir, file_ext)): 
            sound_clip,s = librosa.load(fn)
            label = fn.split('/')[2].split('-')[1]
            for (start,end) in windows(sound_clip,window_size):
              #(1)此處是為了是將大小不一樣的音頻文件用大小window_size，
              #stride=window_size/2的窗口，分割為等大小的時間片段。
              #(2)計算每一個分割片段的log mel_sepctrogram.
              #或者，先分別計算大小不一的音頻的log mel_spectrogram,在通過固定的窗口，
              #切割等大小的頻譜圖。
                if(len(sound_clip[start:end]) == window_size):
                    signal = sound_clip[start:end]
                    melspec = librosa.feature.melspectrogram(signal, n_mels = bands)
                    logspec = librosa.logamplitude(melspec)
                    logspec = logspec.T.flatten()[:, np.newaxis].T
                    log_specgrams.append(logspec)
                    labels.append(label)

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

librosa 音頻處理庫

librosa 音頻處理庫

名詞解釋

cqt特征捕獲音高，mfcc捕獲音色

音頻處理的流程

LibROSA

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

librosa 音頻處理庫

名詞解釋

cqt特征捕獲音高，mfcc捕獲音色

音頻處理的流程

LibROSA

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频