音频信号表征
STFT
\displaystyle S(m,\omega)=\sum_{n=-\infty}^\infty x[n]w[n-m]\exp(-j\omega n)
Mel-spectrogram
\displaystyle m(f)=2595\log_{10}(1+\frac{f}{700})
Constant-Q (CQT)
\displaystyle f_c(k_{lf})=f_{min}\times2^{k_{lf}/\beta}
f_{min}是分析的最小频率(最低滤波器的中心频率 Hz),k_{lf}是滤波器索引,\beta是每个八度分多少个滤波器。
CQT 的计算复杂度比梅尔谱和 STFT 要高。(log-spectrograms可以作为一种替代方案,并且在钢琴转写的任务中表现比 CQT 还要好。)
Chromagram(色谱图)
给定一个\log频谱的频谱X_{lf}(例如 CQT)
\displaystyle C_f(b)=\sum_{z=0}^{Z-1}|X_{lf}(b+z\beta)|
z代表在第z个八度,b是音级的索引取值范围是[0,\beta-1]。像 MFCC 一样,色谱图比其它表征方式做了更多的处理,它本身也可以作为特征使用。
本作品采用《CC 协议》,转载必须注明作者和本文链接
本帖由 Galois
于 4年前 加精