音频信号表征

STFT

\displaystyle S(m,\omega)=\sum_{n=-\infty}^\infty x[n]w[n-m]\exp(-j\omega n)

Mel-spectrogram

\displaystyle m(f)=2595\log_{10}(1+\frac{f}{700})

Constant-Q (CQT)

\displaystyle f_c(k_{lf})=f_{min}\times2^{k_{lf}/\beta}

f_{min}是分析的最小频率(最低滤波器的中心频率 Hz),k_{lf}是滤波器索引,\beta是每个八度分多少个滤波器。
CQT 的计算复杂度比梅尔谱和 STFT 要高。(log-spectrograms可以作为一种替代方案,并且在钢琴转写的任务中表现比 CQT 还要好。)

Chromagram(色谱图)

给定一个\log频谱的频谱X_{lf}(例如 CQT)

\displaystyle C_f(b)=\sum_{z=0}^{Z-1}|X_{lf}(b+z\beta)|

z代表在第z个八度,b是音级的索引取值范围是[0,\beta-1]。像 MFCC 一样,色谱图比其它表征方式做了更多的处理,它本身也可以作为特征使用。

本作品采用《CC 协议》,转载必须注明作者和本文链接
不要试图用百米冲刺的方法完成马拉松比赛。
本帖由 Galois 于 3年前 加精
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!