基于节拍同步的 IF PCP 特征提取
IF PCP 特征提取
PCP 作为一种中层特征,充分保留了歌曲的旋律信息。
IF PCP通过使用瞬时频率,而非使用傅里叶变换后的频率进行频谱映射,有效地解决了傅里叶变换带来的「频谱模糊」问题。
根据求得的频谱,将每一帧的能量压缩到与 8 度无关的 12 个半音上,频谱映射公式为:
\displaystyle p(k) = \mathrm{round}(12\log_2(\frac{f_s(k)}{f_{ref}})\mathrm{mod}\ 12
其中f_{ref}为参考频率,可以取钢琴上的标准 A 对应的 440 Hz。
f_s(k)对应频谱中第k个分量的频率。
在f_s(k)<f_{ref}的情况下,取模运算为负数取模问题。
p(k)=0,1,\cdots,11为第k个频率分量对应的音级,将一帧中与某一特定的音级相对应频率的能量压缩到这个音级上,可以得到12维的 PCP 特征。
\displaystyle h_{p,n}=\sum_{k:p(k)=p}|X(k)|^2,\ p=0,1,\cdots,11
X(k)为频谱幅度。
h_{p,n}为第n帧 PCP 特征在音级p上的强度。
本作品采用《CC 协议》,转载必须注明作者和本文链接