This post was published in 2022-07-21. Obviously, expired content is less useful to users if it has already pasted its expiration date.
Table of Contents
皮尔逊系数,欧氏距离,余弦距离/余弦相似度
皮尔逊系数,欧氏距离,余弦距离/余弦相似度
方便检索:Pearson Correlation Coefficient, Euclidean distance, cosine similarity
结论:三者基本可认为等价:
🔗 [如何理解皮尔逊相关系数(Pearson Correlation Coefficient)? - 知乎] https://www.zhihu.com/question/19734616
ASR和MIR的DTW应用场景与建模方法
ASR和MIR的DTW应用场景
DTW的坐标单位/含义忘记了!赶紧找回来复习一遍
ASR领域:
见 preview 🔗 [2022-03-29 - Truxton's blog] https://truxton2blog.com/2022-03-29/#DTW
目前来看在ASR领域,DTW主要还是用 MFCC 特征向量进行对齐,DTW计算的距离是MFCC向量之间的相似度。
MIR领域:
目前学到的DTW使用场景是:比较 chroma feature vector 的相似度然后对齐。
复习STFT spectrogram到chromagram的转换流程
STFT spectrogram到chromagram的转换流程
这个基础知识也忘记了!
MIDI信号的取值范围
可能又要从MIDI信号的取值范围开始搞起
钢琴有88个键,从A0到C8:3+12*7+1
MIDI键盘虽然输出的midi pitch信号范围有0~127,但和常用note对应的是21(A0)~127(G9),一共107个note(21之前的note是负数)
计算:87+12+8=107
完整表格:🔗 [MIDI note numbers and center frequencies | Inspired Acoustics] https://www.inspiredacoustics.com/en/MIDI_note_numbers_and_center_frequencies
另外再记住一些关键的midi pitch信号:
A0: p=21
A4: p=69
C8: p=108
MIDI pitch转频率
MIDI pitch转频率
公式来自《Fundamentals of …》P118
[mathjax-d]F_{\text {pitch }}(p)=2^{(p-69) / 12} \cdot 440\ \ \ \ , p \in[0: 127][/mathjax-d]
所以有的时候也会把MIDI pitch称为pitch-based log frequency.
频率转MIDI pitch
频率转MIDI pitch
从《Fundamentals of …》P120开始阅读
上面提到的「MIDI pitch转频率」可以认为是「正整数转浮点数」,但反过来怎么转换?直接把公式倒过来计算大概率会得到一个浮点数的MIDI pitch. 所以书上采用的方法是:MIDI pitch四舍五入...
可以有2种思路:
1,频率转float MIDI pitch,然后四舍五入变成int MIDI pitch
2,使用一系列MIDI pitch范围(66.5~67.5视为67,67.5~68.5视为68,68.5~69.5视为69...),用这些 *.5 的float MIDI pitch计算一系列对应的频率范围表,最后查表即可。频率落在哪个MIDI pitch区间就属于哪个MIDI pitch.
Bandwidth
附加:由于指数的存在,MIDI pitch对应frequency并不是线性的。书上还定义了一个bandwidth:
[mathjax-d]\mathrm{BW}(p):=F_{\text {pitch }}(p+0.5)-F_{\text {pitch }}(p-0.5)[/mathjax-d]
可以看出,频率/MIDI pitch越高,bandwidth就越大:
pitch转chroma
pitch转chroma
pitch范围是0-127,而chroma范围是0-11,在midi pitch序列上chroma会循环出现
单纯地将pitch frequency表上所有chroma对应的pitch frequency分量加起来即可:
完整流程
所以这是到目前为止的转换流程:从note到SIFT-frequency,然后到(MIDI) pitch,最后到chroma