
鼓 stem 转 MIDI 实用指南
如果你在任何通用音频转 MIDI 工具里试过转鼓录音,可能见过 Reddit 上这个抱怨:"鼓被识别成钢琴音符了。" 这篇讲清楚为什么会这样,以及今天就能用的 3 个 workaround——不需要买 Roland GK 拾音器。
为什么鼓 stem 会让大多数音频转 MIDI 工具失灵
通用音频转 MIDI 引擎(包括 PureMIDI 当前版本,鼓模式上线前)识别有音高的音符。它们寻找基频和谐波结构,然后把识别到的音符写成 MIDI 事件——音高 + 起始时间 + 结束时间 + 力度。
鼓打破这个模型,原因:
- 鼓不是旋律乐器那种"有音高"的方式。snare 是一段宽频噪音加短暂的 tonal "ping"。kick 主要是低频 thump。引擎在找干净的基频——找到的是噪音。
- 引擎没有"鼓组组件"的概念。它不知道这个 transient = kick,那个 = snare,闭镲噪音 = hi-hat。它只是听到某个音高并记录下来。这个音高通常落在钢琴音域,所以你的 snare 变成了 A3。
- General MIDI(GM)鼓用特定音符号——kick 是 MIDI 音符 36,snare 是 38,闭镲是 42,等等。没有分类逻辑的话,引擎无法把识别到的击打映射到 GM 鼓标准上,意味着输出无法正确触发鼓采样器。
所以"聪明"的工作流需要识别鼓组组件的鼓转写——这是和旋律音高识别不同的技术。
今天就能用的 3 个 workaround

方案 A:在 DAW 里切片并触发(最自动)
现代 DAW 都内置了 drum-replacement 工具——它们不"转写",而是检测 transient 并触发 MIDI 击打。例如:
- Logic Pro:把鼓 stem 拖到轨道上,右键 →
Convert→Convert to Sampler Track…;或新版的内置 Drum Replace。 - Ableton Live:右键 audio clip →
Convert Drums to New MIDI Track。Live 尝试把 kick/snare/hat 击打映射到 MIDI 音符。 - Cubase:Drum Replace + Hitpoints 工作流。
- Reaper:ReaTune / ReaSlice + 手动 transient 标记。
- Studio One:Audio Bend / Sampler 轨道转换。
能用:单源干净的鼓 stem(单独 kick 通道、单独 snare 通道)。DAW 内置工具对这些处理得很好。
不行:完整鼓总线,kick/snare/hat 互相重叠。DAW 会搞不清哪个 transient 属于哪个鼓组组件。
方案 B:先分鼓 stem,再触发
如果只有完整鼓总线(没有独立的 kick/snare/hat 通道),可以先用免费或低价的 stem 分离工具分轨。现在很多工具支持"鼓组分离"——把单一鼓总线分成 kick、snare、hi-hat、toms 几条轨道。
分离后,每条独立轨道再走方案 A。单通道 transient 检测远比从混合鼓总线里识别多个击打可靠。
常见分离方案:
- 开源模型如
htdemucs能从整曲混音里分离出鼓总线。 - 一些商业工具进一步把鼓总线分成各组件。
- 对很多人来说,仅从整曲混音里分离出鼓总线已经是大胜利——配合 DAW 的 Drum Replace 通常就够了。
方案 C:手动重建 MIDI(最准)
如果准确度比速度重要,手动方法胜过当前所有自动转写:
- 把鼓 stem 放到 DAW 的音频轨上当参考。
- 打开鼓采样器(Logic Drummer、EZdrummer、Superior Drummer、Ableton Drum Rack)。
- 边听鼓 stem 边把节奏型弹到 MIDI 里——用 MIDI 控制器或在 piano roll 里点。
- 用耳朵量化和调整 velocity。
对复杂的爵士鼓独奏或异拍摇滚 fill,这是今天能拿到生产级 MIDI 的唯一方式。每 4 小节 pattern 预计花 5-15 分钟。繁琐但结果可用。
即将上线:PureMIDI 的鼓识别模式
我们在做识别鼓组组件的鼓转写模式,能接受鼓 stem(或整曲自动分轨)输出标准 General MIDI 鼓音符——kick 36,snare 38,闭镲 42,开镲 46,toms 41/43/45/47/48/50。预计上线时间:当前产品路线图的 5-8 周。
上线后的工作流是一次上传:
- 把鼓 stem(或整曲)拖进 PureMIDI。
- 拿回带正确鼓组组件映射的
drums.mid。 - 拖到 Drum Rack / EZdrummer / Superior Drummer 轨道播放。
在那之前,方案 A(DAW Drum Replace)是干净 stem 的最快路径,方案 C(手动重建)对混乱或复杂素材最准。
上传技巧(鼓模式上线后用得上)
无论用哪个鼓转 MIDI 工具,包括 PureMIDI 即将上线的鼓模式,这些技巧都通用:
- 能用独立 stem 就用。单独 kick 通道比鼓总线容易,鼓总线比整曲容易。
- 避免源文件重压缩和混响。被压扁的 transient 更难检测。
- 镲是最难的。crash、ride、washy 镲常被误识别。预留人工清理时间。
- 慢速比快速容易。175 BPM 的 drum'n'bass 比 95 BPM 的 hip-hop beat 难得多。
- 原声鼓通常比重度处理的电子鼓容易。真鼓有更明显的 transient 特征。
专门讲讲 Suno 的鼓 stem
如果你想把 Suno 的 drums.wav stem 转 MIDI,同样的限制适用。当前 PureMIDI 引擎会把鼓击打误识别。先用方案 A(把 Suno 鼓 stem 拖到 DAW 用 Drum Replace)。等我们的鼓模式上线后,可以直接上传 Suno 鼓 stem 拿到正确的 drums.mid。
Suno 整曲的其他部分(vocals、bass、other),Suno 转 MIDI 工作流今天就能跑。
常见问题
为什么 AI 音乐工具不直接加鼓转写?
因为这是不同模型。音高识别和打击乐分类是两个不同的问题,需要不同的训练数据。大多数通用音频转 MIDI 工具优先做有音高素材,因为市场更大——鼓专用工具通常作为第二个产品做。
能不能用 drum trigger 插件做现场?
可以。现场鼓转 MIDI 用硬件方案如 Roland TM-2,或软件方案如 Toontrack EZmix 的 drum trigger 都可以实时工作。这是和离线转写不同的品类。
PureMIDI 鼓模式准确度会怎样?
上线时会公布准确度基准。诚实回答:取决于素材。干净独立的 kick/snare/hat stem 大概率 90%+,混乱的完整鼓总线带镲和效果会更低。我们会在文档里透明说明边界。
支持 General MIDI 鼓映射吗?
支持。输出会用标准 GM 鼓音符(36 kick、38 snare、42 闭镲、46 开镲 等),所以可以直接配合 EZdrummer、Superior Drummer、Logic Drummer、Ableton Drum Rack、FL Studio FPC 等任何 GM 兼容鼓采样器。
鼓模式上线时怎么收到通知?
发邮件到 support@puremidi.com 主题写 "Drum mode waitlist",鼓模式上线那天我们会发一行通知给你。同时也会发上线博文并更新 /audio-to-midi 工具页。
今天先用音频转 MIDI 干别的轨
鼓识别模式还在路上,但 PureMIDI 的人声、贝斯、单乐器、钢琴音频转 MIDI 已经稳定。先把这些做掉,鼓部分上线后再补。注册即送 2 个免费试用积分,无订阅。
打开音频转 MIDI →