经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python3 » 查看文章
不懂乐理,也能扒谱,基于openvpi将mp3转换为midi乐谱(Python3.10)
来源:cnblogs  作者:刘悦的技术博客  时间:2023/11/17 9:20:40  对本文有异议

所谓"扒谱"是指通过听歌或观看演奏视频等方式,逐步分析和还原音乐作品的曲谱或乐谱的过程。它是音乐学习和演奏的一种常见方法,通常由音乐爱好者、乐手或学生使用。

在扒谱的过程中,人们会仔细聆听音乐作品,辨别和记录出各个音符、和弦、节奏等元素,并通过试错和反复推敲来逐渐还原出准确的曲谱或乐谱。这对于那些没有正式乐谱或想学习特定曲目的人来说,是一种有效的方式。

扒谱的目的是为了更好地理解和演奏音乐作品,从中学习技巧、乐曲结构和艺术表达等方面。但不懂乐理的人很难听出音符和音准,本次我们通过openvpi的开源项目some来直接针对mp3文件进行扒谱,将mp3转换为midi文件。

项目配置

首先我们来克隆项目:

  1. git clone https://github.com/openvpi/SOME.git

进入项目的目录some:

  1. cd some

接着下载项目的预训练模型:

  1. https://pan.baidu.com/s/1lVQcKP7ijTELslJNgoDqkQ?pwd=odsm

2stems模型放到项目的pretrained_models目录下。

ckpt模型放入项目的ckpt目录下。

如果没有ckpt和pretrained_models目录,请手动建立。

如下所示:

├───ckpt
│ config.yaml
│ model_ckpt_steps_104000_simplified.ckpt
├───pretrained_models
│ └───2stems
│ ._checkpoint
│ checkpoint
│ model.data-00000-of-00001
│ model.index
│ model.meta

如此,项目就配置好了。

背景音乐和人声分离

扒谱主要针对人声部分,所以需要spleeter的参与,关于spleeter,请参见:人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10),囿于篇幅,这里不再赘述。

执行命令:

  1. spleeter separate -p spleeter:2stems -o ./output ./test.mp3

这里使用2stems模型已经在上文中进行下载,并且放置在项目的pretrained_models目录。

如果没有output目录,请手动建立,test.mp3为需要扒谱的音乐文件。

随后会将背景音乐accompaniment.wav和人声vocals.wav分别输出在项目的output目录:

  1. ├───output
  2. └───test
  3. accompaniment.wav
  4. vocals.wav

人声去噪

一般情况下,分离后的人声可能还存在混音等噪音,会影响转换的效果。

这里使用noisereduce来进行降噪:

  1. pip install noisereduce

编写降噪代码:

  1. from scipy.io import wavfile
  2. import noisereduce as nr
  3. # load data
  4. rate, data = wavfile.read("./output/test/vocals.wav")
  5. # perform noise reduction
  6. reduced_noise = nr.reduce_noise(y=data, sr=rate)
  7. wavfile.write("./output/test/vocals.wav", rate, reduced_noise)

运行后会对vocals.wav人声文件进行降噪重写操作。

扒谱(wav转换midi)

接着运行命令进行转换:

  1. python infer.py --model ./ckpt/model_ckpt_steps_104000_simplified.ckpt --wav ./output/test/vocals.wav

程序返回:

  1. python infer.py --model ./ckpt/model_ckpt_steps_104000_simplified.ckpt --wav ./output/test/vocals.wav
  2. accumulate_grad_batches: 1, audio_sample_rate: 44100, binarization_args: {'num_workers': 0, 'shuffle': True}, binarizer_cls: preprocessing.MIDIExtractionBinarizer, binary_data_dir: data/some_ds_fixmel_spk3_aug8/binary,
  3. clip_grad_norm: 1, dataloader_prefetch_factor: 2, ddp_backend: nccl, ds_workers: 4, finetune_ckpt_path: None,
  4. finetune_enabled: False, finetune_ignored_params: [], finetune_strict_shapes: True, fmax: 8000, fmin: 40,
  5. freezing_enabled: False, frozen_params: [], hop_size: 512, log_interval: 100, lr_scheduler_args: {'min_lr': 1e-05, 'scheduler_cls': 'lr_scheduler.scheduler.WarmupLR', 'warmup_steps': 5000},
  6. max_batch_frames: 80000, max_batch_size: 8, max_updates: 10000000, max_val_batch_frames: 10000, max_val_batch_size: 1,
  7. midi_extractor_args: {'attention_drop': 0.1, 'attention_heads': 8, 'attention_heads_dim': 64, 'conv_drop': 0.1, 'dim': 512, 'ffn_latent_drop': 0.1, 'ffn_out_drop': 0.1, 'kernel_size': 31, 'lay': 8, 'use_lay_skip': True}, midi_max: 127, midi_min: 0, midi_num_bins: 128, midi_prob_deviation: 1.0,
  8. midi_shift_proportion: 0.0, midi_shift_range: [-6, 6], model_cls: modules.model.Gmidi_conform.midi_conforms, num_ckpt_keep: 5, num_sanity_val_steps: 1,
  9. num_valid_plots: 300, optimizer_args: {'beta1': 0.9, 'beta2': 0.98, 'lr': 0.0001, 'optimizer_cls': 'torch.optim.AdamW', 'weight_decay': 0}, pe: rmvpe, pe_ckpt: pretrained/rmvpe/model.pt, permanent_ckpt_interval: 40000,
  10. permanent_ckpt_start: 200000, pl_trainer_accelerator: auto, pl_trainer_devices: auto, pl_trainer_num_nodes: 1, pl_trainer_precision: 32-true,
  11. pl_trainer_strategy: auto, raw_data_dir: [], rest_threshold: 0.1, sampler_frame_count_grid: 6, seed: 114514,
  12. sort_by_len: True, task_cls: training.MIDIExtractionTask, test_prefixes: None, train_set_name: train, units_dim: 80,
  13. units_encoder: mel, units_encoder_ckpt: pretrained/contentvec/checkpoint_best_legacy_500.pt, use_buond_loss: True, use_midi_loss: True, val_check_interval: 4000,
  14. valid_set_name: valid, win_size: 2048
  15. | load 'model' from 'ckpt\model_ckpt_steps_104000_simplified.ckpt'.
  16. 100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00, 1.66it/s]
  17. MIDI file saved at: 'output\test\vocals.mid'

转换好的钢琴旋律midi文件存放在output目录下,直接双击播放即可,也可以通过代码进行播放:

  1. ''' pg_midi_sound101.py
  2. play midi music files (also mp3 files) using pygame
  3. tested with Python273/331 and pygame192 by vegaseat
  4. '''
  5. import pygame as pg
  6. def play_music(music_file):
  7. '''
  8. stream music with mixer.music module in blocking manner
  9. this will stream the sound from disk while playing
  10. '''
  11. clock = pg.time.Clock()
  12. try:
  13. pg.mixer.music.load(music_file)
  14. print("Music file {} loaded!".format(music_file))
  15. except pygame.error:
  16. print("File {} not found! {}".format(music_file, pg.get_error()))
  17. return
  18. pg.mixer.music.play()
  19. # check if playback has finished
  20. while pg.mixer.music.get_busy():
  21. clock.tick(30)
  22. # pick a midi or MP3 music file you have in the working folder
  23. # or give full pathname
  24. music_file = r"D:\work\YiJianBaPu\output\test\vocals.mid"
  25. #music_file = "Drumtrack.mp3"
  26. freq = 44100 # audio CD quality
  27. bitsize = -16 # unsigned 16 bit
  28. channels = 2 # 1 is mono, 2 is stereo
  29. buffer = 2048 # number of samples (experiment to get right sound)
  30. pg.mixer.init(freq, bitsize, channels, buffer)
  31. # optional volume 0 to 1.0
  32. pg.mixer.music.set_volume(0.8)
  33. try:
  34. play_music(music_file)
  35. except KeyboardInterrupt:
  36. # if user hits Ctrl/C then exit
  37. # (works only in console mode)
  38. pg.mixer.music.fadeout(1000)
  39. pg.mixer.music.stop()
  40. raise SystemExit

结语

笔者在原项目的基础上进行了fork,添加了人声分离和降噪的功能,并且整合了预训练模型,与众乡亲同飨:

  1. https://github.com/v3ucn/YiJianBaPu

原文链接:https://www.cnblogs.com/v3ucn/p/17834120.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号