python 读取和保存音频数据的几种常用方法-2.

最编程 2024-05-02 21:28:36

...

torchaudio是PyTorch深度学习框架的一部分，主要用于处理和分析音频数据。它提供了丰富的音频信号处理工具、特征提取功能以及与深度学习模型结合的接口，使得在PyTorch中进行音频相关的机器学习和深度学习任务变得更加便捷。通过使用torchaudio，开发者能够轻松地将音频数据转换为适合深度学习模型输入的形式，并利用PyTorch的高效张量运算和自动梯度功能进行训练和推理。此外，torchaudio还支持多声道音频处理和GPU加速，以满足不同应用场景的需求。

2.1 load 读文件

加载音频文件数据

import torchaudio
file_path = "xx/xx.wav"
waveform, sr = torchaudio.load(file_path, normalize=True)

主要说明：
可以读取float32, int16, int32类型数据，返回的是torch.tensor类型的数据；
normalize=True时，返回的数据是归一化到(-1,1)的float32数据；
normalize=False时，返回的是float32、int16或者int32数据，具体需要看file_path本身是什么类型的音频数据；
normalize默认值为True。

2.2 save 保存文件

保存音频数据到文件

# out_path, 保存的音频文件路径，waveform保存的数据，sr是采样率
torchaudio.save(out_path, waveform, sr)

根据waveform的格式自动保存为float32、int16或者int32

上一篇：再也买不起炼丹炉：谈谈特殊时期的显卡状况

下一篇：如何转换 MP3 音频格式？很多人都说这款手机软件很好用