音频处理入门：Python 库和工具指南

最编程 2024-05-02 22:40:10

...

音频处理是数字媒体和人工智能领域中的一个重要分支，它涉及到音频的录制、播放、编辑和分析等多个方面。Python 作为一种强大的编程语言，提供了多种库和工具来帮助开发者进行音频处理。本文将介绍几个常用的 Python 音频处理库，并提供相应的使用示例，以帮助读者快速入门。

1. `wave` 模块：处理 WAV 格式文件

Python 的标准库 wave 专门用于处理 WAV 格式的音频文件。使用 wave 模块，你可以读取和写入 WAV 文件，并对音频数据进行基本的操作。

载入与写入音频文件

import wave

# 读取 WAV 文件到字节
with wave.open('path/to/audio_file.wav', 'rb') as wf:
    frames = wf.readframes(n_frames)

# 将字节保存到 WAV 文件
with wave.open('path/to/audio_file.wav', 'wb') as wf:
    wf.setnchannels(1)  # 音频通道（1：单声道，2：立体声）
    wf.setsampwidth(2)  # 采样宽度（1：pyaudio.paInt8，2：pyaudio.paInt16，3：pyaudio.paInt24，4：pyaudio.paInt32）
    wf.setframerate(16000)  # 采样率
    wf.writeframes(b''.join(frames))

2. `pyaudio`：录制与播放音频的字节流

pyaudio 库允许你以字节流的方式录制和播放音频。通过 pyaudio，你可以轻松地与音频设备进行交互。

安装与列出音频设备

pip install pyaudio

import pyaudio

p = pyaudio.PyAudio()

# 获取音频设备数量
devices = p.get_device_count()

for i in range(devices):
    device_info = p.get_device_info_by_index(i)
    if device_info.get('maxInputChannels') > 0:
        print(f"麦克风：{device_info.get('name')}，设备索引：{device_info.get('index')}")

录制音频

FORMAT = pyaudio.paInt16  # 音频样本格式
CHANNELS = 1  # 音频通道（1：单声道，2：立体声）
RATE = 44100  # 采样率
CHUNK = 1024  # 每个缓冲区的帧数
RECORD_SECONDS = 5

p = pyaudio.PyAudio()
stream = p.open(
    format=FORMAT,
    channels=CHANNELS,
    rate=RATE,
    frames_per_buffer=CHUNK,
    input=True,
)

print("正在录制...")
frames = []
for _ in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)

stream.stop_stream()
stream.close()
p.terminate()

# 保存录制的音频
WAVE_OUTPUT_FILENAME = "recorded_audio.wav"
with wave.open(WAVE_OUTPUT_FILENAME, 'wb') as wf:
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
print(f"录制已保存为 {WAVE_OUTPUT_FILENAME}")

播放音频

wf = wave.open(filename, 'rb')
stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
                channels=wf.getnchannels(),
                rate=wf.getframerate(),
                output=True)  # 'output=True' 表示音频将被播放而不是录制

# 按块读取数据
data = wf.readframes(chunk)

# 通过将音频数据写入流来播放声音
while data != '':
    stream.write(data)
    data = wf.readframes(chunk)

# 关闭并终止流
stream.close()
p.terminate()

3. `soundfile`：简化 WAV 和 MP3 文件操作

soundfile 库提供了一种简单的方式来读取和写入 WAV 和 MP3 文件。它使用 C 语言编写，因此执行速度非常快。

安装与使用

pip install soundfile

import soundfile as sf

# 读取 WAV 文件到 NumPy 数组
wav, sample_rate = sf.read('path/to/audio_file.wav')

# 将 NumPy 数组写入到 WAV 文件
soundfile.write('path/to/audio_file.wav', wav, sample_rate)

4. `sounddevice`：基于 `PortAudio` 的音频 I/O

sounddevice 库是一个基于 PortAudio 的 Python 接口，它提供了对音频设备的直接访问。

安装与使用

pip install sounddevice

import sounddevice as sd
import soundfile as sf

wav, sample_rate = sf.read('path/to/audio_file.wav')

# 播放音频文件
sd.play(wav, sample_rate)
sd.wait()  # 等待文件播放完毕

# 录制音频
duration, sample_rate = 5, 44100
recording = sd.rec(int(duration * sample_rate), samplerate=sample_rate, channels=2)
sd.wait()  # 等待录制完毕

5. `librosa`：音频和音乐信号分析

librosa 是一个音频分析库，专门用于音乐和音频信号的分析。它提供了大量的功能，包括特征提取、音频可视化和音频转换等。

安装与使用

pip install librosa

# 加载音频文件
wav, sample_rate = librosa.load('audio_file')
wav, sample_rate = librosa.load('audio_file', sr=None, offset=0, duration=None, mono=True)

# 获取音频时长
duration = librosa.get_duration(y=wav, sr=sample_rate)

绘图

import matplotlib.pyplot as plt

plt.figure(figsize=(12, 4))
librosa.display.waveplot(wav, sr=sample_rate)
plt.show()

特征提取

# 提取 MFCC 特征
mfcc = librosa.feature.mfcc(y=audio_data, sr=sampling_rate, n_mfcc=13)

音频操作

# 重采样
new_audio = librosa.resample(audio_data, orig_sr=orig_sr, target_sr=target_sr)

# 裁剪短音频段
new_audio = librosa.trim(audio_data, top_db=10, trim_db=20)

# 合并音频
new_audio = librosa.concatenate([audio1, audio2, audio3], sr)

# 淡入/淡出效果
faded_in_audio = librosa.fade(audio_data, fade_in_len)
faded_out_audio = librosa.fade(audio_data, fade_out_len, fade_out=True)

# 音高变换
new_audio = librosa.effects.pitch_shift(audio_data, sr, n_steps)

# 时间伸缩
new_audio = librosa.effects.time_stretch(audio_data, sr, new_sr)

6. `pydub`：处理音频文件的高级接口

pydub 是一个易于使用的音频处理库，它提供了一个高级接口来处理音频文件。pydub 支持多种音频格式，并允许你执行各种音频操作。

安装与使用

pip install pydub

from pydub import AudioSegment

# 从文件读取音频
sound1 = AudioSegment.from_file("/path/to/sound.wav", format="wav")

# 保存到文件
sound1.export("output.wav")

# 获取音频字节
b = sound1.export().read()

# 转换格式
sound2 = sound1.export(format="mp3")

# 改变采样率
sound2 = sound1.set_frame_rate(16000)  # 转换为 16000 Hz

7. `omxplayer`：跨平台的音频播放器

omxplayer 是一个跨平台的音频播放器，它可以通过 Python 脚本进行控制。

使用

from omxplayer.player import OMXPlayer

player = OMXPlayer(file_name)
time.sleep(duration)
player.quit()

总结

本文介绍了几个 Python 音频处理库及其基本用法，包括 wave、pyaudio、soundfile、sounddevice、librosa、pydub 和 omxplayer。通过这些库，你可以轻松地进行音频的录制、播放、编辑和分析。

上一篇：音频知识点 (9) - MP3 是编码格式还是封装格式？

下一篇：什么是 PCM，它与 .wav 文件有什么关系？[通俗易懂］

音频处理入门：Python 库和工具指南

1. wave 模块：处理 WAV 格式文件

载入与写入音频文件

2. pyaudio：录制与播放音频的字节流

安装与列出音频设备

录制音频

播放音频

3. soundfile：简化 WAV 和 MP3 文件操作

安装与使用

4. sounddevice：基于 PortAudio 的音频 I/O

安装与使用

5. librosa：音频和音乐信号分析

安装与使用

绘图

特征提取

音频操作

6. pydub：处理音频文件的高级接口

安装与使用

7. omxplayer：跨平台的音频播放器

使用

总结