能包容就尽量包容被文字转WAV音频