Open-source model for generating short audio samples and sound effects from text.
什么是Stable Audio Open?
Stable Audio Open 是一个开源模型,专门用于根据文本提示生成短音频样本、音效和制作元素。它允许任何人从简单的文本提示生成最多 47 秒的高质量音频数据。其专业训练使其非常适合创建鼓点、乐器旋律、环境音效、音效录音以及音乐制作和声音设计的其他音频样本。
如何使用 Stable Audio Open?
要使用 Stable Audio Open,首先从 Hugging Face 下载模型,安装所需的依赖项(torch、torchaudio、stable_audio_tools、einops),导入必要的库,加载模型,通过文本提示生成音频,然后将输出保存为 WAV 文件。
Stable Audio Open 的核心功能
开源模型
经过专业训练以生成高质量音频
可以用用户自己的数据进行定制
生成最多 47 秒的音频
stable audio open