mingyan

SoundClone - 提交音频生成任务

使用声音克隆模型 ID 提交正式音频生成任务

POST/kyyReactApiServer/v1/soundCloning/audios

SoundClone 提交音频生成任务

使用声音克隆试听任务得到的 modelId 提交正式音频生成任务。试听任务返回的 modelId 需要在本接口中使用，有效期为 3 天，过期后不可继续使用；modelId 在有效期内首次调用本接口时会自动转正，转正后可永久用于音频生成。

认证

获取 Key

所有请求都需要在请求头中包含 Bearer token：

cURL

Authorization: Bearer {{key}}

基础 URL

https://zcbservice.aizfw.cn/kyyReactApiServer

baseUrl 为所有对外 API 的公共前缀。当前页面 frontmatter 中的 api 字段展示的是完整请求地址，请在接入时以这里的 baseUrl 为统一前缀理解和拼接接口路径。

请求参数

modelIdbodystring必填

声音模型 ID。从试听任务查询结果中的 modelId 获取。

contentTextbodystring必填

需要生成音频的文本内容，长度小于 10000 字符。

如需控制语音中间隔时间，可在字间增加 <#x#>，x 单位为秒，支持 0.01-99.99，最多两位小数。

soundVersionbodystring

声音模型版本。

v1：模型 1，支持 24 种语言
v2：模型 2，支持 40 种语言

languagebodystring

语言类型，不传时默认使用 auto。

v1 和 v2 均支持：Chinese（中文）、Chinese,Yue（粤语）、English（英语）、Arabic（阿拉伯语）、Russian（俄语）、Spanish（西班牙语）、French（法语）、Portuguese（葡萄牙语）、German（德语）、Turkish（土耳其语）、Dutch（荷兰语）、Ukrainian（乌克兰语）、Vietnamese（越南语）、Indonesian（印尼语）、Japanese（日语）、Italian（意大利语）、Korean（韩语）、Thai（泰语）、Polish（波兰语）、Romanian（罗马尼亚语）、Greek（希腊语）、Czech（捷克语）、Finnish（芬兰语）、Hindi（印地语）。

以下语言需要 soundVersion 传 v2：Bulgarian（保加利亚语）、Danish（丹麦语）、Hebrew（希伯来语）、Malay（马来语）、Persian（波斯语）、Slovak（斯洛伐克语）、Swedish（瑞典语）、Croatian（克罗地亚语）、Filipino（菲律宾语）、Hungarian（匈牙利语）、Norwegian（挪威语）、Slovenian（斯洛文尼亚语）、Catalan（加泰罗尼亚语）、Nynorsk（尼诺斯克语）、Tamil（泰米尔语）、Afrikaans（阿非利卡语）、auto（自动检测）。

示例：Chinese。

emotionbodystring

情感类型，不传时默认使用 neutral。

支持：happy（高兴）、sad（悲伤）、angry（愤怒）、fearful（害怕）、disgusted（厌恶）、surprised（惊讶）、neutral（中性）。

示例：happy。

speedbodyBigDecimal

语速，可选范围 [0.5,2]，不传时默认值为 1.0，数值越大语速越快。

示例：1.2。

volbodyBigDecimal

音量，可选范围 (0,10]，不传时默认值为 1.0，数值越大音量越高。

示例：2.5。

pitchbodyinteger

语调，可选范围 [-12,12]，不传时默认值为 0，0 为原音色输出，取值需为整数。

示例：5。

subtitleEnablebodyboolean

是否生成字幕，不传时默认 false。

subtitleTypebodystring

字幕类型。开启字幕生成时可传该参数。

不传：句级别字幕
word：字级别字幕

响应参数

idstring

任务 ID，用于后续查询任务状态。

objectstring

对象类型，固定为 audio。

createdinteger

任务创建时间戳。

modelstring

使用的模型名称，音频生成任务为 soundCloningAudio。

statusstring

任务状态，创建后通常为 queued。

errorstring

错误信息，失败时返回。