mingyanmingyan
mingyan

SoundClone - 提交音频生成任务

使用声音克隆模型 ID 提交正式音频生成任务

POST/kyyReactApiServer/v1/soundCloning/audios

SoundClone 提交音频生成任务

使用声音克隆试听任务得到的 modelId 提交正式音频生成任务。试听任务返回的 modelId 需要在本接口中使用,有效期为 3 天,过期后不可继续使用;modelId 在有效期内首次调用本接口时会自动转正,转正后可永久用于音频生成。
所有请求都需要在请求头中包含 Bearer token:
cURL
Authorization: Bearer {{key}}

基础 URL

https://zcbservice.aizfw.cn/kyyReactApiServer
baseUrl 为所有对外 API 的公共前缀。当前页面 frontmatter 中的 api 字段展示的是完整请求地址,请在接入时以这里的 baseUrl 为统一前缀理解和拼接接口路径。

请求参数

modelIdbodystring必填
声音模型 ID。从试听任务查询结果中的 modelId 获取。
contentTextbodystring必填
需要生成音频的文本内容,长度小于 10000 字符。
如需控制语音中间隔时间,可在字间增加 <#x#>x 单位为秒,支持 0.01-99.99,最多两位小数。
soundVersionbodystring
声音模型版本。
  • v1:模型 1,支持 24 种语言
  • v2:模型 2,支持 40 种语言
languagebodystring
语言类型,不传时默认使用 auto
v1v2 均支持:Chinese(中文)、Chinese,Yue(粤语)、English(英语)、Arabic(阿拉伯语)、Russian(俄语)、Spanish(西班牙语)、French(法语)、Portuguese(葡萄牙语)、German(德语)、Turkish(土耳其语)、Dutch(荷兰语)、Ukrainian(乌克兰语)、Vietnamese(越南语)、Indonesian(印尼语)、Japanese(日语)、Italian(意大利语)、Korean(韩语)、Thai(泰语)、Polish(波兰语)、Romanian(罗马尼亚语)、Greek(希腊语)、Czech(捷克语)、Finnish(芬兰语)、Hindi(印地语)。
以下语言需要 soundVersionv2Bulgarian(保加利亚语)、Danish(丹麦语)、Hebrew(希伯来语)、Malay(马来语)、Persian(波斯语)、Slovak(斯洛伐克语)、Swedish(瑞典语)、Croatian(克罗地亚语)、Filipino(菲律宾语)、Hungarian(匈牙利语)、Norwegian(挪威语)、Slovenian(斯洛文尼亚语)、Catalan(加泰罗尼亚语)、Nynorsk(尼诺斯克语)、Tamil(泰米尔语)、Afrikaans(阿非利卡语)、auto(自动检测)。
示例:Chinese
emotionbodystring
情感类型,不传时默认使用 neutral
支持:happy(高兴)、sad(悲伤)、angry(愤怒)、fearful(害怕)、disgusted(厌恶)、surprised(惊讶)、neutral(中性)。
示例:happy
speedbodyBigDecimal
语速,可选范围 [0.5,2],不传时默认值为 1.0,数值越大语速越快。
示例:1.2
volbodyBigDecimal
音量,可选范围 (0,10],不传时默认值为 1.0,数值越大音量越高。
示例:2.5
pitchbodyinteger
语调,可选范围 [-12,12],不传时默认值为 00 为原音色输出,取值需为整数。
示例:5
subtitleEnablebodyboolean
是否生成字幕,不传时默认 false
subtitleTypebodystring
字幕类型。开启字幕生成时可传该参数。
  • 不传:句级别字幕
  • word:字级别字幕

响应参数

idstring
任务 ID,用于后续查询任务状态。
objectstring
对象类型,固定为 audio
createdinteger
任务创建时间戳。
modelstring
使用的模型名称,音频生成任务为 soundCloningAudio
statusstring
任务状态,创建后通常为 queued
errorstring
错误信息,失败时返回。