在线体验微软声音合成技术
一些视频平台上电影解说有些声音不是真人声音,而是合成出来的。视频的AI配音软件
微软Azure
的云希音效,具体的开发文档在[这里](learn.microsoft.com/zh-cn/azure…?tabs=stt-tts),这个是语音服务的语言和声音支持。我们具体来说看中文的,当然有的平台也做英文的。
中文语言支持如下:
区域设置 (BCP-47) | 语言 | 语音转文本 | 自定义语音识别支持 | 文本转语音声音 | 神经网络定制声音 |
---|
zh-CN |
中文(普通话,简体) | zh-CN |
音频 + 人工标记的脚本 纯文本 结构化文本 短语列表 |
zh-CN-XiaochenNeural (女) zh-CN-XiaohanNeural (女) zh-CN-XiaomengNeural (女) zh-CN-XiaomoNeural (女) zh-CN-XiaoqiuNeural (女) zh-CN-XiaoruiNeural (女) zh-CN-XiaoshuangNeural (女) zh-CN-XiaoxiaoNeural (女) zh-CN-XiaoxuanNeural (女) zh-CN-XiaoyanNeural (女) zh-CN-XiaoyiNeural (女) zh-CN-XiaoyouNeural (女) zh-CN-XiaozhenNeural (女) zh-CN-YunfengNeural (男) zh-CN-YunhaoNeural (男) zh-CN-YunjianNeural (男) zh-CN-YunxiaNeural (男) zh-CN-YunxiNeural (男) zh-CN-YunyangNeural (男) zh-CN-YunyeNeural (男) zh-CN-YunzeNeural (男) |
---|
zh-HK |
中文(粤语,繁体) | zh-HK |
纯文本 |
zh-HK-HiuGaaiNeural 4、5、6(女) zh-HK-HiuMaanNeural 4、5、6(女) zh-HK-WanLungNeural 4、5、6(男) |
神经网络定制声音专业版 |
---|---|---|---|---|---|
zh-TW |
中文(*普通话) | zh-TW |
纯文本 |
zh-TW-HsiaoChenNeural 4、5、6(女) zh-TW-HsiaoYuNeural 4、5、6(女) zh-TW-YunJheNeural 4、5、6(男) |
神经网络定制声音专业版 |
就是中文普通话的一些女声男声,还有粤语和*普通话。
这个是要登录Microsoft的账号进去申请的,申请完部署成功后就会得到一个id,具体文档链接在这
他这一套东西挺全面的,有语音转文本,文本转语音,语音翻译,意向识别,说话人辨别,关键字识别等。
现在我们来搞一下发抖音电影视频解说,文字字幕转成语音形式。文档在这里
那这里我直接选JavaScript来举例:
部署
步骤就是:
1、先去免费去创建订阅。这里是可以申请一年也就是12个月免费的。去右上角点一下sign up去注册一下。
2、注册完成之后就来到微软的后台了,所以我们要做的就是创建语音资源。
3、做完第二步之后,就可以得到一个资源秘钥。这个就是代码的关键秘钥,不要直接写在代码中,不安全。妥善保管好这个密码。如果你是macOs系统的话可以存储到环境变量中,
##### Bash
编辑 .bash_profile,然后添加环境变量:
Bash复制
export SPEECH_KEY=your-key
添加环境变量后,请从控制台窗口运行 `source ~/.bash_profile`,使更改生效。
zsh同理。
代码部分
1、现在一个空文件夹中npm init
2、接着npm install microsoft-cognitiveservices-speech-sdk这个仓库
3、然后创建一个index.js文件
代码:
(function() {
"use strict";
var sdk = require("microsoft-cognitiveservices-speech-sdk");
var readline = require("readline");
var audioFile = "YourAudioFile.wav";
const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
const audioConfig = sdk.AudioConfig.fromAudioFileOutput(audioFile);
// The language of the voice that speaks.
speechConfig.speechSynthesisVoiceName = "en-US-JennyNeural";
// Create the speech synthesizer.
var synthesizer = new sdk.SpeechSynthesizer(speechConfig, audioConfig);
var rl = readline.createInterface({
input: process.stdin,
output: process.stdout
});
rl.question("Enter some text that you want to speak >\n> ", function (text) {
rl.close();
// Start the synthesizer and wait for a result.
synthesizer.speakTextAsync(text,
function (result) {
if (result.reason === sdk.ResultReason.SynthesizingAudioCompleted) {
console.log("synthesis finished.");
} else {
console.error("Speech synthesis canceled, " + result.errorDetails +
"\nDid you set the speech resource key and region values?");
}
synthesizer.close();
synthesizer = null;
},
function (err) {
console.trace("err - " + err);
synthesizer.close();
synthesizer = null;
});
console.log("Now synthesizing to: " + audioFile);
});
}());
4、在控制台中node index.js
就可以得到一个wav文件的音频,当然也可以起名为.mp3,看你需要什么。
其次设置为 SPEECH_REGION
资源的区域。 例如 westus
。(美国西部)
5、接着就完成从文字转语音这个操作了。
题外话
那如果嫌麻烦,有现成的软件exe。不过作者限制了字数480字左右。
链接 密码: ujhg
可以看看反编译一下这个exe代码,看一下判断长度的代码去掉看看可不可以。
下一篇: 必备!10个你不会删除的新闻与阅读应用
推荐阅读
-
在线体验微软声音合成技术
-
智联招聘发布第三季度平均薪酬报告;价值13亿美元的Metaverse日活跃用户仅38人;统一充电接口或让苹果一年损失数百亿美元 | EA周报 - 热点大事件 微信推出刷掌付小程序,开启全新支付模式 据悉,微信已上线 "微信刷掌付 "小程序,可以为用户刷掌付增加更便捷的管理方式,但刷掌付功能需要在刷掌设备上开通。刷掌付是继密码支付、指纹支付、刷脸支付之后,微信的又一新型支付方式。据悉,目前微信支付已在深圳部分商户接入刷掌付设备进行测试,用户可通过刷掌纹支付订单。刷掌纹设备由微信支付提供,设备上设有显示屏和掌纹识别区,用户开通微信刷掌纹支付功能后,只需在掌纹识别区扫描,即可完成商品支付,相比传统的密码支付和指纹支付,更加便捷。(星球科技) 微软多项云服务落户中国新数据中心 2022年10月13日,微软年度技术大会Ignite 2022和Ignite China中国技术峰会同步开启在线直播。面对中国市场日益增长的客户需求,微软宣布,Azure、Dynamics Power Platform等多项服务已在北上广三地数据中心落地,提升在中国市场的服务能力;世纪互联运营的Office 365上的Teams服务和世纪互联运营的Microsoft 365服务将于2023年上半年正式上线,为中国市场带来更全面、更优质的本地化服务体验和技术保障。 IBM宣布将红帽存储并入存储业务部 根据IBM与红帽的协议,IBM将成为Ceph基金会的主要赞助商,该基金会的成员合作推动Ceph开源项目的创新、开发、营销和社区活动。红帽OpenStack客户仍可从红帽及其合作伙伴处购买红帽Ceph存储,而拥有现有订购服务的红帽OpenShift和红帽OpenStack客户将能够在不改变与红帽关系的情况下,根据需要维护和扩展其存储足迹。 扎克伯格谈新款1万美元VR头显:成本价,我们不会像苹果那样定高价 元CEO扎克伯格在接受采访时谈到了公司新发布的Quest Pro新款VR头显的价格,他表示1499.99美元的定价只是 "性价比",让更多人通过购买硬件来体验元宇宙。扎克伯格还借此机会挖苦了竞争对手苹果公司,称苹果公司对该设备的定价 "已经到了极限"。他说:"通常,人们制造硬件,然后想从中获利。例如,苹果公司就是这样做的,制造硬件,然后尽可能多地收费。他说,公司还计划推出 Quest 3,售价在 300 美元到 500 美元之间。 智联招聘发布招聘薪资报告,第三季度全国平均薪资为10168美元/月
-
人工智能制作 "外星人 "纪录片!人工智能正在改变电影和电视行业!-Runway ML:一个在线平台,任何人都可以使用机器学习来创建和编辑视频、图像、音频等。电影中的大部分场景和动画都是通过 Runway ML 生成的。 Elevenlabs:一个在线平台,任何人都可以利用自然语言处理和语音合成技术创建和编辑语音。电影中的旁白就是通过 Elevenlabs 生成的。 前景和影响
-
视频会议场景中的空间音频--为何选择空间音频这一主题? 首先,为什么选择空间音频这一主题?我在视频会议领域工作了近二十年,我们的目标一直是让声音更清晰、视频更清晰。但在过去的 20 年中,视频会议的产品形态并没有发生本质的变化。去年元宇宙比较火,微软、Facebook都在做基于VR和元宇宙的企业协作研究,我们也进行了这方面的探索。 一开始,我们想从纯技术角度研究空间音频技术如何应用于视频会议场景,但在研究过程中,我们发现这是一个非常复杂的场景。因为视频会议本质上是人与人之间的交流。人与人之间的沟通是多维度的信息传递,声音、图像、眼神、肢体语言、触觉都是人与人之间沟通的要素,音频只是其中之一。本次分享从沟通与交流的角度,从视频会议的应用场景出发,分析视频会议产品需要什么样的空间音频技术以及如何实现。 02 空间音频与沉浸式交流
-
南邮OJ Web任务大揭秘:层层挑战剖析 1. 挑战一:迷宫般的目录探索 题目作者似乎穷举了所有可能的目录组合,最终在404.php中的