YouTubeの説明動画などに気軽に機械音声を追加したい
- 市販のボイスロイド(音声合成ソフト)はわりと高価
- しかも日本語音声のみ
- ほとんどがYou Tubeなどでの商用利用禁止・・・
- 商用利用OKのものだと価格も5万円前後に・・・
そこまでの精度を求めてないので
気軽に無料で商用利用も可能な音声合成サービスってないの?
ってことで
AWS(アマゾン・Web・サービス)の
機能の一部である
Amazon Polly
の紹介と使い方およびでも音声など
色々遊んでみたいと思います。
AWS(アマゾン・Web・サービス)とは
Amazonが提供するクラウドサービスのこと。
詳しくは私も知らないし
知らなくてもいいと思います。
Amazonの公開してるサービスを利用して
いろいろと難しいことができる場所
みたいな認識でOK。
もう少し突っ込んで言うと
Googleの各種クラウドサービスのAmazon版みたいな
感じになります。
今回はこの中にある
Amazon Pollyを使います。
なんか大手企業も音声コンテンツに次々に参入してきてるみたいだし、なんか良いアイデアないかな?
AWSへ無料サインアップ(アカウントの作成)
無料サインアップ
から
新しいAWSアカウントの作成
を選びます。(持ってない人)
この先の流れは
(キャプチャがなくて申し訳ありません)
- メールアドレス・パスワード決定
- 住所などの登録
- クレジットカードの登録(無料枠を超えない限り課金されません)
- 電話番号認証
といった段階を踏むのですが
そこまで難しくありません。
住所などは慣れてるのですぐですが
ちょっと構えてしまうのが
AWS新規登録時の電話番号認証です。
国と電話番号を登録すると
スマホの番号認証になります。
日本のWebサービスではあまり一般的ではありません。
しかし海外のウェブサービスを使う場合
この電話番号認証は結構な確率で遭遇します。
- 4桁の認証コードが表示される
- アマゾンから機械音声の電話がかかってくる(発信地アメリカ)
- スマホから4桁のコードを入力する(キーパッドが隠れてる場合はキーパッドボタンを押してください)
これでAmazonのアカウント作成が完了しました。
早速ログインしてみてください。
音声合成サービス「Amazon Polly」のページを開く
AWSマネージメントコンソールから
サービスを検索する
ってところから
Amazon Polly
を入力して探すのが一番早いです。
すぐに見つかるはずです。
こんな画面になるので
今すぐ始める
でOKです。
ここからが本番!「Amazon Polly」にてテキストを音声化する
では今回メインで使用するAmazon Pollyについて見ていきます。
Amazon Pollyの無料利用枠と商用利用について
料金と商用利用については一応の説明があります。
Q: Amazon Polly は AWS の無料利用枠で利用できますか?
はい。AWS 無料利用枠の一環として、Amazon Polly を無料で開始できます。サインアップしていただくと、Amazon Polly を初めて使用するお客様は、最初の 12 か月間は 1 か月あたり最大 500 万文字を無料で利用できます。
Q: Amazon Polly で処理および保存されたコンテンツの所有権は誰が保持しますか?
お客様は常に自分のコンテンツの所有権を保持します。AWS では、お客様のコンテンツをお客様の
同意なく使用することはありません。
Amazon Pollyの無料利用枠は
新規サインアップから1年間に限り、ひと月500万文字まで音声変換無料
これは余程のヘビーユーザーでない限り
1年間は無料で使えるということになります。
また、有料になった後の文字数による料金なども一応確認してみました。
が、このサービスに限っては本当に微々たるもので
おそらく月1000円も消化できないはずです。
なので1年後もし
この音声合成サービスが必要になっても
料金についてはあまり気にする必要はないでしょう
また、音声は日本語バージョンの場合は
- Mizuki, 女性
- Takumi, 男性
の2種類から選択できます。
そもそも日本語の変換サービスが出来たのが
2017年と比較的最近。
なので、これからどんどんサービスが充実していくはずです。
その場で音声を聞くことが容易で
簡単にMP3形式でダウンロードできるのも特徴です。
画面の推移がありません。
3000文字を超える長い文字列を音声に変換する時は
一度S3に向けて合成をする必要があります。
要するに
長すぎるから、すぐに変換無理やし
ここに置いといてくれたら準備するから
後で取りに来てや
みたいな感覚ですね。
S3って何?についてですが私も全然わかりません。
まあ、使っていくうちにわかってくるようになるでしょう。笑
Amazon Pollyの機能【プレーンテキスト】と【SSML】の違い
Amazon Pollyの最大の特徴が
HTMLタグみたいなものを使って音声のスピードや大きさなどを調節できる
ということ。
SSML タグを使用すると、発音、音量、ピッチ、話す速度など、音声のさまざまな要素をカスタマイズして制御できます。
これはすごい
SSML欄に入力します。
SSML=音声合成マークアップ言語って書いてあったのでHTMLの音声バージョンって認識でOKだと思います。
タグで抑揚・ボリューム・スピード調節が出来るのが特徴です。
具体的には
- この文章の後には2秒の空白期間を入れる
- この単語は大きな声でゆっくり強調する
- 相手にささやくように語りかける
- 比較的小さい声で早口言葉で話す
- 日本語と英語といった日本人とアメリカ人が2人で会話しているような音声を作ることもできる
こうして見ると面倒くさそうで、SSMLを使うのは何か上級者向けの機能のように見えます。
が、WordPressで文字装飾(HTML)をしたことがある人なら比較的抵抗なく導入できると思います。
SSMLって欄に入力して
音声のプレビュー試聴を行います。
Amazon Polly で主に使用するSSMLタグ
いっぱいありすぎて分からないししかも、
私達は機械音声コンテンツをメインでビジネス展開をしていく訳ではない
ということで
色々やってみて使えそうなものだけ記述していきます。
一覧はこちら
https://docs.aws.amazon.com/ja_jp/polly/latest/dg/supported-ssml.html
腐るほどあって見る気も起こらないリストの中から
よく使うだろうなと思ったのは
ひそひそ話
<amazon:effect name=”whispered”>ささやき</amazon:effect>
一定秒数あける
<break time=”3s”/>
ちょっと早く話す
<emphasis level=”reduced”>ちょい早口</emphasis>
大きくゆっくり話す
<emphasis level=”strong”>大きくゆっくり</emphasis>
控えめに強調する
<emphasis>ひかえめな強調</emphasis>
せいぜいこのあたり。
また、日本語ベースIDのものに
英語やフランス語のネイティブの発音も加えれるタグもあります。
がなぜかマークアップしても無効になって
私の今の環境ではテストできませんでした。
初めてでアレやコレややっても混乱するので
これで10ファイルくらい音声を作ってみて
物足りなくなってきたら他のも勉強しよう。
ボリュームやピッチなどを数字で定義できる prosodyなどもあるんですが最初はいらないと思います。
私のこのブログだって
たくさんあるマークアップ言語から
strongやh2くらいしか使ってないし・・・
で、これを使うには必ず最初に
<speak> 音声合成サービスAWSのAmazon pollyですよ~</speak>
のように
<speak> </speak>
タグで囲われてる必要があります。
htmlタグでいうところのbodyのようなもんかなと。
【デモ】日本語の合成音声のサンプル
今回はデフォルトで入力されているミズキさんの
こんにちは、ミズキです。読みたいテキストをここに入力してください。
から色々と入力して遊んでみようと思います。
1,まずはプレーンテキスト
2,続いてSSMLタグを色々入れていきます
2行目には「ひかえめな強調」タグを入れてみました。
3,SSMLタグ・ストップタイムと強調
強調単語の「無料」の前後に1秒の間隔を設けました。
4,SSMLタグ ひそひそ話
簡単なタグで全体のテンポを上げる
私のおすすめの使い方は
デフォルトでは音声がちょっとゆっくり過ぎるので、まず最初に音声を早くする、タグを入れてしまって、それをデフォルトとしてそこから設定展開していくと結構納得するスピードで機械音声が作れるはず。
全体に「早口」のタグで囲っています。
まあ、実際はもっと細かい調節が可能です。
ただ、短い音声動画だとこれくらいの設定で十分だと思います。
WordPressの自分の記事を音声に変換できるプラグインもある
ご自身が運営するWordPressの文字を
全て機械音声にしてダウンロードしてくれるサービスも存在します、
私の場合はブログの文字数が結構多いので
ブログ記事そのまま音声にして、誰が最後まで聞くねん
という感じですが、
言ってみれば、アメブロのような短い文章のコンテンツで
しかも口語チックな書き方で記事を配信されている方などには良いかもしれません。
Amazon Pollyまとめ
上記で書いた通り、
自分のブログを
コンテンツ全て機械音声にして発信するのは
あんまり現実的にはありません。
が、記事の要約を作って
みたいなやり方はありだと思います。
賢く使ってオリジナルな音声を配信していきたいですね。
また良い使い方を思いついたら是非教えてください。
コメント
コメント一覧 (1件)
日本語と英語、フランス語の音声を、タグの挿入で、切り替えることができるでしょうか。MS-Wordなどを使った、プレゼンテーションを、多言語、男性音声、女性音声を、混ぜて、聞かせたいのですが、MS-Wordを、予めクラウドに上げておくことなどで、Latencyを下げることができれば、そばらしいのですが。、