文字数[773文字] この記事は1分58秒で読めます.

地声ベースのAI音声合成モデルを再度構築しました話.たぶん似てる.

20250104

Logging

おはようございます.地声ベースのAI音声合成モデルを再度構築しました話を書いていきます.まず地声ベースモデルを作る場合.自分の音声を録音しwavなどファイルにします.それが出来ない環境では音声モデルを作ることは難しいです.それが出来たらstyle-bert-vits2をGitHubから落としてきて、ブランチをdevに切り替えておきます.Windowsの場合、app.batを起動します.前提条件としてPythonがインストールされていることとgitがインストールされた環境であることです.

app.batを起動するとターミナルがターミナル立ち上がり次に任意のブラウザが開くことでしょう.ターミナルは閉じずにブラウザ画面のTOPにタブがあるので左から右へタスクをこなしていくと地声ベースの音声合成モデルが生成されます.

音声合成モデルが生成された後にstyle-bert-vits2内でターミナルを開き下記のコマンドを叩きます.

python convert_onnx.py --model model_assets\モデル名

叩く処理が実行されonnxファイルがモデルフォルダに作られます.

作られたファイルをaivm-generator.aivis-project.comサイトにてコンバートします.コンバートするとAIVM / AIVMX ファイルがダウンロードされます.最後にダウンロードされたファイルをAivisSpeechアプリに取り込めば完了です.

で、こちらが地声ベースの音声合成モデルで今回の記事を読み上げている音源になります.

明日へ続く

3251番目の投稿です/89 回表示されています.

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

コマンド, ターミナル, ターミナル立ち上がり次, タブ, ファイル, ブラウザ, ブラウザ画面, モデルフォルダ, , 再度, 前提条件, , 地声ベース, 地声ベースモデル, , 最後, 音声, 音声モデル, 音声合成モデル, 音源,