2023年3月6日 星期一

Mocking Bird 文字轉語音

Reference:

功能:
使用一個人的聲音檔,可將文字轉為這個人的語音檔。

需要的元件:
安裝步驟:
  • python 3.9.13 (PyTorch支援python 3.7-3.9)
https://www.python.org/ftp/python/3.9.13/python-3.9.13-amd64.exe
下載及安裝。安裝時以下畫面要調整,其他就直接下一步。

  • PyTorch
https://pytorch.org/get-started/locally/
到網頁,點選藍色框部分,查詢安裝指令
安裝指令為 pip3 install torch torchvision torchaudio
開啟命令提示字元,輸入安裝指令pip3 install torch torchvision torchaudio
如果有錯誤訊息,應該是python版本不合。(只能是python 3.7-3.9)
  • ffmpeg
https://www.gyan.dev/ffmpeg/builds/ffmpeg-release-full.7z
下載並解壓縮到C:\ffmpeg-6.0-full_build
將 C:\ffmpeg-6.0-full_build\bin 加入 PATH

  • MockingBird
https://github.com/babysor/MockingBird
下載檔案並解壓縮到 C:\MockingBird-main

開啟命令提示字元,cd C:\MockingBird-main,執行
pip install Cython
pip install -r requirements.txt
pip install webrtcvad-wheels

  • 下載語音合成器 synthesizer-merged_110k.pt
https://drive.google.com/drive/folders/10LDxmZOto9ehPbZgTyvY2NzPEjHS4qdG
放到 C:\MockingBird-main\data\ckpt\synthesizer

  • 錄音
  • 錄音檔位置
  • 進入ToolBox
開啟命令提示字元,cd C:\MockingBird-main,執行 python demo_toolbox.py
步驟1的錄音檔,錄3~8秒即可,不是越長越好。確保只有一個人的聲音,說話聲最好是平調。
步驟4重複按,讓下面兩張音頻圖越接近效果越好。
在右上輸入文字,按步驟5產生合成的聲音檔。
步驟六可以重聽,確定後點 Export 另存成 .wav檔。


沒有留言:

張貼留言