OpenAI の Whisper という文字起こしソフトウェアがあります.これを使い,カンファレンス等の文字起こしをしたりして便利に使わせてもらっています.
Whisper を使う際にモデルを指定する必要があります.
モデルは複数存在し,基本的にサイズの大きいもののほうが文字起こし精度が良いですが,コンピュータのリソースを消費します.
今回 large-v3-turbo
(turbo
と略されるようです.)という新しいモデルがリリースされました.このモデルは large-v3
を元にデコーダを小さくすることで精度はそのままに高速になっているそうです.
どのくらい速くなっているのか少し試してみました.