whisper – matoken's blog

OpenAI の Whisper という文字起こしソフトウェアがあります．これを使い，カンファレンス等の文字起こしをしたりして便利に使わせてもらっています．

openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
OpenAIのWhisperでオフライン文字起こし(STT) (鹿児島Linux勉強会 2022.11にて発表)

Whisper を使う際にモデルを指定する必要があります．
モデルは複数存在し，基本的にサイズの大きいもののほうが文字起こし精度が良いですが，コンピュータのリソースを消費します．
今回 large-v3-turbo(turbo と略されるようです．)という新しいモデルがリリースされました．このモデルは large-v3 を元にデコーダを小さくすることで精度はそのままに高速になっているそうです．
どのくらい速くなっているのか少し試してみました．

turbo model release · openai/whisper · Discussion #2363

タグ: whisper

OpenAI Whisperの新しいlarge-v3-turboモデルを少し試す

whisper.cpp のモデルデータのダウンロードに失敗したあとダウンロードし直す

プロフィール

あなたのプロフィール