top of page

音声データをPythonの音声認識モデルを使用して文字起こし

  • 執筆者の写真: あどりら
    あどりら
  • 6月9日
  • 読了時間: 4分

こんにちは、あどりらです。


社内学習にてAIを学ぶきっかけがあり、何から学んでみるかと考えたときに、最初に目についたものが音声の文字起こしでした。


当時社内で会議における議事録作成の負担軽減を目的として、音声録音および変換ツールの導入を検討する意見が挙がっておりました。

そのような折、自作での構築が可能であれば非常に有用であると考え、「文字起こし」に関心を抱きました。


オープンソースとして公開されている複数のモデルを調査したところ、その中でも特に導入の障壁が低いと考えられた「Whisper」を採用し、構築を試みることにいたしました。

これはその時の備忘録です。



開発環境

  • 開発言語:Python

  • 開発エディタ:Visual Studio Code

  • 仕様ライブラリ:whisper


Pythonのインストール


公式HPからインストーラーをダウンロードしてください。



  1. Releaseの最新バージョンのDownloadを選択します。



  1. Windowsの64bit版をダウンロードします。



  1. インストーラーをダブルクリックしてインストールを開始します。

「Add python.exe to PATH」をチェックし、「Install Now」を選択します。


インストールが完了したら「Close」を選択して完了します。



  1. インストールされていることを確認するため、ターミナルを起動し

「python --version」のコマンドを入力します。

Pythonのバージョンが表示されていればインストール完了です。




VSCodeのインストール


Microsoft公式サイトよりインストーラーをダウンロードしてください。


1.Windows版をクリックするとダウンロードが行われます。



2.インストーラーをダブルクリックしてインストールを開始します。

「同意する」にチェックを付けます。



順次必要な項目を入力してインストールを行います。



 

 


インストールが完了したら「完了」を選択して閉じます。

チェックボックスの「Visual Studio Code を実行する」にチェックが入っていると自動的にVisual Studio Codeが起動します。




VSCodeの設定


1.VSCodeを起動し、拡張機能を開きます。

左側の一番下にあるアイコンをクリックします。



2.日本語化機能をインストールします。

検索ボックスに「japanese」と入力し、候補の中から「Japanese Language Pack for Visual Studio Code」を選択します。右側に表示された「Install」をクリックします。インストール後にVSCodeを再起動します。



3.Python拡張機能のインストール

検索ボックスに「Python」と入力し、候補の中から「Python」を選択します。右側に表示された「Install」をクリックします。




Pythonコード


実際にコードを書いてみます。


1.エクスプローラー(実行フォルダ)の選択

左上のアイコンエクスプローラーを選択し、「フォルダーを開く」をクリックします。



保存先のフォルダーを選択します。



初めて指定するフォルダーには、次のようにセキュリティ表示がされます。このフォルダーにアクセスするには、「はい、作成者を信頼します」をクリックします。



「新しいファイル」アイコンをクリックし、ファイルを作成します。

今回は「test_mojiokoshi.py」と名前を付けます。



2.仮想環境を作ります。

ツールバーの表示からターミナルを選択します。



仮想環境を作成するために以下のコマンドを入力します。



仮想環境を起動するために以下のコマンドを入力します。



pipのアップデートを行うために以下のコマンドを実行します。



openai-whisper (whisper)をインストールします。

OpenAIが提供している音声認識モデルのライブラリです。

インストールのために以下のコマンドを入力します。



3.コード入力

では実際にコードを書いていきます。


最初は変換する音声ファイルを選択するコードです。

以下のコードにてダイアログを表示して音声ファイル(mp3)を選択できるようにします。




次にwhisperを使用して文字起こしを実行します。

文字起こしの精度は指定したモデルによって変わります。

今回はbaseモデルを使用しました。


※「UserWarning: FP16 is not supported on CPU;」という警告が出る場合は、fp16=Falseオプションを追加してください。



出力されたファイルに文字起こしされたデータが保存されていれば成功です。




結果


大規模なモデルの活用により、認識精度の向上が期待できます。

音声の反響が生じている環境下においても、比較的正確な変換が可能であることが確認されました。

一方で、大規模モデルの使用は処理時間の増大を招く傾向にあります。

CPU環境での運用は処理速度が著しく低下するため、実用性の面で課題が残ります。

高精度かつ迅速な処理を実現するためには、高性能なGPUの利用が強く推奨されます。


まとめ


Whisperを活用することにより、わずか十数行のコードで音声の文字起こしを実現することが可能となりました。

得られた文字起こしの結果を基に、AIを用いて内容の要約を行うことも可能です。

既存の文字起こしツールが利用できない環境においても、自作によって迅速に対応できる点は非常に有益です。

音声データの文字起こしを行いたい場合は、本手法の導入を検討される価値は十分にあると考えられます。


コメント


この投稿へのコメントは利用できなくなりました。詳細はサイト所有者にお問い合わせください。
bottom of page