top of page

株式会社アーチ

検索

音声データをPythonの音声認識モデルを使用して文字起こし

あどりら
6月9日
読了時間: 4分

こんにちは、あどりらです。

社内学習にてAIを学ぶきっかけがあり、何から学んでみるかと考えたときに、最初に目についたものが音声の文字起こしでした。

当時社内で会議における議事録作成の負担軽減を目的として、音声録音および変換ツールの導入を検討する意見が挙がっておりました。

そのような折、自作での構築が可能であれば非常に有用であると考え、「文字起こし」に関心を抱きました。

オープンソースとして公開されている複数のモデルを調査したところ、その中でも特に導入の障壁が低いと考えられた「Whisper」を採用し、構築を試みることにいたしました。

これはその時の備忘録です。

開発環境

開発言語：Python
開発エディタ：Visual Studio Code
仕様ライブラリ：whisper

Pythonのインストール

公式HPからインストーラーをダウンロードしてください。

Releaseの最新バージョンのDownloadを選択します。

Windowsの64bit版をダウンロードします。

インストーラーをダブルクリックしてインストールを開始します。

「Add python.exe to PATH」をチェックし、「Install Now」を選択します。

インストールが完了したら「Close」を選択して完了します。

インストールされていることを確認するため、ターミナルを起動し

「python --version」のコマンドを入力します。

Pythonのバージョンが表示されていればインストール完了です。

VSCodeのインストール

Microsoft公式サイトよりインストーラーをダウンロードしてください。

１．Windows版をクリックするとダウンロードが行われます。

２．インストーラーをダブルクリックしてインストールを開始します。

「同意する」にチェックを付けます。

順次必要な項目を入力してインストールを行います。

インストールが完了したら「完了」を選択して閉じます。

チェックボックスの「Visual Studio Code を実行する」にチェックが入っていると自動的にVisual Studio Codeが起動します。

VSCodeの設定

１．VSCodeを起動し、拡張機能を開きます。

左側の一番下にあるアイコンをクリックします。

２．日本語化機能をインストールします。

検索ボックスに「japanese」と入力し、候補の中から「Japanese Language Pack for Visual Studio Code」を選択します。右側に表示された「Install」をクリックします。インストール後にVSCodeを再起動します。

３．Python拡張機能のインストール

検索ボックスに「Python」と入力し、候補の中から「Python」を選択します。右側に表示された「Install」をクリックします。

Pythonコード

実際にコードを書いてみます。

１．エクスプローラー（実行フォルダ）の選択

左上のアイコンエクスプローラーを選択し、「フォルダーを開く」をクリックします。

保存先のフォルダーを選択します。

初めて指定するフォルダーには、次のようにセキュリティ表示がされます。このフォルダーにアクセスするには、「はい、作成者を信頼します」をクリックします。

「新しいファイル」アイコンをクリックし、ファイルを作成します。

今回は「test_mojiokoshi.py」と名前を付けます。

２．仮想環境を作ります。

ツールバーの表示からターミナルを選択します。

仮想環境を作成するために以下のコマンドを入力します。

仮想環境を起動するために以下のコマンドを入力します。

pipのアップデートを行うために以下のコマンドを実行します。

openai-whisper (whisper)をインストールします。

OpenAIが提供している音声認識モデルのライブラリです。

インストールのために以下のコマンドを入力します。

３．コード入力

では実際にコードを書いていきます。

最初は変換する音声ファイルを選択するコードです。

以下のコードにてダイアログを表示して音声ファイル(mp3)を選択できるようにします。

次にwhisperを使用して文字起こしを実行します。

文字起こしの精度は指定したモデルによって変わります。

今回はbaseモデルを使用しました。

※「UserWarning: FP16 is not supported on CPU;」という警告が出る場合は、fp16=Falseオプションを追加してください。

出力されたファイルに文字起こしされたデータが保存されていれば成功です。

結果

大規模なモデルの活用により、認識精度の向上が期待できます。

音声の反響が生じている環境下においても、比較的正確な変換が可能であることが確認されました。

一方で、大規模モデルの使用は処理時間の増大を招く傾向にあります。

CPU環境での運用は処理速度が著しく低下するため、実用性の面で課題が残ります。

高精度かつ迅速な処理を実現するためには、高性能なGPUの利用が強く推奨されます。

まとめ

Whisperを活用することにより、わずか十数行のコードで音声の文字起こしを実現することが可能となりました。

得られた文字起こしの結果を基に、AIを用いて内容の要約を行うことも可能です。

既存の文字起こしツールが利用できない環境においても、自作によって迅速に対応できる点は非常に有益です。

音声データの文字起こしを行いたい場合は、本手法の導入を検討される価値は十分にあると考えられます。

関連記事

すべて表示

C#×RS-232C通信の振り返りと非同期処理について

C#×RS-232C通信の振り返りと非同期処理について

工程管理：スプレッドシートによる柔軟なシステム構築

工程管理：スプレッドシートによる柔軟なシステム構築

MediaPipeを使用した手指検出

MediaPipeを使用した手指検出

コメント

この投稿へのコメントは利用できなくなりました。詳細はサイト所有者にお問い合わせください。

最新記事

音声データをPythonの音声認識モデルを使用して文字起こし

音声データをPythonの音声認識モデルを使用して文字起こし

音声データをPythonの音声認識モデルを使用して文字起こし

あどりら

6月9日

C#×RS-232C通信の振り返りと非同期処理について

C#×RS-232C通信の振り返りと非同期処理について

C#×RS-232C通信の振り返りと非同期処理について

さん

5月26日

デスク紹介第1弾　新米社長デスク

デスク紹介第1弾　新米社長デスク

デスク紹介第1弾　新米社長デスク

Y.M

5月19日

工程管理：スプレッドシートによる柔軟なシステム構築

工程管理：スプレッドシートによる柔軟なシステム構築

工程管理：スプレッドシートによる柔軟なシステム構築

M.O

5月12日

bottom of page