【Python】GoogleColabで音声の文字起こしをする方法

以前、ローカル環境で音声の文字起こしをする方法を以下の記事でご紹介しました。

Pythonを用いてWhisperで音声ファイルの文字起こしをローカル環境で行う方法とエラーの対処法をご紹介します。

今回は上記の記事とほぼ同じコードをGoogleColab上で動作させて音声の文字起こしをする方法をご紹介します。※GoogleColabは、ブラウザからPythonを実行できる開発環境であり、その実行環境はGoogle社のマシン上で、高性能なGPUを使用することができます。これにより、自端末では時間のかかってしまう処理を高速に完了させることができます。下の画像のようなイメージです。

本記事では、筆者の低スペックマシンでもWhisperのモデル「large」を使用して高速かつ高精度な文字起こしを実現しています。※無料で使用できます。

ではさっそくやってみましょう！

GoogleColabにアクセスする

まずはこちらのGoogleColabにアクセスします。https://colab.research.google.com/?hl=ja

次にノートブックを新規作成します。

次の画面が表示されます。

プログラムの入力

GoogleColabのノート上に３つのプログラムコードを貼り付けます。

１．GoogleColabにGoogleドライブをマウントするコード

まずは次のコードを一番上のブロックに貼り付けます。

from google.colab import drive
drive.mount('/content/drive')

1 2	from google.colab import drive drive.mount('/content/drive')

これはGoogleColabでローカルのファイルを選択するために、GoogleドライブをGoogleColabにマウント（使用できる状態）にします。

２．pipで音声認識ツールをインストールするコード

次に、＋コード　をクリックしてコードの入力欄を増やします。

表示されたコードの入力欄に以下のコードを貼り付けます。

pip install -U openai-whisper

1	pip install -U openai-whisper

これはOpenAI社の音声認識ツールであるWhisperをGoogleColabにインストールします。

３．文字起こしをしてテキストファイルに出力するコード

再度、＋コード　をクリックしてコードの入力欄を増やします。表示されたコードの入力欄に以下のコードを貼り付けます。

import whisper
import os

# 入力ファイル名（適宜変更する）
inputfile = "test.mp3"

# 出力ファイル名（適宜変更する）
outputfile = "output.txt"

# 処理
model = whisper.load_model("large", device="cuda")
#result = model.transcribe(script_folder + "/" + inputfile, language="ja", verbose=True)
result = model.transcribe("/content/drive/MyDrive/test.mp3", language="ja", verbose=True)

# セグメントごとに改行してテキストを取得
segments = result["segments"]
transcript = "\n".join(segment["text"] for segment in segments)

# txtへ書き出し
with open("/content/drive/MyDrive/output.txt", "w", encoding='utf-8_sig') as f:
    f.write(transcript)