Julius を使ってみたけど、デフォルトのままでは厳しかったという話

TL;DR;

Julius を使う場合、モデルの生成や設定を正しく行わないと使い物にならない。

費用と時間をかけて設定すべし。

Julius は、汎用大語彙連続音声認識エンジンです。簡単に言うと、音声認識のフレームワークです。これだけでは動作させることができず、下記のものが必要です。

音の波形と言葉を紐付けるモデル
言葉と単語を紐付けるモデル
単語のリスト

私が触った範囲では、認識できた単語と命令をアプリ側で紐付けるのは可能でした。例えば、「コーヒー」という単語を認識したら、プログラムを動作させるなどは可能でした。文字起こしなどは、だいぶモデルの精度を高めて、単語も漏れなく上げて設定したときに可能になるかもしれません。このとき、モデルの精度を高めるのは素人には難しく、多額の費用をかけて精度を高める必要があります。

f:id:Qadiff:20190722071531p:plain — お金をかけずに「コーヒー、紅茶」と言った場合の文字起こし結果

中小企業が気軽に導入するのは、オススメしません。大企業においては、下記の条件を満たすときに Julius を使用するチャンスがあると考えています。

外部に音声・内容を公開できない
専門家を雇う余裕がある

ある程度の単語を読み解いて、結果を返すくらいだと中小企業でも導入しやすいと思います。ただ、やっぱりモデルをちゃんと生成することは意識する必要があります。

Qadiff’s diary

合同会社カディフは多くの人にとって "試験的" か、"実践的" なサービスを提供します。

Julius を使ってみたけど、デフォルトのままでは厳しかったという話