先日、パソコンソフトの売り場で、音声認識ソフトを買いに来たお客さんに店員さんが説明をしているのを耳にしました。
どうやら議事録の作成に使いたい様子。これに対して店員さんは、いまの技術ではヘッドセットを付けてリスピークした音声でないと無理、フットスイッチで音声を止めながら聞いてキーボードで書き起こす方がいいです、と説明。音声認識ソフトを買うことを思い留まらせようとしていました。
音声認識の中でもディクテーションは使いこなすことが難しい技術だと思います。
しゃべれば文字になる。
そう言われると誰もが過度な期待を持ちます。
その技術にどんな制約や限界があるのか、喋り手は理解していません。説明されたり練習をしても、常に意識していられません。
情報保障の場で、音声認識を意識しつつ、目の前の聴き手に対して自然に話すことはできるのか?
上手にリスピークをするためのコツはあるのか?
音声認識結果の読み手に配慮する情報提示の方法は?
これらの問題について先日の研究会でもいろんなヒントがありました。
おそらくは音声認識技術だけでなくヒューマンインタフェースが大きなポイントです。
例えば NHK の研究所ではテレビ放送字幕を音声認識で作成する研究が行われています。音声認識エンジンをどのように改良すればよいか、誤認識を人手で訂正するインタフェースはいかにあるべきか、ということについても検討が行われています。
ここ数年の音声認識を取り巻く技術の変化、ニーズの変化を踏まえて、そろそろ、新たな取り組みが可能になりつつあるのかも知れません。