インターネットと音声合成

音声技術とバリアフリーに関する特集の一記事として電子情報通信学会誌に千葉大学の西田先生と共同で執筆した

  • 西本卓也, 西田昌史: “インターネットと音声合成,” 電子情報通信学会誌, Vol.91, No.12, pp.1030-1035, Dec 2008.

が発行されました。執筆したのは6月末だったのですが、ページ数がオーバーして大幅にカットせざるを得なかった部分をここでご披露します。。

インターネットにおける音声合成技術

インターネットにおける音声合成技術はバリアフリーに限らずさまざまな用途で注目されている.

例えば,近年のCGM(Consumer Generated Media)ブームと共に,インターネットの動画投稿サイトで歌声音声合成を使った作品が広く知られるようになった.

また,入力された歌詞から自動作曲して合成音声で歌うシステムも公開されている.

また,文字で情報を読むよりも,朗読された音声で情報を得る方がわかりやすく誤解しにくい,という動機から,最近,ネットリサーチ(インターネットを利用した市場調査)において音声合成を用いたサービスが登場している.質問項目を音声合成で提示することにより,回答者による設問の読み間違いや,設問をよく読まずに回答されることを防ぎ,精度の高い調査が実施できるという.

このようにインターネットにおいて存在感を増しつつあるテキスト合成音声の技術であるが,視覚障害者は,インターネットが普及する前からの,この技術のアーリーアダプター(先見性のある利用者)だった.

ウェブサイトが提供する音声合成機能

特定のウェブサイトに限定すれば,ウェブサイトが音声合成機能を提供することも有効である.

例えば

などのインターネット閲覧支援ツールは,ウェブサイトが提供する音声合成エンジンをユーザのPCにインストールさせ,ユーザのPCで音声合成を行わせるものである.ユーザに強いる負担は軽減されるが,これらのサービスでは対象となるOSやブラウザが制限されてしまう.

島根県のウェブサイトで使われているCMS (Content Management System)には,テキスト情報として提供されるコンテンツを音声化し,ストリーミング音声として配信する機能がある.

(株)ネットワーク応用通信研究所が開発したこの「島根県CMS」は,Ruby on Rails で実装され,フリーの音声合成エンジン GalateaTalk が使用されている.最近ソースコードが公開されたことでも話題を呼んでいる.

また,JavaScriptを用いて任意のウェブページに音声合成機能を埋め込む「Web音声配信システム(VDS)」が(株)ナレッジクリエーションによって公開されている.VDSのサーバで音声合成が行われ,ユーザ側でもウェブサイト側でも音声合成エンジンを必要としない.いわゆる Web 2.0 的な技術として今後の展開が期待される.

会誌に掲載された内容

ここで紹介しなかった内容のうち、視覚障害者のPC利用の実情、音声によるインターネット利用、視覚障害者用タイピング練習ソフト、早口音声合成の利用、学習効果と心的負荷、などのトピックは会誌記事に無事掲載されています。また、Webページ閲覧、仮名漢字変換に関する西田先生の記事もあります。最後に NVDA 日本語版プロジェクトの活動にも触れました。