音声合成エンジンとライセンス

私のブログにさっそく匿名のコメントをいただきました:

>再配布不可のUniDicを使ってるからオープンソースの意味ないです
>お金払うなら高性能な他の有料合成エンジン使います

どこかでこの件について書きたいと思っていました。私としては、こういう意見をたくさんの方に出していただけると、問題が明確になってよいと思います(匿名ではない方がよいですが)。

Unidic は形態素解析用の日本語辞書です。無償で利用できますが再配布については制約があります。Unidic のライセンスについては、例えば修正BSDのようなライセンスにしてもらえないか、とお願いしたことがあるのですが、変更できないとのことでした。

現状で単語のイントネーションに関する情報は unidic でしか得られないこともあり、これまで Galatea は unidic の最新版に追従する形で開発が続けられてきました。

Galatea プロジェクトの開始当初は unidic のライセンスは現在の形で明確になっていませんでした。音声対話技術コンソーシアムというプロジェクトの成果として、現在の構成での配付を行っていますが、再配布に関する御意見はこれまでもずっといただいております。

まず unidic 1.1.0 (Unidic が現在のライセンスになるまえに、「IPA2002版」の一部として配付されたもの)へのバックポートの可能性を検討しています。現在の unidic と品詞体系が変わっているので、gtalk および chaone も過去のバージョンに戻すか、unidic 1.1.0 の品詞体系に合わせて最新のエンジンにパッチを当てる必要がありそうです。時間がかかりそうであることと、性能を保証しにくいので、とりあえず現在のバージョンを公開しています。要望が多ければ頑張ってみたいと思うのですが。

unidic を使わない方法については例えば「島根県CMS」で ipadic (現在はnaist_jdic)への差し替えを行ったものなどがあります。これも「IPA2002版」に対する非公式なパッチがベースです。

私は技術的な実験についてはお手伝いできますし、私自身も音声合成を使った研究やソフトウェア開発に関してやりたいことはあるのですが、sourceforge はオープンソースコミュニティですので、多くの人に汎用的に役立つように意識しながら、個別の問題を解決することが望ましいと思います。

ライセンスの問題も大事なのですが、エンジンとしての性能が、商用の技術と比べて、だんだん見劣りしてきていることも問題です。Unidic のアップデートによって必ずしも音声合成エンジンの読み付与精度が上がっていない、という指摘もあります。

もっと幅広くオープンソースの音声合成技術を概観するとき、 espeak や festival のような多言語化を前提として作られた技術と比べて日本語だけが孤立していることも気になります。オーディオデバイスのインタフェースについても PortAudio ライブラリが普及したり、Linux と Windows いずれについても新しいAPIへの移行が進んでいたり、技術を取り巻く環境は常に変化しています。Mac OS X への対応もまだ実現されていません。

先ほどNVDA日本語化プロジェクトのミーティングに出席してきました。以前から NVDA に組み込むことができる日本語TTSとして GalateaTalk の検討を続けてきたのですが、GPL で配付されている NVDA は現状の GalateaTalk を同梱して配付する目処が立ちません。espeak エンジンの日本語化を真剣に検討してはどうか、などの議論を行いました。

私のブログでは繰り返しになりますが、オープンソースプロジェクトが社会的に受け入れられるためには、単に商用ソフトにお金を払いたくないから、といった動機ではなく、「既存のビジネスを破壊しないこと」が重要だと思います。

スクリーンリーダである NVDA の存在意義の一つは、Web開発者にアクセシビリティの問題を幅広く認知していただくことです。JIS X-8341-3(ウェブコンテンツアクセシビリティガイドライン)の改訂作業が進んでいますが、この分野ではコンテンツの対応と支援技術の対応が連携していなくてはなりません。視覚障害の当時者でない方も含めて、多くの方が「新しい標準に準拠した支援技術」を手軽に入手できる環境が必要です。そうでないと、標準化作業が完了しても、「誰も実際に使うことができないから」という理由で形骸化してしまいます。特に国際協調が必要なWeb技術において、日本だけが技術の進歩に取り残されるのはとても不幸なことです。そのような背景から、Web コンテンツ JIS の改訂に取り組んでおられる方々は NVDA に期待しています。「少なくともNVDAは対応しているから新しい標準に対応してください」とアピールしたい、というわけです。

Galatea プロジェクトへの要望や批判的な御意見は歓迎です。しかし、ただ批判していただくだけではなく、論理的で客観的な議論のための材料を求めたいと思います。「ライセンスに対して何のためにどういう要求があるか」「何のために、どういう機能や性能のものが必要なのか」「現在使えるリソースは何か」「どう具体的なアクションを起こすか」など、建設的な議論が必要です。今後ともよろしくお願いします。

Share