写真 青い空と雲と建物と木々の緑

nishimotzの日記

  • メーリングリストでの議論

    先日、音声対話ツールキット(構成要素として音声認識、音声合成、顔画像合成などを含む)の公開パッケージを更新しました。

    galatea-users および galatea-i18n の各MLの皆様にお知らせしたところ、さっそく Windows 版の音声合成に関する不具合の御報告をいただき、開発者にも確認していただいて対応しました。リリース前に不具合を発見できなかったことを申し訳なく思っておりますが、やはり幅広い立場の方に評価していただけることが必要と痛感しました。

    Galatea ツールキットはいろいろな構成要素の寄せ集めです。各構成要素のいくつかは sourceforge.jp に別のプロジェクトを持っています。しかし不具合や要望について各構成要素の何が関係しているのか切り分けが難しいケースも多いと思います。そういった場面で「総合案内」として galatea プロジェクト(あるいは私のお手伝い)がお役に立てると思います。

    音声合成を取り出して別のアプリケーションと連携させて使いたい、という要望は頻繁に伺っています。galatea プロジェクトは「汎用のツールキット」の整備を目指していますが、「汎用性」に貢献する議論は積極的に行うべきだと思います。その上で、新しいアプリケーションの構想が具体化したら、そのためのプロジェクトを別途設けていくことも必要ではないかと思います。

    英語の情報を整備し、ツールキット全体を多言語対応していくことも必要な課題です。これについては galatea-i18n で今後議論を進めていくつもりです。

    galatea プロジェクトはチケットシステムも利用しています。不具合や要望の管理に役立てていきたいと思います。

    今後もいろいろ皆様の御意見を伺いながら、このツールを発展させていきたいと思っております。

  • 音声合成エンジンとライセンス

    私のブログにさっそく匿名のコメントをいただきました:

    >再配布不可のUniDicを使ってるからオープンソースの意味ないです
    >お金払うなら高性能な他の有料合成エンジン使います
    

    どこかでこの件について書きたいと思っていました。私としては、こういう意見をたくさんの方に出していただけると、問題が明確になってよいと思います(匿名ではない方がよいですが)。

    Unidic は形態素解析用の日本語辞書です。無償で利用できますが再配布については制約があります。Unidic のライセンスについては、例えば修正BSDのようなライセンスにしてもらえないか、とお願いしたことがあるのですが、変更できないとのことでした。

    現状で単語のイントネーションに関する情報は unidic でしか得られないこともあり、これまで Galatea は unidic の最新版に追従する形で開発が続けられてきました。

    Galatea プロジェクトの開始当初は unidic のライセンスは現在の形で明確になっていませんでした。音声対話技術コンソーシアムというプロジェクトの成果として、現在の構成での配付を行っていますが、再配布に関する御意見はこれまでもずっといただいております。

    まず unidic 1.1.0 (Unidic が現在のライセンスになるまえに、「IPA2002版」の一部として配付されたもの)へのバックポートの可能性を検討しています。現在の unidic と品詞体系が変わっているので、gtalk および chaone も過去のバージョンに戻すか、unidic 1.1.0 の品詞体系に合わせて最新のエンジンにパッチを当てる必要がありそうです。時間がかかりそうであることと、性能を保証しにくいので、とりあえず現在のバージョンを公開しています。要望が多ければ頑張ってみたいと思うのですが。

    unidic を使わない方法については例えば「島根県CMS」で ipadic (現在はnaist_jdic)への差し替えを行ったものなどがあります。これも「IPA2002版」に対する非公式なパッチがベースです。

    私は技術的な実験についてはお手伝いできますし、私自身も音声合成を使った研究やソフトウェア開発に関してやりたいことはあるのですが、sourceforge はオープンソースコミュニティですので、多くの人に汎用的に役立つように意識しながら、個別の問題を解決することが望ましいと思います。

    ライセンスの問題も大事なのですが、エンジンとしての性能が、商用の技術と比べて、だんだん見劣りしてきていることも問題です。Unidic のアップデートによって必ずしも音声合成エンジンの読み付与精度が上がっていない、という指摘もあります。

    もっと幅広くオープンソースの音声合成技術を概観するとき、 espeak や festival のような多言語化を前提として作られた技術と比べて日本語だけが孤立していることも気になります。オーディオデバイスのインタフェースについても PortAudio ライブラリが普及したり、Linux と Windows いずれについても新しいAPIへの移行が進んでいたり、技術を取り巻く環境は常に変化しています。Mac OS X への対応もまだ実現されていません。

    先ほどNVDA日本語化プロジェクトのミーティングに出席してきました。以前から NVDA に組み込むことができる日本語TTSとして GalateaTalk の検討を続けてきたのですが、GPL で配付されている NVDA は現状の GalateaTalk を同梱して配付する目処が立ちません。espeak エンジンの日本語化を真剣に検討してはどうか、などの議論を行いました。

    私のブログでは繰り返しになりますが、オープンソースプロジェクトが社会的に受け入れられるためには、単に商用ソフトにお金を払いたくないから、といった動機ではなく、「既存のビジネスを破壊しないこと」が重要だと思います。

    スクリーンリーダである NVDA の存在意義の一つは、Web開発者にアクセシビリティの問題を幅広く認知していただくことです。JIS X-8341-3(ウェブコンテンツアクセシビリティガイドライン)の改訂作業が進んでいますが、この分野ではコンテンツの対応と支援技術の対応が連携していなくてはなりません。視覚障害の当時者でない方も含めて、多くの方が「新しい標準に準拠した支援技術」を手軽に入手できる環境が必要です。そうでないと、標準化作業が完了しても、「誰も実際に使うことができないから」という理由で形骸化してしまいます。特に国際協調が必要なWeb技術において、日本だけが技術の進歩に取り残されるのはとても不幸なことです。そのような背景から、Web コンテンツ JIS の改訂に取り組んでおられる方々は NVDA に期待しています。「少なくともNVDAは対応しているから新しい標準に対応してください」とアピールしたい、というわけです。

    Galatea プロジェクトへの要望や批判的な御意見は歓迎です。しかし、ただ批判していただくだけではなく、論理的で客観的な議論のための材料を求めたいと思います。「ライセンスに対して何のためにどういう要求があるか」「何のために、どういう機能や性能のものが必要なのか」「現在使えるリソースは何か」「どう具体的なアクションを起こすか」など、建設的な議論が必要です。今後ともよろしくお願いします。

  • 社会科学方法論

    先日図書館で、田村正勝先生の「社会科学原論講義」早稲田大学出版部(2007)を見つけた。

    社会科学原論講義
    社会科学原論講義

    posted with amazlet at 11.08.15
    田村 正勝
    早稲田大学出版部
    売り上げランキング: 413208

    遠い昔、早稲田大学理工学部から他学部聴講で田村先生の「社会科学方法論」を聞くために、私は1年間「社学」に通った。電気工学科に在籍しながらも浅羽通明「ニセ学生マニュアル」や筒井康隆「文学部唯野教授」などを面白がって読んでいた自分にはとても有意義な時間だった。

    ギリシャ哲学、ヘーゲルの弁証法、アダム・スミスの国富論、マルクスとケインズの経済学、そして日本の思想、などなど。一人の先生の一つの講義がここまでいろいろな話題に触れられて(ほとんどノートも見ずにお話になっていたと思う)、それが毎回毎回、現代の日本と世界の問題を鋭く分析するツールとして機能していたことに感銘を受けた。

    その講義が(この十数年の政治や経済の問題に対する鋭い論考を付け加えつつ)こうして一冊の本にまとまって読めるのは、ありがたいことだ。

    田村先生の講義で出てきたいくつかのキーワード、例えば「偶然は必然と必然の交である」といったことは今もよく覚えている。

    あるいは「社会科学の優れた理論は、その理論そのものが社会を変えてしまう。そしてその理論が成り立たないような社会がやがて実現されてしまう」といったパラドックスも、その後の人生と経験の中で、何度も、思い当たる節があると感じた。

    通勤時間に読書するには物理的にも内容的にも重い本だったが、拾い読みをしているだけで、なにかとても温かくて真っ直ぐな気持ちが蘇った。