タグ: galatea

  • メーリングリストでの議論

    先日、音声対話ツールキット(構成要素として音声認識、音声合成、顔画像合成などを含む)の公開パッケージを更新しました。

    galatea-users および galatea-i18n の各MLの皆様にお知らせしたところ、さっそく Windows 版の音声合成に関する不具合の御報告をいただき、開発者にも確認していただいて対応しました。リリース前に不具合を発見できなかったことを申し訳なく思っておりますが、やはり幅広い立場の方に評価していただけることが必要と痛感しました。

    Galatea ツールキットはいろいろな構成要素の寄せ集めです。各構成要素のいくつかは sourceforge.jp に別のプロジェクトを持っています。しかし不具合や要望について各構成要素の何が関係しているのか切り分けが難しいケースも多いと思います。そういった場面で「総合案内」として galatea プロジェクト(あるいは私のお手伝い)がお役に立てると思います。

    音声合成を取り出して別のアプリケーションと連携させて使いたい、という要望は頻繁に伺っています。galatea プロジェクトは「汎用のツールキット」の整備を目指していますが、「汎用性」に貢献する議論は積極的に行うべきだと思います。その上で、新しいアプリケーションの構想が具体化したら、そのためのプロジェクトを別途設けていくことも必要ではないかと思います。

    英語の情報を整備し、ツールキット全体を多言語対応していくことも必要な課題です。これについては galatea-i18n で今後議論を進めていくつもりです。

    galatea プロジェクトはチケットシステムも利用しています。不具合や要望の管理に役立てていきたいと思います。

    今後もいろいろ皆様の御意見を伺いながら、このツールを発展させていきたいと思っております。

  • 音声合成エンジンとライセンス

    私のブログにさっそく匿名のコメントをいただきました:

    >再配布不可のUniDicを使ってるからオープンソースの意味ないです
    >お金払うなら高性能な他の有料合成エンジン使います
    

    どこかでこの件について書きたいと思っていました。私としては、こういう意見をたくさんの方に出していただけると、問題が明確になってよいと思います(匿名ではない方がよいですが)。

    Unidic は形態素解析用の日本語辞書です。無償で利用できますが再配布については制約があります。Unidic のライセンスについては、例えば修正BSDのようなライセンスにしてもらえないか、とお願いしたことがあるのですが、変更できないとのことでした。

    現状で単語のイントネーションに関する情報は unidic でしか得られないこともあり、これまで Galatea は unidic の最新版に追従する形で開発が続けられてきました。

    Galatea プロジェクトの開始当初は unidic のライセンスは現在の形で明確になっていませんでした。音声対話技術コンソーシアムというプロジェクトの成果として、現在の構成での配付を行っていますが、再配布に関する御意見はこれまでもずっといただいております。

    まず unidic 1.1.0 (Unidic が現在のライセンスになるまえに、「IPA2002版」の一部として配付されたもの)へのバックポートの可能性を検討しています。現在の unidic と品詞体系が変わっているので、gtalk および chaone も過去のバージョンに戻すか、unidic 1.1.0 の品詞体系に合わせて最新のエンジンにパッチを当てる必要がありそうです。時間がかかりそうであることと、性能を保証しにくいので、とりあえず現在のバージョンを公開しています。要望が多ければ頑張ってみたいと思うのですが。

    unidic を使わない方法については例えば「島根県CMS」で ipadic (現在はnaist_jdic)への差し替えを行ったものなどがあります。これも「IPA2002版」に対する非公式なパッチがベースです。

    私は技術的な実験についてはお手伝いできますし、私自身も音声合成を使った研究やソフトウェア開発に関してやりたいことはあるのですが、sourceforge はオープンソースコミュニティですので、多くの人に汎用的に役立つように意識しながら、個別の問題を解決することが望ましいと思います。

    ライセンスの問題も大事なのですが、エンジンとしての性能が、商用の技術と比べて、だんだん見劣りしてきていることも問題です。Unidic のアップデートによって必ずしも音声合成エンジンの読み付与精度が上がっていない、という指摘もあります。

    もっと幅広くオープンソースの音声合成技術を概観するとき、 espeak や festival のような多言語化を前提として作られた技術と比べて日本語だけが孤立していることも気になります。オーディオデバイスのインタフェースについても PortAudio ライブラリが普及したり、Linux と Windows いずれについても新しいAPIへの移行が進んでいたり、技術を取り巻く環境は常に変化しています。Mac OS X への対応もまだ実現されていません。

    先ほどNVDA日本語化プロジェクトのミーティングに出席してきました。以前から NVDA に組み込むことができる日本語TTSとして GalateaTalk の検討を続けてきたのですが、GPL で配付されている NVDA は現状の GalateaTalk を同梱して配付する目処が立ちません。espeak エンジンの日本語化を真剣に検討してはどうか、などの議論を行いました。

    私のブログでは繰り返しになりますが、オープンソースプロジェクトが社会的に受け入れられるためには、単に商用ソフトにお金を払いたくないから、といった動機ではなく、「既存のビジネスを破壊しないこと」が重要だと思います。

    スクリーンリーダである NVDA の存在意義の一つは、Web開発者にアクセシビリティの問題を幅広く認知していただくことです。JIS X-8341-3(ウェブコンテンツアクセシビリティガイドライン)の改訂作業が進んでいますが、この分野ではコンテンツの対応と支援技術の対応が連携していなくてはなりません。視覚障害の当時者でない方も含めて、多くの方が「新しい標準に準拠した支援技術」を手軽に入手できる環境が必要です。そうでないと、標準化作業が完了しても、「誰も実際に使うことができないから」という理由で形骸化してしまいます。特に国際協調が必要なWeb技術において、日本だけが技術の進歩に取り残されるのはとても不幸なことです。そのような背景から、Web コンテンツ JIS の改訂に取り組んでおられる方々は NVDA に期待しています。「少なくともNVDAは対応しているから新しい標準に対応してください」とアピールしたい、というわけです。

    Galatea プロジェクトへの要望や批判的な御意見は歓迎です。しかし、ただ批判していただくだけではなく、論理的で客観的な議論のための材料を求めたいと思います。「ライセンスに対して何のためにどういう要求があるか」「何のために、どういう機能や性能のものが必要なのか」「現在使えるリソースは何か」「どう具体的なアクションを起こすか」など、建設的な議論が必要です。今後ともよろしくお願いします。

  • オープンソースと経済活動

    擬人化音声対話エージェントツールキット Galatea Toolkit は、広く人間と機械の音声対話の技術を開発・普及するべく、以下の特長を持つ技術として開発されました。

    • 人間の顔と表情を持ち、音声で対話するエージェントを作成できる
    • 顔、声、音声合成テキスト、認識文法、対話の流れなどがカスタマイズ可能
    • 構成要素(音声認識、音声合成、顔画像合成など)を別々に利用できる
    • オープンソース、無償で利用でき、商用利用も可能

    Galatea Project では2000年~2002年度に情報処理技術振興協会(IPA)の支援 (2000, 2001年度 独創的情報技術育成事業、2002年度 重点領域情報技術開発事業) を受け、財団法人京都高度技術研究所 (ASTEM) とIPAの契約の元に、主に大学の十数名の研究者が協力して開発を行ないました。この成果は2003年に「IPAライセンス版(galatea-linux-ipa および galatea4win-ipa)」としてリリースされました。現在は sourceforge.jp にプロジェクトのサイトを開設しています。

    西本個人も関連する技術情報を提供しています。

    2003年11月から2009年3月まで、情報処理学会 音声言語情報処理(SLP)研究会のもとで音声対話技術コンソーシアム(ISTC) が活動を行い、このツールキットの改良を行いつつ、技術講習会などを行いました。この期間の成果は「IPAライセンス版のアップデート」という形でのリリースを予定しています。

    この活動にずっと関わってきた私は「オープンソースプロジェクトであることの意味」を改めて考え直しているところです。

    すでに商用の音声合成エンジンが複数存在します。一方で、商用のエンジンに依存せず行いたい研究開発や標準化検討などの活動は重要です。

    例えば、スクリーンリーダや音声ブラウザなどのアクセシビリティ支援技術は、そもそも市場が小さく、ビジネスになりにくい、だから、こうした技術に使われる音声合成エンジンが無償であることに意味がある、という意見も頻繁に伺います。

    一方で、ビジネスになるかどうかは「やり方次第」であり、既存のビジネスを破壊することが一方的な正義であってはいけない、という立場も納得できます。

    私はオープンソースを「オープンプロセス=開発プロセスをオープン化した結果として生じる成果」と捉えています。オープンソースの発展は、「インターネットの速度感」に「ソフトウェア開発の速度感」が追いついてきた過程だと思います。その意味で、例えばCVSからGITへとオープンソフト開発のモデルが進化したことを好ましく思います。

    また、いわゆるフリーソフトであることを保証するライセンスとは、利用、配付、改変に関する「コミュニケーションのコスト」を不要にするシステムと捉えています。

    オープンソースソフトウェアでビジネスを行っていただくことは有意義だと私は考えています。既存の市場の構造にとらわれない枠組みを実現することは、新しいビジネスモデルの創出につながると期待できるからです。

    例えば Galatea Toolkit は経済産業省の外郭団体であるIPAから支援を受けており、これは「いずれ経済活動に貢献せよ」という趣旨の支援であったと私は考えています。実際「IPAライセンス版」のツールキットは成果がどのように製品化されているか完全には把握できていませんが、「どこどこのなになには GalateaTalk の合成音声らしい」という話はときどき研究者同士で語られています。

    一方で、プロジェクトの目標が野心的であればあるほど、研究開発には時間がかかります。Galatea Toolkit が本来の目標を達成するためには、技術や世の中の動向を正しく把握しながら、「売り物になる技術」に向かって進化させていく必要があります。企業に取り組んでいただくにはリスクがあります。研究者が本務の合間に取り組む活動としても限界があります。

    この6年間はコンソーシアムという形で活動をさせていただきました。会員の方から多くの御意見を伺うことができ、有意義ではありました。しかし、一方で、コンソーシアムの外部の方から具体的な御要望や依頼をうけたときに、個別に対応させていたくための組織としては若干不適切のようにも感じました。

    例えば、コンソーシアムが開発に関わり、会員向けに配付しているソフトウェアがあるとします。そしてこの技術をベースにある企業が独自に仕様を作って製品を開発したいとします。ベース技術の提供を受けるために会費を払っていただいてコンソーシアムの会員になっていただいたあとで、さらに「カスタマイズについて相談したい」という場合には「ベース技術に詳しい研究者・研究機関と個別に相談」ということになります。そのようなサービスを提供するにあたっては、守秘義務契約なども必要です。新たに技術者を探して作業を依頼する場合もあるでしょう。

    今後の Galatea Toolkit について、私の立場で、こういったサポートを提供する一つの選択肢は、共同研究だと考えています。不自然な枠組みという気もしますが、自分の就業規定と「利益相反」という問題をクリアするにはやむを得ません。

    具体的には、企業の方に、私の所属(東京大学)と共同研究契約を結んでいただき、私から情報提供や技術支援などのサービスを提供することが可能です。必要に応じて、さらに適切なパートナーをご紹介することもありえます。予算については(下限の規定がないので)柔軟に対応できると思います。ただし成果の帰属や公開等について、大学の基本方針に従った契約を結んでいただく必要があります。

    もう一つの可能性として、これまで述べてきた趣旨の活動を遂行する非営利組織の設立が考えられます。具体的には、以下のような考え方の組織です:

    • オープンソースソフトウェア開発に貢献する
    • 用途をなるべく限定せず、多様な応用に対応する技術を育成する
    • オープンソースソフトウェア技術によりビジネスや雇用を創出する
    • 技術の非専門家、ユーザの視点でサポートを行う
    • 秘密保持、知的財産権管理などを適切に行う
    • 商用ソフトウェアに関する既存のビジネスを破壊しない
    • 大学等の研究者にとって望ましい協力関係を構築する
    • 既存のプロジェクトとの活動の重複を避ける
    • 運営や活動方針などの情報を積極的に公開する
    • 自発的に(楽しく)活動する

    もう少し活動の内容を具体的に挙げてみます:

    • ソフトウェアの配付、カスタマイズ用データの提供
    • サポート、カスタマイズ、講習会などの業務
    • 技術情報の提供・執筆
    • 事業者、研究者、開発者などの仲介

    後者は最近読んだ藤井孝一さんの「週末起業」 (ちくま新書)からヒントを得ました。大学に所属して研究と教育以外のことをするのは「週末起業」に似ているように思えて、興味深く感じます。

    「ビジネスの手法で社会に貢献する方法」については、最近考え始めたばかりです。いろいろな立場の方の御意見を伺おうと思っています。既存の組織を活用させていただく場合にも、上記の考察を踏まえて検討をするつもりです。

    自分の関わってきた技術を形にすることについて、これからもいろいろ考えたいと思います。