2010年5月11日火曜日

Google 日本語入力がオープンソース化、“クラウド辞書”は対象外に

 米Googleは2010年5月10日、同社が開発中のかな漢字変換ソフト(IME)「Google 日本語入力」のソースコードを公開した。オープンソース・プロジェクト名はMozc(もずく)。ライセンスはBSD。ただし公開したのはIME本体と辞書データの一部で、Google 日本語入力の強みであるWeb上のデータから自動生成した辞書データは含まれない。
 Google 日本語入力のベータ版および開発版と、オープンソース版の違いは、対応OSと辞書データである。
 対応OSについては当面、GoogleがLinuxベースで開発中の「Chrome OS」のオープンソース版である「Chromium OS」での実装を主な目的とする。Windows版、Mac OS X版、Linux版は、Chromium OSに次ぐ優先度となる。Linuxディストリビューションでの動作については、Chromium OSのベースとなっているUbuntuのバージョン9.10/10.04でのビルドを確認済みという。
 辞書データについては、GoogleがWebサイトで収集した日本語の文章から自動生成したデータを省略。またカタカナから英語へのシソーラス、郵便番号辞書も除いている。
 Webの情報を基に自動生成した辞書データは新語対応や予測変換などGoogle 日本語入力の差異化ポイントの多くを占める要素である(
関連記事)。同データを非公開とした理由についてGoogleは、「Googleが収集した膨大な単語に加えて、Googleにおける検索のランキング・インデキシング・アルゴリズムを反映した単語の出現頻度情報をIME以外の目的で使われるのは意図するところではないため」と説明している。
 今回公開したオープンソース版は、オープンソースのIMEが使用する辞書として一般的なIPAdicをベースに、表外動詞や形容詞、頻出カタカナ語などを加えたカスタム辞書を含んでいる。
公開を伝えるブログ記事
(高橋 秀和=
ITpro) [2010/05/11]

Google 日本語入力がオープンソース化、“クラウド辞書”は対象外に - ニュース:ITpro http://www.blogger.com/post-create.g?blogID=5409945128066374173

0 件のコメント:

コメントを投稿