トップページ | 過去記事(月別カテゴリー別) | 掲示板 | 野良DEB,RPM | 更新チェック | Twitter
<<  2010.7  >>
SMTWTFS
    123
45678910
11121314151617
18192021222324
25262728293031
 
リンク
その他
  • RSS2.0
  • Credit

  • SEO
    loading

    プライバシーポリシー
    Google

カテゴリー » Linux July 19, 2010

Mozc+dict: 辞書を強化した(変態化した?)Mozcを作ってみた Linux

大規模語彙データが含まれていないMozcは、Google日本語入力に比べて固有名詞の変換に弱いです。長い入力が必要なことが多い固有名詞が少ないと、せっかくの予測変換も魅力が薄れてしまいます。そこで、少しでもGoogle日本語入力っぽくなればと、色々な語句を追加したMozcを作ってみました。

Mozc+dictという名前で配布してみる。

★Mozc+dictの特徴
(これより下の画像は「サジェストの最大候補数」を 9 にして撮影)
1. 新語・流行語・アニメ・その他諸々を追加


2. 俗語・ネットスラングなども追加


3. 基本的な言葉を追加したり直したり(案外Mozcは語彙が抜けている)


   





   

  



  
      

【注意】この記事は ver-0.13.523.102 の時に書きました。違うバージョンでは修正されているかもしれません

4. もしかして機能(よくある誤字・誤用を修正)
現段階では対応している単語は少ない。ちまちま増やしていく。
上の画像は scim-mozc です。ibus-mozc は <もしかして> が表示されません

5. 郵便番号辞書を正確にした
Mozc本体に同梱されている郵便辞書作成スクリプト(gen_zip_code_seed.py)は、仕様が無茶苦茶な郵便番号データに対応しきれていません。その辺を少し修正。
★インストール
Ubuntu(Debian)とFedora(CentOS・Scientific Linux)用のDeb/RPMをリポジトリに置きました。インストール方法は APT/YUM の設定をした後、
•Ubuntuの場合
mozc-server+dict と ibus-mozc を入れればOK。コマンドでやるなら
$ sudo apt-get update && sudo apt-get -y install mozc-server+dict ibus-mozc
 
•Fedoraの場合 mozcがインストール済みだったら、一度消す必要がある $ su # rpm -e --nodeps mozc # yum -y install mozc+dict ibus-mozc
 
•PCLinuxOSの場合 tomcatさんがパッケージを作ってくれています → Operation Normal ? | mozc+sawadict パッケージ for PCLinuxOS
そして、初めてMozcを使う人はこちらに書いたiBusの設定をしてください。もう既にMozcを動かしている場合は、iBusの設定そのままで mozc_server を再起動する必要があります。やり方が分からないならOSごと再起動すればOKです(何もしなくても更新されるようになった気がする)

「バージョン」を変換して「Mozc+dict-〜」と表示されたらインストール成功です。

★ユーザー辞書として使う
Google-IME用のユーザー辞書形式に変換したファイルを置いときます
file/mozc/ (システム辞書形式のファイルも入っています)
私の胡散臭いリポジトリを使いたくない人は、これを辞書ツールからインポートすればいいです。ただし、ユーザー辞書は優先度調整ができません(全ての語句が一律に高い優先度になる?)。システム辞書として本体に組み込んだときよりも、変換が変になりやすいです。例えば「いちごいちえ」の第一候補が「一期一会」ではなく、追加辞書の「一五一会」「苺いちえ」になる可能性が高い。

★既知の不具合
1. 読みが17文字以上あるはずなのに16文字までしか付いていない
辞書の作成に利用させてもらっているはてなダイアリーキーワードふりがなリストの仕様です。Yahoo!のテキスト解析Web APIを使ってだいぶ修正しましたが、自動で振り仮名が取れない語句も沢山あって、まだチェックしきれていません。Tabで予測変換してください。
(例:こうれいしゃのきょじゅうのあんて→高齢者の居住の安定確保に関する法律)
2. 読みと単語が全然違う語句がある
はてなキーワードの仕様です。見つけ次第、修正する
(例:さとり→小五ロリ)
3. 誤字がある
見つけ次第、修正する
(例:がまごおしり[蒲郡市]→がまごおりし)

★その他
自然言語処理の素人が作っています。全体的に標準辞書より優先度を低めにしているので、極端に変なことにはならないと思いますが、変換精度が悪化している部分もあるはずです。その辺、ご理解の程を…

それと、Mozc+dictの不具合をGoogleに送らないでくださいね。あくまで別モノです。

★ToDo
  • 定期的に新語を追加
  • リスト::誤記の誤字を消す(済)
  • 他の不要な語句も消す
  • 品詞を直す
  • ことわざ、四字熟語を増やす酔生夢死のTHUさんにお世話していただきました。ありがとうございます。
  • 辞書を大きくしたからといって良くなるとは限らないだろうけど、まあ、色々してみようかなっと

★他の辞書の紹介
09:50 pm | コメントする |

上の記事に対するコメント


31. けんけん (Website)  2011/07/12 14:54
私のblogでsawaさんお手製のmozc辞書のお知らせありがとうございます。
郵便番号が出るヨォ。ネットのスラングもいっぱい出る〜〜♪
素敵です。

私のblogコメで書きましたが、
郵便番号、***-****を
sed s/-// user-dict-postal.txt > user-dict-postal-no-bar.txt
して、user-dict-postal-no-bar.txtを辞書追加すれば、
********変換で住所変換出来ます。
-アリが必要かどうかは個人差があるかな?

32. Owner CommentSawa  2011/07/13 08:45
Anthyを長く使っている人は、ハイフンがあると違和感を覚えるかもしれませんね。

どちらかというと、ハイフン有りの方が一般的なようです。MS-IMEやGoogle日本語入力の郵便番号辞書はハイフン付きだし、たしかATOKもそうだったような(設定で変えられたかも)

33. NONAME  2011/07/16 20:57
> どちらかというと、ハイフン有りの方が一般的なようです。
> MS-IMEやGoogle日本語入力の郵便番号辞書はハイフン付きだし、たしかATOKもそうだったような(設定で変えられたかも)

Mozcの場合、サジェストもありますからね。
郵便番号辞書をハイフンなしにすると、表計算ソフトや金額の入力とかで長い数字を入力するたびに住所がサジェストされて鬱陶しいことになったりして。

34. morikuma  2012/03/08 01:35
Win版Mozcで使わせていただいてます。変換がこれ以上ないくらいピッタリくるので大変重宝してます。
ありがとうございました。

35. Owner CommentSawa  2012/03/09 01:05
そういえば、Windowsでもビルドすれば使えるんでしたっけ。
私もやってみようかな。

36. morikuma  2012/03/10 03:16
非常に使いやすく重宝しております。

手持ちのThinkPad R40にUbuntu11.10を入れたので早速使わせてもらってます。
自分にとってはもう「必須アプリ」となってしまいましたw

友人達にも好評です。

37. NONAME  2012/04/02 23:27
今までmozcで電話番号を楽に入力していたのに
mozc+dictをインストールしたら予測に出てこなくなりました。
バグですか?

38. Owner CommentSawa  2012/04/03 00:27
最近のGoogle日本語入力は、英数字だけの入力をサジェストしないようになりました。
http://blog.cnu.jp/2012/02/01/mozc-suggest/

39. NONAME  2012/04/03 18:06
そこに書いてるようにIsPrivacySensitive関数を無効化(コメントアウト)してmozc+dictを作りなおしてください

40. Owner CommentSawa  2012/04/04 00:22
嫌です。自分でやってください。

それと、電話番号はハイフン付きだと覚えますよ。
または全角文字を一文字入れるとか。

41. NONAME  2012/04/08 03:17
覚えないよ。全角入れても。

42. Owner CommentSawa  2012/04/11 01:08
ありゃ、GoogleJapaneseInput-1.3.974.0 で確認しながら書いたのですが、Mozc-1.4と挙動が違いますね。

43. YP  2012/05/04 16:31
こんにちは。
憩いの場のPPAを登録し、Synapticパッケージマネージャーからubuntu 12.04にmozc-server+dictをインストールしようとしたところ、次のようなメッセージが出て止まってしまいました。
mozc-serverは正常にインストール可能です。

(データベースを読み込んでいます ... 現在 177696 個のファイルとディレクトリがインストールされています。)
(.../mozc-server+dict_1%3a1.4.1033.102-1+20120402~ppa5_i386.deb から) mozc-server+dict を展開しています...
dpkg-deb (サブプロセス): コピー中にパイプへの書き込みに失敗しました のバッファコピーの読み取りに失敗しました: 入力/出力エラーです
xz: (stdin): 予期せず入力が終了しました
dpkg-deb (サブプロセス): サブプロセス データ はエラー終了ステータス 1 を返しました
dpkg-deb: error: サブプロセス <伸張> はエラー終了ステータス 2 を返しました
dpkg: /var/cache/apt/archives/mozc-server+dict_1%3a1.4.1033.102-1+20120402~ppa5_i386.deb の処理中にエラーが発生しました (--unpack):
`./usr/lib/mozc/mozc_server' 間の dpkg-deb バックエンド のバッファコピーの読み取りが不十分です
MaxReports にすでに達しているため、レポートは書き込まれません
以下のパッケージの処理中にエラーが発生しました:
/var/cache/apt/archives/mozc-server+dict_1%3a1.4.1033.102-1+20120402~ppa5_i386.deb
E: Sub-process /usr/bin/dpkg returned an error code (1)
パッケージのインストールに失敗しました。修復を試行しています:

何か対処法はありますでしょうか。

44. Owner CommentSawa  2012/05/04 23:10
ダウンロード中にファイルが破損したか、ディスクが壊れかけかのどちらか、かな?

キャッシュを消して再試行したらどうでしょうか
$ sudo apt-get clean
$ sudo apt-get install -f mozc-server+dict

45. YP  2012/05/05 01:05
せっかく回答をいただいたのに申し訳ないのですが,ubuntuを再インストールしてlubuntuに変えた上で入れ直したら正常にインストールできました。
アドバイスありがとうございました。

46. NONAME  2012/09/12 00:49
Mozc+dictにお世話になっています。いつも更新ありがとうございます。
Mozc+dictのライセンスについて質問があります。

最近、Mozc+dict付属のREADME.txtに

> ただし、いろいろあって、商用利用は駄目です

と書かれているのに気づきました。PPAで公開できるソフトウェアのライセンスは、
https://help.launchpad.net/PPATermsofUse
に挙げられているものに限られていたと理解しているのですが、Mozc+dictの具体的なライセンスは何にあたるのでしょうか?
よろしくお願いいたします。

47. Owner CommentSawa  2012/09/12 08:14
こんにちは。
Ubuntuの分類では、nvidiaやfglrxのドライバと同じrestricted(制限付き)に当たりますね。

利用させてもらっている
http://www7b.biglobe.ne.jp/~kenken_y/zipcsv/zip01.html
の関係で、そういう文言になっています。

何か問題があるのなら教えてください <(_ _)>

48. NONAME  2012/09/12 10:37
mozc-derver+dictとmozc-utils-guiをインストールしようとしたところ、

以下のパッケージには満たせない依存関係があります:
mozc-server+dict : 先行依存: mozc-utils-gui (>= 1:1.6.1187.102) しかし、1:1.6.1187.102-0~ppa5 はインストールされようとしています
E: 問題を解決することができません。壊れた変更禁止パッケージがあります。

のメッセージが出てインストールできませんでした。
ひょっとしてどちらかのパッケージの内部バージョンが間違えているとかそういうことはないでしょうか。

49. NONAME  2012/09/12 11:54
私も、mozc-server+dictとmozc-utils-guiのインストールで
「壊れた変更禁止パッケージ」のエラーでインストールできませんでした。

なお、「mozc-server」のパッケージも同様のエラーが出ます。

50. またまた∞帰ってきた某所の匿名  2012/09/12 17:28
dictだけアップグレードされなかったな

51. yukoba  2012/09/13 00:11
>>48~50
1:1.6.1187.102-1+20120911~ppa5 で直ってますよ。

52. Owner CommentSawa  2012/09/13 00:15
アホな単純ミスをしてしまいました。
apt-get updateすれば直ると思います。

53. NONAME  2012/09/13 00:52
>>48
> Ubuntuの分類では、nvidiaやfglrxのドライバと同じrestricted(制限付き)に当たりますね。

それが、Ubuntu restrictedは「非商用利用のみ」のような条項を禁止しているのです。

http://www.ubuntu.com/project/about-ubuntu/licensing
> Must not discriminate against persons, groups or against fields of
> endeavour. The licence of software included in Ubuntu can not
> discriminate against anyone or any group of users and cannot restrict
> users from using the software for a particular field of endeavour
> - a business for example. So we will not distribute software that is
> licensed "freely for non-commercial use".

このままでは、Mozc+dictがPPAの利用規約違反になってしまうのではないかと心配する次第です。

54. またまた∞帰ってきた某所の匿名  2012/09/13 15:12
割り込み済まぬ。
PPAで利用されるソフトウェアが、Ubuntuの利用規約に準ずるという項目はどこにあるのですか?
PPAのソフトウェアは、Cannonicalが管理してるけど、Ubuntuの正規ソフトウェアではありません。

55. またまた∞帰ってきた某所の匿名  2012/09/13 15:49
ごめん>>46の文言ですね。
前言取り消します。

56. Owner CommentSawa  2012/09/13 20:30
おおお? 問題があるようですね。
いい機会だし、+dictの公開を中止しようかな。
あとでオリジナルのMozcに切り替わるパッケージをPPAにUPします。

ところで話が変わりますが、先日発生した依存関係エラーは、
私がdebのバージョンの優先度を知らなかったのが原因です。

1.0-0 < 1.0 < 1.0-1

こうなるのですね…
アホな失敗をしました。


累計:2803156、今日:82、昨日:858
Created in 0.0103 sec.