過去の桐井戸端BBS (桐談義・その他) |
8724 | 松茸4.1の辞書をMS-IMEに変換したい | はつ | 2000/11/22-20:50 |
桐のBBSにこの話題はふさわしくないと思いますが、 他に管理工学ユーザーのBBSがないのでお許しください。 これまで松を使い続けてきており、辞書には専門用語等を登録しまくっています。 windows98seでも、IMEは松茸を愛用しています。 自宅はこれでokなのですが、職場ではMS-IMEを使わざるを得ません。 これまでは職場の仲間がある程度育てた辞書を使って我慢しているのですが、 やはり、自分で育てた辞書をMS-IMEに変換して使ってみたいものです。 MS-IMEでは、テキスト形式の辞書ファイルを読み込む事ができるようですが、その形式の仕様や、 (仮にそれが分かったとしても)松茸の辞書をどの様に変換すれば、最も簡便に移行できるのか、 という情報がネット上を検索しても見当たりません。 どなたかうまい方法(松茸ver3時代の辞書も一応保存していますので、こちらのファイルからの変換方法でもokです。) MS-IMEのほかのIME経由だとうまく行くとか、何でも情報があればお願いします。 長文失礼しました。 | |||
8729 | Re:松茸4.1の辞書をMS-IMEに変換 | 佐田 守弘 | 2000/11/23-00:49 |
記事番号8724へのコメント はつさん 松茸の辞書管理機能を使って、辞書の内容をテキストファイルに出力し、これをMS-IMEに読み込む方法でできるはずです。 注意点として @ユーザー品詞に限った方が良い 併合する際には、品詞はユーザーの品詞の一般名詞、固有名詞、人名、地名、サ変名詞に限った方が無難です。 実は、Windows版の松茸が登場しない頃、松茸3.1に登録していた約3万語のユーザー辞書を含め、 システム品詞も全てMS-IMEに組み込んだ事がありました。 しかし結果は予想に反して惨憺たるもので、変換候補が以上に増えてしまい、却って使いにくいものになってしまいました。 AAI情報は諦めるしかない 松茸辞書にはAI情報は登録されていません。 AI情報とは、「花」には「咲く」が続くが、「割く」は続かないといった情報です。 MS-IMEなどの辞書にはこの様な「つながり方の情報」が登録されています。 そして、ユーザーが辞書登録する場合も、単に読みと漢字、品詞を指定するだけでなく、 「この名詞にはどの動詞がつながるか?」といった情報を登録して行くべきなのです。 これをしないとAI機能が発揮できません。 しかしながら、松茸の辞書にはこの情報がないので、単に読みと漢字、品詞だけの登録になります。 もしAI情報を登録しようとすると、登録語句に手作業でAI情報を付け加えて行く必要があり、膨大な作業になってしまいます。 なお、松茸で「花が割く」ではなく「花が咲く」だけを出すために、「花が咲」をカ変動詞で登録する方法があります。 そして、松茸愛好者の中には、この方法を多用する向きがあります。 その代表的な例が戸田さんの「松茸の素」です。 この様な連続した語句は、松茸には好結果をもたらしますが、MS-IMEには良い結果にはなりません。 なお、最近の仮名漢字変換辞書は、「仮名漢字辞書交換形式」JIS X 4062(1998)に準拠していますので、 出力した辞書情報の大部分を共有できるはずです。 この規格制定には管理工学研究所、ジャストシステムを始め、仮名漢字変換システムを開発している 国内のソフトハウスは参画しております(Microsoftは参加しなかった模様)。 ●参考情報 辞書に関する情報は、私のサイトにも多少ですが掲載してあります。 宜しければ参考にしてみて下さい。 仮名漢字辞書交換形式 http://www.m-sada.com/magazine/GENERAL/JIS_DIC1.html 自動登録品詞の編集と適性品詞での再登録 http://www.m-sada.com/pc/DICMENTE1.html | |||
8744 | ありがとうございます。しかし…… | はつ | 2000/11/24-11:50 |
記事番号8729へのコメント 佐田様 丁寧なご返事ありがとうございました。 下記の様に変換を試みましたが、残念ながらうまく行きませんでした。 どこが間違っているのでしょうか。。。? 松茸が書き出したファイルに何らかの処理が必要なのでしょうか? 再度アドバイスを頂けたらと思います。 お手数をお掛けして申し訳ありません。 どうぞよろしくお願い申し上げます。 ---------- ■松茸4.1からのテキスト書き出し 松茸の[辞書管理] [一覧]タブ [対象品詞]→ユーザ品詞にチェック [ログを出力する]にチェック [実行] ■MS−IMEへの読み込み MS-IMEの[プロパティ] [辞書ツール]ボタン メニューの[ツール]内の、 [テキストファイルからの登録]を選択 [ファイルの種類]→「テキストの自動認識」 ファイルを指定して、[開く] ……すると、 「指定されたファイルは認識できないファイルです。」 というエラーメッセージが出て処理が終了してしまいます。 | |||
8748 | 松茸辞書の出力方法を再確認して下さい | 佐田 守弘 | 2000/11/24-16:48 |
記事番号8744へのコメント はつさん >松茸の[辞書管理] >[一覧]タブ > [対象品詞]→ユーザ品詞にチェック > [ログを出力する]にチェック > [実行] との事ですが、[一覧]のタブにはログの出力はありません。 どこか別のタブで実行してないでしょうか。 辞書一覧のテキストは他のIMEで認識できる形のテキストですが、ログは実行内容と逆の操作 (併合した場合には削除、削除した場合には併合)を指示する松茸辞書専用のコマンド付きのログテキストになります。 このテキストは他のIMEでは利用できないと思います。 佐田守弘(KS-00119) | |||
8754 | すみません。混乱しておりましたがほとんど解決。 | はつ | 2000/11/24-20:22 |
記事番号8748へのコメント 申し訳ありません。 いろいろ試してみていたので、混乱しておりました。 >>松茸の[辞書管理] >>[一覧]タブ >> [対象品詞]→ユーザ品詞にチェック >> [ログを出力する]にチェック >> [実行] ではなく、 ----- 松茸の[辞書管理] [一覧]タブ [対象品詞]→ユーザ品詞にチェック [実行] ----- でした。 が、やはり出力されたファイルそのままではMS-IMEは読み込んでくれませんでした。 その後いろいろ試してみた結果、松茸からの出力ファイルを以下の様に加工する事で、無事読み込む事ができました。 1.出力されたテキストファイルの最初の方にある、「$」を含む数詞の登録を削除する。 2.品詞の後についている「*」を削除する。(「人名*」などの「*」) 3.「一般名詞」という品詞を「名詞」に置換する という加工を施すと、読み込める事が分かりました。 なお、松茸からの出力ファイルの区切り文字は「タブ」でやってみました。 (数詞が変換出来ないのが残念ですが。) お騒がせしましたが、私の試した範囲では、以上の様な結果となりました。 もしよろしければ佐田さんのご意見もお聞かせください。 ありがとうございました。 | |||
8756 | 自己レス:もう1歩前進。 | はつ | 2000/11/24-20:48 |
記事番号8754へのコメント 数詞については、 松茸−辞書管理−一覧からの出力ファイル(前回説明した出力ファイルも「一覧」からの出力です)の品詞を、 「助数詞」に置き換えることで対応可能でした。 ですが、登録はされたものの一部変換に反映されないものもあります。 例えば、、、(読み……語句) $ど……$゜ $かいぶん……$階分 など。 なぜかはまだわかりません。 たびたび失礼いたしました。 | |||
8758 | $は無理です。 | 佐田 守弘 | 2000/11/24-22:16 |
記事番号8756へのコメント はつさん >例えば、、、(読み……語句) > $ど……$゜ > $かいぶん……$階分 >など。 ですが、$を数字に置き換える形で仮名漢字変換するのは松茸独自の機能だと思います。 ですから、この形式の語句は、松茸以外の辞書には利用できません。 MS-IMEにも同様の機能はあるのだろうと思いますが、こちらの方は詳しくありません。 ●前回のコメントで忘れていた事 品詞名に「*」を付けるのも松茸独自の機能でした。松茸の辞書は、システム品詞とユーザー品詞、 それから最近では自動(登録)品詞などを全て1つの辞書に登録しています。そして、システム品詞であるか、 ユーザー品詞であるかの違いを、品詞名の後ろに「*」を付ける事で区別しています 。 ただし、実際には松茸辞書の中でこの様な品詞名が使われているのではなく、1バイトの品詞識別フラグで区別しています。 ですから、書き出した品詞名の「*」を削除する処理が必要でした。 それから、かつて私が松茸辞書をMS-IMEに読み込ませた時には、品詞名の置き換えを行いました。 それは、その時は松茸V3の辞書だったので、品詞名の互換性がないと考え、品詞名の書き替えが必要と考えたからでした。 しかしながら最初のコメントにも書きました通り、JIS(日本工業規格)で仮名漢字辞書交換形式が制定され、 他社の品詞名も自社の品詞名に置き換えて読み込む機能が共有化されたはずです。 とは言え、MSはこの規格制定に参画しなかったので、JISの基準に従っていないのかも知れません (米国のソフトハウスに日本の規格に従えと言う方が難しいのかも)。 佐田守弘(KS-00119) | |||
8764 | ありがとうございました。 | はつ | 2000/11/25-13:57 |
記事番号8758へのコメント 佐田様 ありがとうございました。 「最近の辞書は「仮名漢字辞書交換形式」JIS X 4062(1998)に準拠している」という情報をいただき、 いろいろとファイルをいじってみようという気になりました。そうでなければ、諦めていたかもしれません。 お陰で、松茸で使っていた辞書を殆どMS-IMEに変換することができました。 あとは、キー操作の設定を松茸風に修正すれば言う事なしです(といっても、会社では同僚と共有のパソコンなので、 難しいかもしれませんが…)。 アドバイスありがとうございました。 本当にありがとうございました。 |