過去の桐井戸端BBS (桐ver.9) |
21381 | HTMLファイルのソースを取り込むことはできるのでしょうか | 岡崎 | 2003/07/11-23:23 |
はじめまして、 初歩的な質問かもしれませんが、教えてください。 一括処理であるHTMLページのソース(例えばhttp://www.yahoo.co.jp/)を操作なしで、取り込むことは出来るのでしょうか? HELPを見ても見つからなかったのでよろしくおねがいします。 | |||
21382 | Re:HTMLファイルのソースの取り込み | うにん | 2003/07/12-00:12 |
記事番号21381へのコメント リモートから直接は無理でしょう。 外部プログラムでローカルファイルに落とせば可能ですが、 そもそも桐の文字列長が4000文字までなので、任意のソースを読み込むのは不可能です。 適当なところで分割してしまえばいいかもしれませんが。 | |||
21384 | Re:HTMLファイルのソースの取り込み | hidetake | 2003/07/12-00:26 |
記事番号21382へのコメント 落とした後のものをどうするかは別として,ただファイルに落とせば良いと言うのであれば wget が便利です。 wget http://www.yahoo.co.jp/ と実行するだけです。 wget に関してはインターネットで検索すればいくらでも出てきます。 http://www.geocities.jp/horiuchimasaru/wget.html Windows 用のバイナリとしては,下記のものは https(SSL) に対応しているので結構便利です。 それから wget は http も ftp も落とせるので使い方次第で有効活用方法はさまざまです。 ftp://sunsite.dk/projects/wget/windows/ ftp://sunsite.dk/projects/wget/windows/wget-1.8.2b.zip ftp://sunsite.dk/projects/wget/windows/ssllibs.zip | |||
21385 | Re:HTMLファイルのソースの取り込み | 岡崎 | 2003/07/12-00:32 |
記事番号21382へのコメント 夜分に早速のご返事ありがとうございます。 外部プログラムを使わないとだめですか・・・ 一から作るのは難しいでしょうね・・・ そういうソフトがあるか探してみます ありがとうございました。 | |||
21386 | Re:HTMLファイルのソースの取り込み | hidetake | 2003/07/12-00:40 |
記事番号21384へのコメント >そもそも桐の文字列長が4000文字までなので、任意のソースを読み込 >むのは不可能です。 これについては結構やっかいだと思います。 もし途中で改行があるなら1行を1レコードとして取り込む事も可能でしょうが, HTML の場合は何も途中に改行は無くて構わないので, 例えば「管理工学研究所」の掲示板のようなソースに出くわした時は大変だと思います。 http://www2.k3-unet.ocn.ne.jp/board/kiri/board.pl 桐で取り込む前に何らかの前処理をしないと,桐に直接取り込もうとすると問題が生ずると思います。 それに HTML ファイルの文字コードの問題もあります。 http://www.yahoo.co.jp/ だって EUC なので, 文字数の制限がクリアできたとしても,文字コードで Shift_JIS以外のものをどう取り込むか? もしターゲットが決まったもので,文字数とか文字コードの制限が無ければ簡単でしょうが? | |||
21387 | Re:HTMLファイルのソースの取り込み | 岡崎 | 2003/07/12-00:52 |
記事番号21384へのコメント 早速のご返事ありがとうございます、 探しに行こうかと思っていたのですが、 ダウンロードするファイルはある程度決まっているので実際に取り込みたいのは http://www.amazon.co.jp/exec/obidos/ASIN/4166603302/qid%3D1057938954/250-4556468-1529006 この書式の中から欲しいデータが取り出せればいいので、なんとかいけそうです。 ありがとうございました。 |