連番のH画像/動画を一気にダウンロードする2
■ このスレッドは過去ログ倉庫に格納されています
0001前スレ1
2005/12/26(月) 02:56:22実践されているノウハウを教えていただきたく再度、スレを立てさせてもらいました。
前スレ 連番のH画像を一気にダウンロードする
http://pc8.2ch.net/test/read.cgi/unix/979106537/
0311名無しさん@お腹いっぱい。
2010/02/26(金) 01:23:55Invalid argument at get.pl line 454
とエラーをはくのですが、対処法はありますか?
0312名無しさん@お腹いっぱい。
2010/02/26(金) 02:29:44$ get.pl -l hoge.list
0313名無しさん@お腹いっぱい。
2010/02/26(金) 21:29:27そのように宣言しているつもりなのですがうまくいきません…
0314名無しさん@お腹いっぱい。
2010/02/26(金) 21:44:03OSやperlのバージョンに因るのかな?
MacOS X 10.4.11(PPC) perl, v5.8.6
0315308
2010/02/26(金) 22:27:47ありがとうございます
ついさっき気付いたけど、1ページのみのlistファイルを取得することも可能なんですね
数ページだけの画像をDLしたい場合には、無駄なページを取得する手間が省けますね
0316名無しさん@お腹いっぱい。
2010/02/26(金) 23:18:55XP HomeEdition SP2 perl v5.10.1
で動きません…
0317名無しさん@お腹いっぱい。
2010/02/26(金) 23:42:34>304の最新バージョンで試してみた?
それでダメなら、エラーを起こす行の前に、print で変数の確認やってみて。
0318名無しさん@お腹いっぱい。
2010/02/26(金) 23:59:07やはり動きません…
0319名無しさん@お腹いっぱい。
2010/02/27(土) 00:08:240320名無しさん@お腹いっぱい。
2010/02/27(土) 00:17:02ところでE−HENの制限って80MBくらいなんでしょうか
ルータ再起動して使う分には問題ありませんが大体そのあたりでとまります
0321名無しさん@お腹いっぱい。
2010/02/27(土) 00:45:36これ以上はご迷惑なので失礼します…
0322名無しさん@お腹いっぱい。
2010/03/02(火) 21:16:24ところで、これ管理者権限で実行する必要ないですよね?
管理者権限で実行すると画像の保存先がわからない・・・
0323名無しさん@お腹いっぱい。
2010/03/02(火) 21:50:54CRC A621
CRC32 62B3FF7E
MD5 5F92B5C9A6A45640ED45EF63A545BC29
SHA1 E036679C61FEE1689E75BC780FE1F4D644A127DD
同じ症状の人いないかな
昨日までは普通に落ちてきてたんだけど
うちだけ?
0324名無しさん@お腹いっぱい。
2010/03/02(火) 21:58:17いつまでもイメージタグの "id=" に頼っていては駄目。
このサイト全般に言えることだが "[0-9a-z]{40}-" の様なハッシュ値状の
モノを持つURLをターゲットにした方がよろしいかと。
0325名無しさん@お腹いっぱい。
2010/03/02(火) 23:27:01いろいろと対策強化されてるなぁ
0326名無しさん@お腹いっぱい。
2010/03/02(火) 23:36:070327名無しさん@お腹いっぱい。
2010/03/02(火) 23:51:42@style != "" and @id
かな
0328名無しさん@お腹いっぱい。
2010/03/02(火) 23:53:300329名無しさん@お腹いっぱい。
2010/03/03(水) 00:08:26スクリプトも気を利かせてたまに広告踏んでやる位の優しさは必要だ。
0330名無しさん@お腹いっぱい。
2010/03/03(水) 02:17:26そしたらきちんと待つから
0331名無しさん@お腹いっぱい。
2010/03/03(水) 02:44:1324分待てとか、表示されるし。
もう寝る。
0332名無しさん@お腹いっぱい。
2010/03/03(水) 10:57:100333名無しさん@お腹いっぱい。
2010/03/03(水) 12:34:27それをするとどういう得が……?
0334名無しさん@お腹いっぱい。
2010/03/03(水) 15:27:54画像落とす方がだめだね
0335名無しさん@お腹いっぱい。
2010/03/03(水) 16:34:53>>304のほどフレンドリーじゃないよ
ttp://www1.axfc.net/uploader/Sc/so/88409.zip
>>333 プログラムの見通しが良くなって俺が少しニッコリする
0336名無しさん@お腹いっぱい。
2010/03/03(水) 22:29:29なるほど!
なんとか、出来そうだ。しかし、ファイル名取得が面倒だな。
img id参照して、正規表現にぶっこんでみるか。
0337名無しさん@お腹いっぱい。
2010/03/03(水) 23:43:52自分はオリジナル(?)のファイル名にこだわる必要は無いと思うのだが。
再度ZIPにしてどこかにアップし直す職人なら別だけどね。
実際1つのギャラリーに同じファイル名のものが有ったりするので
重複時の処理をするよりページ番号の連番で振りなおす方がらくだと思うよ。
0338名無しさん@お腹いっぱい。
2010/03/04(木) 00:00:18それも考えたが、なんか悔しいのでimg id参照して正規表現で、取出した。
もっとも、get.plを少改造して、四桁連番+オリジナルファイル名にしている。(重複防止用に)
今のところ、正常にダウンロード出来ているみたい。
0339名無しさん@お腹いっぱい。
2010/03/04(木) 00:06:22でもたまに変な空白が入っていたりするし、万一 alt="/etc/passwd" とか書かれた
場合には備えておきなよ。
0340名無しさん@お腹いっぱい。
2010/03/04(木) 00:21:39>万一 alt="/etc/passwd" とか書かれた
うへぇ、いやすぐる。対策しておこう。ご忠告ありがとう。
0341名無しさん@お腹いっぱい。
2010/03/04(木) 20:01:02get.pl修正のヒントを教えてくだしあ
どうか
0342名無しさん@お腹いっぱい。
2010/03/04(木) 20:08:060343名無しさん@お腹いっぱい。
2010/03/04(木) 21:57:02自分はずっとこれでしのいでいるが、その反面 "509s.gif" 等を美しく検出できずに
悩ましい日を送っているのだよ。なんか堅牢な手法ない?
0344名無しさん@お腹いっぱい。
2010/03/04(木) 22:03:25名前で検出
ステータスコード509そのものを検出
くらいしか思いつかない
0345名無しさん@お腹いっぱい。
2010/03/04(木) 22:37:12ドキュメントのソースを見てて気が付いたんだが、idを持ったイメージタグを全部
抜き出したとき、他に重複しないidを持つのがターゲットだな。それ以外は
上下に表示してるので2個ずつある。
決してスマートとはいえないが画像名やホスト名決め打ちしない分変化には強いかも。
中の人、若干策に溺れた気がしてきたよ。
0346名無しさん@お腹いっぱい。
2010/03/04(木) 23:43:04その中で一番サイズが大きいのを取ってくる……
っていうのはどうだろう。
0347名無しさん@お腹いっぱい。
2010/03/05(金) 18:27:12そんなに変わってないと思うんだけどなぁ・・・
試しに、1枚目の html と 2枚目の html を保存して、WinMerge とかで比較
してみれば、どこの html を引っこ抜いてダウンロードするかわかるんでないの?
0348名無しさん@お腹いっぱい。
2010/03/05(金) 21:04:00楽しいじゃねぇか
0349名無しさん@お腹いっぱい。
2010/03/05(金) 21:49:40暇人なのか?w
0350名無しさん@お腹いっぱい。
2010/03/05(金) 21:56:590351名無しさん@お腹いっぱい。
2010/03/05(金) 22:00:20逆にありがたいが。
0352名無しさん@お腹いっぱい。
2010/03/05(金) 22:24:450353名無しさん@お腹いっぱい。
2010/03/05(金) 22:28:00その「、」の入れ方はゴルゴ13みたいでかっこいいな。
0354名無しさん@お腹いっぱい。
2010/03/05(金) 22:39:43日替わりで変更とか来たら、ある意味面白いな。
0355名無しさん@お腹いっぱい。
2010/03/05(金) 22:45:14これナニ?
例のloli規制の名残?
0356名無しさん@お腹いっぱい。
2010/03/05(金) 22:51:040357午後は@お腹いっぱい
2010/03/06(土) 08:40:28curl -O "http://www.hoge.com/[1-5].jpg"
0358名無しさん@お腹いっぱい。
2010/03/06(土) 12:59:13修正点を教えてください。
0359名無しさん@お腹いっぱい。
2010/03/06(土) 13:00:31なぜか最近Hpricotでページの取得をしたら文字化けしたデータしか取れなくなった
誰か原因は分かりませんかね?
0360名無しさん@お腹いっぱい。
2010/03/06(土) 13:05:020361名無しさん@お腹いっぱい。
2010/03/06(土) 13:31:15取得したデータの文字コードを変換する
0362359
2010/03/06(土) 14:19:11それはもう試してあるんだけど何故か無理だった
一応取得データをそのままファイルとして保存して文字コードをUTF-8にしても文字化けするから
取得データ自体に何か問題があると考えてる
0363名無しさん@お腹いっぱい。
2010/03/06(土) 14:19:45最近加えたプログラムや環境の変更に不具合があると思う。
なければ中の人に「すぐ元に戻せや迷惑なんじゃ何様のつもりじゃ」と訴える。
判らなければ検証用コードを見せてRubyに詳しい人に尋ねる。
0364名無しさん@お腹いっぱい。
2010/03/06(土) 14:26:39get.plも、htmlファイルが落ちてこなくて生のgzipファイルが出来る。
0365名無しさん@お腹いっぱい。
2010/03/06(土) 14:38:280366359
2010/03/06(土) 14:43:52データの拡張子をgzに変更して解凍してみたらそれらしいhtmlファイルが出来たから確かにgzipファイルが原因っぽい
どうやって対策しようものか・・・
rubyでgzipって解凍できたっけ?
0367名無しさん@お腹いっぱい。
2010/03/06(土) 14:56:30良かった解決、じゃなくてどこをどう弄ったらgzipエンコードされたのか原因を知っとかないと
きっとこれからも同じ失敗を何度もするよ。
0368名無しさん@お腹いっぱい。
2010/03/06(土) 15:44:54めんどいからコマンドで対応した。
0369359
2010/03/06(土) 17:06:38今回の問題は、自分がプログラムを弄った為に発生した問題じゃなかったから迷ってたんですよ
E-Hentai側の圧縮転送への仕様変更が原因で発生したからだと思います
もし、それ以前にも圧縮転送をしていたのならば見当違いですけど・・・
ともかく忠告ありがとうございます
プログラムの方はちゃんと再び動くようになりました
0370名無しさん@お腹いっぱい。
2010/03/06(土) 18:57:30おぉぅ、本当だね。試しにリクエストヘッダの 「Content-Encoding: gzip」を消してみたが
サーバは勝手にgzipして送ってくる。以前はこういう場合は平文で送ってきてたのに。
ちなみに圧縮されているかどうかはレスポンスヘッダに書いてあるよ。
HTTP/1.0 200 OK
Server: Apache
Content-Encoding: gzip ←圧縮形式
Content-Type: text/html; charset=UTF-8
Content-Length: 1550 ←これは圧縮された状態のドキュメントサイズ
:
ちなみに自分はdeflateで圧縮されるとチト困るんだが。
0371名無しさん@お腹いっぱい。
2010/03/06(土) 18:59:400372名無しさん@お腹いっぱい。
2010/03/06(土) 20:47:09gzip を decode 出来る(HTTP::Messageを参照).
decode されて is_utf8 なので, そのまま出力すると warning が出るから,
ファイルハンドラの HTML を encoding つきで open するか, binmode で設定する.
具体的には gethtml() の以下の部分.
- open (HTML, "> $sfn") or die $! ;
+ open (HTML, '>:encoding(utf8)', $sfn) or die $! ;
- print HTML $res->content ;
+ print HTML $res->decoded_content ;
gzipped ファイルに必死で matching を試みた俺に乾杯.
でも折角圧縮してくれてるんだから, こっちで decode してやるのが人だと思う.
0373名無しさん@お腹いっぱい。
2010/03/06(土) 23:15:50知らんかったよ勉強になった
0374名無しさん@お腹いっぱい。
2010/03/07(日) 22:53:290375名無しさん@お腹いっぱい。
2010/03/08(月) 00:21:430376名無しさん@お腹いっぱい。
2010/03/08(月) 01:22:06見事わっちも、ひっかりました。以前は、動いていた気がするけど気のせい?
0377名無しさん@お腹いっぱい。
2010/03/08(月) 08:57:131日に20冊くらい良いのが上がるから串踏むようなツールに変えないと
0378名無しさん@お腹いっぱい。
2010/03/08(月) 11:30:29あの41桁のSHA-1らしき何かは逆算できるものなの?
とりあえずURLに画像の大きさと幅と高さが埋め込まれていることしかわからない
0379名無しさん@お腹いっぱい。
2010/03/08(月) 12:04:040380名無しさん@お腹いっぱい。
2010/03/08(月) 12:19:55>あの41桁のSHA-1らしき何かは逆算できるものなの?
逆算してどうするの?
正規表現で取出すだけじゃない
プロクシで、ダウンテスト中だが今のところ落とせている。
0381名無しさん@お腹いっぱい。
2010/03/08(月) 19:27:410382名無しさん@お腹いっぱい。
2010/03/08(月) 20:52:29あんたのHentai間口は俺よりかなりデカイ>>377
0383名無しさん@お腹いっぱい。
2010/03/08(月) 21:32:16まぁ今週金曜の様子を見てからにしなよ。
guestは総Flash化されるかもな。
0384名無しさん@お腹いっぱい。
2010/03/08(月) 23:13:32やりかねん
と言う事でまかせたぞ>383
0385名無しさん@お腹いっぱい。
2010/03/08(月) 23:34:32今は3次ばっかでスルー多いけど、年末年明けは見るの大変でした
0386名無しさん@お腹いっぱい。
2010/03/09(火) 09:05:400387名無しさん@お腹いっぱい。
2010/03/09(火) 09:28:01その辺の巡回取得を先に実装するのが常識?
0388名無しさん@お腹いっぱい。
2010/03/09(火) 09:49:38やっぱこれも込みで自動化せんといかんな
0389名無しさん@お腹いっぱい。
2010/03/09(火) 11:44:400390名無しさん@お腹いっぱい。
2010/03/09(火) 11:49:38aria2cだといけるんだが
0391名無しさん@お腹いっぱい。
2010/03/09(火) 13:14:25潰れてない件
0392名無しさん@お腹いっぱい。
2010/03/09(火) 13:26:59使えるプロクシは、意外と少ない。
おいらは、まったりプロクシ手動設定さ。みんなのおこぼれipでダウンするよ
0393名無しさん@お腹いっぱい。
2010/03/09(火) 17:04:010394名無しさん@お腹いっぱい。
2010/03/09(火) 17:30:03「g_e-hentai_org」を落とそうとするんだが
0395名無しさん@お腹いっぱい。
2010/03/09(火) 17:31:06「g_e-hentai_org」ってのが落ちてくるんだが
0396名無しさん@お腹いっぱい。
2010/03/09(火) 17:40:250397名無しさん@お腹いっぱい。
2010/03/09(火) 18:28:19フランスとか台湾で生きのいい串があったけどああいうのに当たると気持ちいい。
基本どこも重いか既にご使用済みだよね。
おかげでタイムアウトやコネクトがらみのデバッグできちゃったよ。
ともあれ串対応したおかげで302時代より落とせてるかも。
ただ落としたjpg見ると破損してるのあるからレジューム機能も付けんといかんです。
0398名無しさん@お腹いっぱい。
2010/03/09(火) 18:56:22画像なんてオマケです
0399名無しさん@お腹いっぱい。
2010/03/09(火) 19:03:38実際見る時間無いしね。
1枚目の画像見て、びびっと来たのを登録するだけの作業になっている。
1枚目の画像だけありゃいいじゃんみたいに思えてくる。
0400名無しさん@お腹いっぱい。
2010/03/09(火) 21:46:13俺は実際受信した画像データとContent-Length比較して違えばリトライしてるが
0401157
2010/03/09(火) 21:47:14ttp://www1.axfc.net/uploader/Sc/so/90788
DLキーワードは「連番ダウン」です。
0402名無しさん@お腹いっぱい。
2010/03/09(火) 22:03:52otukare
早速質問
getpicsサブルーチンの
if ( -e $img ) は、フォルダー指定抜けてない?
0403名無しさん@お腹いっぱい。
2010/03/09(火) 23:29:44乙豚!!
0404名無しさん@お腹いっぱい。
2010/03/09(火) 23:32:060405名無しさん@お腹いっぱい。
2010/03/10(水) 02:14:01俺もだわ
文字化け発生してびびった
0406名無しさん@お腹いっぱい。
2010/03/10(水) 07:09:15自作ツールから無事コール出来てます
ありがとー
0407名無しさん@お腹いっぱい。
2010/03/10(水) 18:15:48早速>>401のをDLしてみたんだけど、自分には何がなんだかサッパリだったぜ…。
ツールを使用してとかじゃないのかぁ。
0408名無しさん@お腹いっぱい。
2010/03/10(水) 18:30:590409名無しさん@お腹いっぱい。
2010/03/10(水) 21:57:44アイコンをダブルクリックして、ボタンを幾つかクリックしたら
ダウンロード開始みたいな「ツール」を、期待していたのだろう。
でもね、スクリプトも面白いよ。
言い機会だからちょっといじってみなよ
0410名無しさん@お腹いっぱい。
2010/03/10(水) 23:04:13ちょっとした死神博士気分だ。
アジトは古アパートだが。
おっと、ゾル大佐に呼ばれた。イーッ!
■ このスレッドは過去ログ倉庫に格納されています