トップページunix
1001コメント292KB

連番のH画像/動画を一気にダウンロードする2

■ このスレッドは過去ログ倉庫に格納されています
0001前スレ12005/12/26(月) 02:56:22
前スレ5年間のご愛顧ありがとうございました。PGFは無事コンプしましたが、これからも皆様の日々
実践されているノウハウを教えていただきたく再度、スレを立てさせてもらいました。
前スレ 連番のH画像を一気にダウンロードする
http://pc8.2ch.net/test/read.cgi/unix/979106537/
0341名無しさん@お腹いっぱい。2010/03/04(木) 20:01:02
VBやJavaをちょっぴり出来る人向けに
get.pl修正のヒントを教えてくだしあ
どうか
0342名無しさん@お腹いっぱい。2010/03/04(木) 20:08:06
ヒントは>>324
0343名無しさん@お腹いっぱい。2010/03/04(木) 21:57:02
書いた者だが申し訳ない、16進表記なので"[0-9a-f]{40}-"だったね。
自分はずっとこれでしのいでいるが、その反面 "509s.gif" 等を美しく検出できずに
悩ましい日を送っているのだよ。なんか堅牢な手法ない?
0344名無しさん@お腹いっぱい。2010/03/04(木) 22:03:25
サイズで検出
名前で検出
ステータスコード509そのものを検出

くらいしか思いつかない
0345名無しさん@お腹いっぱい。2010/03/04(木) 22:37:12
イメージのidの値が解析できりゃ良いんだけどなと思いながら>>343を書いた後
ドキュメントのソースを見てて気が付いたんだが、idを持ったイメージタグを全部
抜き出したとき、他に重複しないidを持つのがターゲットだな。それ以外は
上下に表示してるので2個ずつある。
決してスマートとはいえないが画像名やホスト名決め打ちしない分変化には強いかも。
中の人、若干策に溺れた気がしてきたよ。
0346名無しさん@お腹いっぱい。2010/03/04(木) 23:43:04
個別の画像ページにある画像のhttpヘッダを全部取得、
その中で一番サイズが大きいのを取ってくる……
っていうのはどうだろう。
0347名無しさん@お腹いっぱい。2010/03/05(金) 18:27:12
対策されても、ブラウザーでまともに表示されるのであれば
そんなに変わってないと思うんだけどなぁ・・・

試しに、1枚目の html と 2枚目の html を保存して、WinMerge とかで比較
してみれば、どこの html を引っこ抜いてダウンロードするかわかるんでないの?

0348名無しさん@お腹いっぱい。2010/03/05(金) 21:04:00
いってるはじからこれかよ。
楽しいじゃねぇか
0349名無しさん@お腹いっぱい。2010/03/05(金) 21:49:40
また、http://g.e-hentai.orgの仕様変わったの?
暇人なのか?w
0350名無しさん@お腹いっぱい。2010/03/05(金) 21:56:59
ふぅ、しょーもない姑息な手を使いやがって...ずっこけちゃったじゃないか。
0351名無しさん@お腹いっぱい。2010/03/05(金) 22:00:20
なんかシンプルなhtmlに、なってるな。
逆にありがたいが。
0352名無しさん@お腹いっぱい。2010/03/05(金) 22:24:45
新しいのでも古いのでも、divセクションの最初のネストのhrefとimgがそれってことでOK?
0353名無しさん@お腹いっぱい。2010/03/05(金) 22:28:00
>>351
その「、」の入れ方はゴルゴ13みたいでかっこいいな。
0354名無しさん@お腹いっぱい。2010/03/05(金) 22:39:43
ダウンローダー対策なんだろうけど、今回は矢継ぎ早だな。
日替わりで変更とか来たら、ある意味面白いな。
0355名無しさん@お腹いっぱい。2010/03/05(金) 22:45:14
先ほどダウンした画像(g.e-hentai.org)の中に、403.gifが一枚だけあるんだけど?
これナニ?
例のloli規制の名残?
0356名無しさん@お腹いっぱい。2010/03/05(金) 22:51:04
403は403だろ。404の友達みたいなものだ。
0357午後は@お腹いっぱい2010/03/06(土) 08:40:28
Darwin上で下記とするがうまく行かず。落とす事は落とすぞ
curl -O "http://www.hoge.com/[1-5].jpg"
0358名無しさん@お腹いっぱい。2010/03/06(土) 12:59:13
get.plですが、get html : error. (400 URL missing)となります。
修正点を教えてください。
0359名無しさん@お腹いっぱい。2010/03/06(土) 13:00:31
自分はrubyでE-Hentaiの画像自動取得のプログラムを作ってるんだけど、
なぜか最近Hpricotでページの取得をしたら文字化けしたデータしか取れなくなった
誰か原因は分かりませんかね?
0360名無しさん@お腹いっぱい。2010/03/06(土) 13:05:02
俺なんか普通に閲覧しようとしても文字化けだよ
0361名無しさん@お腹いっぱい。2010/03/06(土) 13:31:15
>>359
取得したデータの文字コードを変換する
03623592010/03/06(土) 14:19:11
>>361
それはもう試してあるんだけど何故か無理だった
一応取得データをそのままファイルとして保存して文字コードをUTF-8にしても文字化けするから
取得データ自体に何か問題があると考えてる
0363名無しさん@お腹いっぱい。2010/03/06(土) 14:19:45
>>359
最近加えたプログラムや環境の変更に不具合があると思う。
なければ中の人に「すぐ元に戻せや迷惑なんじゃ何様のつもりじゃ」と訴える。
判らなければ検証用コードを見せてRubyに詳しい人に尋ねる。
0364名無しさん@お腹いっぱい。2010/03/06(土) 14:26:39
文字化けじゃなくてgzipエンコードじゃね?
get.plも、htmlファイルが落ちてこなくて生のgzipファイルが出来る。
0365名無しさん@お腹いっぱい。2010/03/06(土) 14:38:28
でも前は今のままでもうまく行ってたんだろ?
03663592010/03/06(土) 14:43:52
>>364
データの拡張子をgzに変更して解凍してみたらそれらしいhtmlファイルが出来たから確かにgzipファイルが原因っぽい
どうやって対策しようものか・・・
rubyでgzipって解凍できたっけ?
0367名無しさん@お腹いっぱい。2010/03/06(土) 14:56:30
>>366
良かった解決、じゃなくてどこをどう弄ったらgzipエンコードされたのか原因を知っとかないと
きっとこれからも同じ失敗を何度もするよ。
0368名無しさん@お腹いっぱい。2010/03/06(土) 15:44:54
gzipコマンド呼び出して対応するか、content_encoding対応したモジュール使うか?
めんどいからコマンドで対応した。
03693592010/03/06(土) 17:06:38
>>367
今回の問題は、自分がプログラムを弄った為に発生した問題じゃなかったから迷ってたんですよ
E-Hentai側の圧縮転送への仕様変更が原因で発生したからだと思います
もし、それ以前にも圧縮転送をしていたのならば見当違いですけど・・・
ともかく忠告ありがとうございます

プログラムの方はちゃんと再び動くようになりました
0370名無しさん@お腹いっぱい。2010/03/06(土) 18:57:30
>>369
おぉぅ、本当だね。試しにリクエストヘッダの 「Content-Encoding: gzip」を消してみたが
サーバは勝手にgzipして送ってくる。以前はこういう場合は平文で送ってきてたのに。

ちなみに圧縮されているかどうかはレスポンスヘッダに書いてあるよ。

HTTP/1.0 200 OK
Server: Apache
Content-Encoding: gzip ←圧縮形式
Content-Type: text/html; charset=UTF-8
Content-Length: 1550 ←これは圧縮された状態のドキュメントサイズ
   :

ちなみに自分はdeflateで圧縮されるとチト困るんだが。
0371名無しさん@お腹いっぱい。2010/03/06(土) 18:59:40
ごめん削ったのは「Accept-Encoding」が正しい。
0372名無しさん@お腹いっぱい。2010/03/06(土) 20:47:09
get.pl だけど, gethtml() の $res->content を decoded_content にすれば 
gzip を decode 出来る(HTTP::Messageを参照).
decode されて is_utf8 なので, そのまま出力すると warning が出るから,
ファイルハンドラの HTML を encoding つきで open するか, binmode で設定する.

具体的には gethtml() の以下の部分.
- open (HTML, "> $sfn") or die $! ;
+ open (HTML, '>:encoding(utf8)', $sfn) or die $! ;
- print HTML $res->content ;
+ print HTML $res->decoded_content ;

gzipped ファイルに必死で matching を試みた俺に乾杯.
でも折角圧縮してくれてるんだから, こっちで decode してやるのが人だと思う.
0373名無しさん@お腹いっぱい。2010/03/06(土) 23:15:50
LWP::UserAgentって、gzipデコードできるんだ
知らんかったよ勉強になった
0374名無しさん@お腹いっぱい。2010/03/07(日) 22:53:29
早速対応したんだけど今回509の時間ちょーなげー
0375名無しさん@お腹いっぱい。2010/03/08(月) 00:21:43
今回はgzipよりamp;につかまった
0376名無しさん@お腹いっぱい。2010/03/08(月) 01:22:06
文字参照の落とし穴
見事わっちも、ひっかりました。以前は、動いていた気がするけど気のせい?
0377名無しさん@お腹いっぱい。2010/03/08(月) 08:57:13
1ip1日100枚前後になっちった
1日に20冊くらい良いのが上がるから串踏むようなツールに変えないと
0378名無しさん@お腹いっぱい。2010/03/08(月) 11:30:29
ehgの画像URLだけど、
あの41桁のSHA-1らしき何かは逆算できるものなの?
とりあえずURLに画像の大きさと幅と高さが埋め込まれていることしかわからない
0379名無しさん@お腹いっぱい。2010/03/08(月) 12:04:04
イーヘンタイ潰れてるやんw
0380名無しさん@お腹いっぱい。2010/03/08(月) 12:19:55
>>378
>あの41桁のSHA-1らしき何かは逆算できるものなの?
逆算してどうするの?
正規表現で取出すだけじゃない

プロクシで、ダウンテスト中だが今のところ落とせている。
0381名無しさん@お腹いっぱい。2010/03/08(月) 19:27:41
はやくツール改修してうpしてよ
0382名無しさん@お腹いっぱい。2010/03/08(月) 20:52:29
棚に上げて人の志向に文句は言わないけど
あんたのHentai間口は俺よりかなりデカイ>>377
0383名無しさん@お腹いっぱい。2010/03/08(月) 21:32:16
>>381
まぁ今週金曜の様子を見てからにしなよ。
guestは総Flash化されるかもな。
0384名無しさん@お腹いっぱい。2010/03/08(月) 23:13:32
静止画見る程度でflash化とか
やりかねん
と言う事でまかせたぞ>383
0385名無しさん@お腹いっぱい。2010/03/08(月) 23:34:32
>>382
今は3次ばっかでスルー多いけど、年末年明けは見るの大変でした
0386名無しさん@お腹いっぱい。2010/03/09(火) 09:05:40
駄目だ。ツールは出来たがお前らとの壮絶な公開IPの奪い合いに勝てる気がしない。
0387名無しさん@お腹いっぱい。2010/03/09(火) 09:28:01
どのipもe-henご使用済みだなおい
その辺の巡回取得を先に実装するのが常識?
0388名無しさん@お腹いっぱい。2010/03/09(火) 09:49:38
やーっと未使用IP発見
やっぱこれも込みで自動化せんといかんな
0389名無しさん@お腹いっぱい。2010/03/09(火) 11:44:40
e hentai潰れてもうた
0390名無しさん@お腹いっぱい。2010/03/09(火) 11:49:38
wgetがUA変更しても動かないな
aria2cだといけるんだが
0391名無しさん@お腹いっぱい。2010/03/09(火) 13:14:25
>>389
潰れてない件
0392名無しさん@お腹いっぱい。2010/03/09(火) 13:26:59
未使用プロクシを発見しても速度が、遅かったりエラー頻発したりで
使えるプロクシは、意外と少ない。
おいらは、まったりプロクシ手動設定さ。みんなのおこぼれipでダウンするよ
0393名無しさん@お腹いっぱい。2010/03/09(火) 17:04:01
>>389 入れないんだが
0394名無しさん@お腹いっぱい。2010/03/09(火) 17:30:03
E-Hentai Galleries 入ろうとすると
「g_e-hentai_org」を落とそうとするんだが
0395名無しさん@お腹いっぱい。2010/03/09(火) 17:31:06
E-Hentai Galleriesに入ろうとすると
「g_e-hentai_org」ってのが落ちてくるんだが
0396名無しさん@お腹いっぱい。2010/03/09(火) 17:40:25
お茶でも飲んで落ち着け
0397名無しさん@お腹いっぱい。2010/03/09(火) 18:28:19
>>392
フランスとか台湾で生きのいい串があったけどああいうのに当たると気持ちいい。
基本どこも重いか既にご使用済みだよね。
おかげでタイムアウトやコネクトがらみのデバッグできちゃったよ。
ともあれ串対応したおかげで302時代より落とせてるかも。
ただ落としたjpg見ると破損してるのあるからレジューム機能も付けんといかんです。
0398名無しさん@お腹いっぱい。2010/03/09(火) 18:56:22
そして、手段が目的になるとw
画像なんてオマケです
0399名無しさん@お腹いっぱい。2010/03/09(火) 19:03:38
>>398
実際見る時間無いしね。
1枚目の画像見て、びびっと来たのを登録するだけの作業になっている。
1枚目の画像だけありゃいいじゃんみたいに思えてくる。
0400名無しさん@お腹いっぱい。2010/03/09(火) 21:46:13
>>397
俺は実際受信した画像データとContent-Length比較して違えばリトライしてるが
04011572010/03/09(火) 21:47:14
対策版ができました。
ttp://www1.axfc.net/uploader/Sc/so/90788
DLキーワードは「連番ダウン」です。
0402名無しさん@お腹いっぱい。2010/03/09(火) 22:03:52
>>401
otukare

早速質問
getpicsサブルーチンの
if ( -e $img ) は、フォルダー指定抜けてない?
0403名無しさん@お腹いっぱい。2010/03/09(火) 23:29:44
>>401
乙豚!!
0404名無しさん@お腹いっぱい。2010/03/09(火) 23:32:06
あげてしもた…すまんこ
0405名無しさん@お腹いっぱい。2010/03/10(水) 02:14:01
>>393
俺もだわ
文字化け発生してびびった
0406名無しさん@お腹いっぱい。2010/03/10(水) 07:09:15
>>401
自作ツールから無事コール出来てます
ありがとー
0407名無しさん@お腹いっぱい。2010/03/10(水) 18:15:48
1枚1枚の保存が面倒臭い…と思って、何か良い手はないかと思ってたらこのスレを見つけた。
早速>>401のをDLしてみたんだけど、自分には何がなんだかサッパリだったぜ…。
ツールを使用してとかじゃないのかぁ。
0408名無しさん@お腹いっぱい。2010/03/10(水) 18:30:59
ツールじゃん。
0409名無しさん@お腹いっぱい。2010/03/10(水) 21:57:44
まあ、気持ちも分かる
アイコンをダブルクリックして、ボタンを幾つかクリックしたら
ダウンロード開始みたいな「ツール」を、期待していたのだろう。
でもね、スクリプトも面白いよ。
言い機会だからちょっといじってみなよ
0410名無しさん@お腹いっぱい。2010/03/10(水) 23:04:13
やられる度に改造を加えて送り出す。
ちょっとした死神博士気分だ。
アジトは古アパートだが。
おっと、ゾル大佐に呼ばれた。イーッ!
04111572010/03/11(木) 00:19:47
>>402
確かに抜けてますね
これじゃ何やってるか分からないですね
今までエラーが出なかったのでセーフだと思ってました
エラーがでないのも当たり前です
機を見て直しておきます
0412名無しさん@お腹いっぱい。2010/03/11(木) 11:08:48
>>389
>>393
>>405
プニルでは変な文字列
IEとか火狐だと入れる
原因ワカンネ
0413名無しさん@お腹いっぱい。2010/03/11(木) 15:15:12
509に引っかかった
長いな
0414名無しさん@お腹いっぱい。2010/03/11(木) 16:04:19
大体150枚ほど落とすと帯域制限になって、その後1~2時間待つと
50枚くらい落とせるのが、最近のパータンじゃない?
たまに、サービスデーで300枚くらいまで制限が来ない日も有るけどね。

ルーターをリセットするなり、プロクシかますとかでなんとかなる。
0415名無しさん@お腹いっぱい。2010/03/11(木) 22:39:10
>>407
e-hentaiは複雑だから、そこらのフリーソフトみたいにURL入れてフォルダ選んで保存押すだけって訳にはいかないんじゃない
0416名無しさん@お腹いっぱい。2010/03/11(木) 22:59:00
スクリプトで出来ることはEXEでもできるだろう。GUIかぶせれば需要あるのかも。
変化に追従できるようHTML解析部をDLL化したりしてね。
自分は人の褌で取る相撲にそこまでの製作意欲も沸かないが。
0417名無しさん@お腹いっぱい。2010/03/11(木) 23:03:06
ttp://docs.google.com/Doc?docid=0AeltqkDlc95RZGNxdGJtd3ZfMGdtMnNudmM5&hl=en
もうある
exeだし怪しすぎて確認してないけど
0418名無しさん@お腹いっぱい。2010/03/11(木) 23:47:44
よし、人柱してみる。
安全の為に仮想環境のxpで。
うん、普通に落とせる。
しかし、これはスクリプトをランチする為のだけに
4.6MBのファイルをインストールするのか。
つーか、アイコンをダブルクリックしたらコマンド画面で
ギャラリーのURLをペーストするだけ。
正直GUIもくそもねえ。
0419名無しさん@お腹いっぱい。2010/03/11(木) 23:56:49
>>418
ウイルスチェックは?
0420名無しさん@お腹いっぱい。2010/03/12(金) 00:00:14
>>419
テスト用環境だから、してない。
いざとなったらマスターからもどすだけ。
ほぼ素の状態のxpで、テストしている。
0421名無しさん@お腹いっぱい。2010/03/12(金) 00:43:06
>>417
ウイルス注意
0422名無しさん@お腹いっぱい。2010/03/12(金) 01:21:22
うーむ>>401入れてperl突っ込んでスクリプト実行して
動作してるようで一枚も落とせなくて全俺が泣いた
0423名無しさん@お腹いっぱい。2010/03/12(金) 02:13:29
なんかエラー出るだろ
0424名無しさん@お腹いっぱい。2010/03/12(金) 06:41:56
前回の401から24時間以上置いて再度実行したらたった2枚で終了したぜ
いろいろ厳しくなってるのか、
0425名無しさん@お腹いっぱい。2010/03/12(金) 07:39:03
昨夜から連続稼動させてるがウチのスクリプトは問題なく
落とし続けてるので基本は変わってないと思う。
またHTMLの記述で重箱の隅をつつかれてるんじゃないか?
0426名無しさん@お腹いっぱい。2010/03/12(金) 12:40:39
いや、単に制限がきつくなってるだけかと。
これは波があるので、いつも一定と言うわけじゃないし。
get.plに、今のところなにか問題が有るわけでも無い。
0427名無しさん@お腹いっぱい。2010/03/12(金) 12:57:52
>>425
同条件で試したいから、どのページ落としたか教えてくれまいか
0428名無しさん@お腹いっぱい。2010/03/12(金) 13:11:43
なんかもう p2p 的に繋げてみんなで少しずつ落とすとか
0429名無しさん@お腹いっぱい。2010/03/12(金) 14:37:06
リスト取る、リスト読む、一枚目開始→すぐ終わる
で2枚目・・500Can't Connect to うんちゃらで停止オワタ
画像はブラウザでも見れない・・つかこんなのばっかり
環境のせいなのか、運悪く弾かれてるのか
一つも完成品拝んでないわ
0430名無しさん@お腹いっぱい。2010/03/12(金) 14:42:23
>>427
そいつぁイエネェな、っていうか聞いてどうする。
ウチに来てウチのPCからウチのIPで接続するかい?

自分はプロクシなど使わずいつも素のIPで繋いでる。
最短30秒のインターバルを取ってるが帯域制限受けたら500秒待ち
から急速に時間を長くしながらリトライ。帯域制限解けたら徐々に
時間を短くしてゆく。(500秒も待てば解けてるけどね)
接続エラーの類は120秒待ちだ。
時間の調整値には特に意味はなく自分のせっかちさと我慢強さの折り合い。

今までの実績を大雑把に言えば1ページあたり87秒の
待ち時間だから素直に100秒おきに見に行へば良いっちゃ良いんだが。
0431名無しさん@お腹いっぱい。2010/03/12(金) 15:49:07
上げたくなる衝動に襲われるが今のe-henの仕様じゃ上げれないな
まぁ名無しのexeなんて俺だって勘弁だけど
0432名無しさん@お腹いっぱい。2010/03/12(金) 15:55:33
誤解してたらすまんが、自分はget.pl使ってないよ。自作だよ。
自分はperl読めんのだがやってることに大した違いはないと思う。
0433名無しさん@お腹いっぱい。2010/03/12(金) 15:59:06
>>432
347 だけど、自作ツールだと確かに問題なさそーだけどな。
509はでるけど・・・
そこは、Proxy つかってなんとかやりくりしてる。

0434名無しさん@お腹いっぱい。2010/03/12(金) 17:42:18
509画像ゲットまでの時間で串評価してたから
コネクトしないのは巡回リストに加えないルールにしてたけど
手動でやってみたら繋がりにくいけど繋がると速い串とかあるのな、まいった
使いたいけどconnectで落ちる串もリストに加わってしまう
0435名無しさん@お腹いっぱい。2010/03/12(金) 18:40:25
む、そろそろ来るか?
0436名無しさん@お腹いっぱい。2010/03/12(金) 20:02:43
素で弾かれないのかー、いいなー
以前に普通にブラウザで画像が見れないものがある時点でおかしいのか
0437名無しさん@お腹いっぱい。2010/03/12(金) 21:45:08
>>434
ステータス500で、帰ってくるプロクシサーバーはリトライ3回内で
接続出来ればオけで、そうでなければ次のプロクシを試してみる
って感じでやってます。
プロクシの評価まではやってないな。
04384372010/03/12(金) 21:49:51
今日使ってたプロクシ 193.68.154.197:8080 BG
繋がりにくいけど、おkなら結構快適。
ブルガリアかよ
0439名無しさん@お腹いっぱい。2010/03/12(金) 23:17:11
>>437
んーいやconnectできるかどうかなので
send/recvとかwebサーバーステータスがどうとか以前の話なので
でもまあconnectの3回リトライは良いかもしれない
3回やって駄目なら鯖は存在しないってことでリストに加えないような仕方にしてみます
>>438そうそことか
0440名無しさん@お腹いっぱい。2010/03/13(土) 07:28:39
>>436
ブラウザで見れないって...ページ自体がロードされないの?
画像がロードされないの?変な画像が表示されるの?
ページの下の方にある "Click here if the image fails loading"
でも駄目なの?
0441名無しさん@お腹いっぱい。2010/03/13(土) 12:51:36
>>440
まず画像がズラーっと並ぶリスト的なページから
高確率で1枚目は見れます(今のところ100%?
で、2枚目・・ページ読み込んで画像が表示されるであろう領域が出ます
しばらくすると駄目だったのか、その領域が消えて○○.jpgみたいな文字だけポツン
後はそのページの広告とかお約束のが周りにといった具合

って>"Click here if the image fails loading"
押したら見れたああああああああ
でもirvineは相変わらずorz
なんちゃらが見つかりました
なんちゃらにconnect失敗しました
ソケットエラー
■ このスレッドは過去ログ倉庫に格納されています