連番のH画像/動画を一気にダウンロードする2
■ このスレッドは過去ログ倉庫に格納されています
0001前スレ1
2005/12/26(月) 02:56:22実践されているノウハウを教えていただきたく再度、スレを立てさせてもらいました。
前スレ 連番のH画像を一気にダウンロードする
http://pc8.2ch.net/test/read.cgi/unix/979106537/
0202157
2009/12/06(日) 20:01:16239行目でもwww無しでURLチェックしてるので
そこにもwwwを加えてください
作成した時は多分wwwが無かったのだと思います
>>201
原因不明です
URLお願いします
0203名無しさん@お腹いっぱい。
2009/12/06(日) 21:34:25数日前は大丈夫だったはずなのに・・・
http://g.e-hentai.org/g/181326/7405b90607/
0204200
2009/12/06(日) 22:50:08秀丸使ってるんだけど239行目はmakedir中のprint〜でURLチェックとは無関係だす
とりあえず数箇所URLでimagefap.comがあるところの前(cache.imagefap/com除く)
にwww.をつけたらエラーなしで動いたけど今度は指定URLとは関係ないギャラリーの画像を取得した
保存されたフォルダは指定URLと同じ番号なのに中身が別物、別のギャラリーとか思って調べてみたけど
同じファイル数のギャラリーが存在してなかった、なんぞこれ
0205名無しさん@お腹いっぱい。
2009/12/06(日) 23:36:02見れるのと見れない画像の差を理解した。
ヒントはおまいらの好きなタグだw
そのタグに入ってたのは一切見れなくなってて
やっぱりなーと思った。
0206名無しさん@お腹いっぱい。
2009/12/07(月) 02:17:49困ってしまうなぁ
0207名無しさん@お腹いっぱい。
2009/12/07(月) 19:24:250208名無しさん@お腹いっぱい。
2009/12/07(月) 20:16:390209名無しさん@お腹いっぱい。
2009/12/08(火) 01:04:08もらえるポイントは他人の閲覧数とDL数で決まるからサムネイルで食いつきそうなの上げればいい
長くお世話になる気ならいつ使えなくなるか分からん上に更新も期待出来ないツールより、
いくつか定期的に提供して数クリックで快適にDL出来る方が俺にとっては便利だからそうしてる
0210名無しさん@お腹いっぱい。
2009/12/08(火) 15:30:160211名無しさん@お腹いっぱい。
2009/12/08(火) 23:29:140212名無しさん@お腹いっぱい。
2009/12/10(木) 17:56:06なぜ分からないのか・・・愚か過ぎる
0213名無しさん@お腹いっぱい。
2009/12/10(木) 21:30:24向こうはいつでも閉鎖できるんだし
0214名無しさん@お腹いっぱい。
2009/12/10(木) 21:41:52例えば100枚落として弾かれたら、次は101枚目からDL開始するとかは出来ないんでしょうか。
0215名無しさん@お腹いっぱい。
2009/12/11(金) 05:49:50だったらスクリプトが一枚画像にアクセスしたらインターバルを置いて(手作業で開いて保存するくらいの時間?)、
次のファイルにアクセスするようにすれば良いんじゃないでしょうか?
時間はかかるかもしれませんが、一枚一枚手作業で保存する手間を考えれば妥協できると思うんですが…
0216名無しさん@お腹いっぱい。
2009/12/11(金) 06:53:55>>178で既出の話題だな
とはいえそのインターバルがどれほどなのかは興味があるな
0217名無しさん@お腹いっぱい。
2009/12/12(土) 01:18:04インターバルとかダウンロード容量以外の影響も受けてると思う
そうなると全く分からん
そもそも各IPで制限してるのかすら分からないんだよ
串かましてダウソできてもダウソ可能数がまた違う
0218名無しさん@お腹いっぱい。
2009/12/12(土) 18:14:10既に公開されている素晴らしいツールらを組み合わせて何とかなった
ヒマがあったら作ってみたりゃ良い
0219名無しさん@お腹いっぱい。
2009/12/13(日) 12:33:460220名無しさん@お腹いっぱい。
2009/12/14(月) 21:54:13画像は一気に落とせたんだがなあ。
0221名無しさん@お腹いっぱい。
2009/12/16(水) 00:36:080222名無しさん@お腹いっぱい。
2009/12/16(水) 02:05:030223名無しさん@お腹いっぱい。
2009/12/16(水) 20:31:50サムネでロリっぽい画像使ってるやつも入れなくなってるみたいだし
0224名無しさん@お腹いっぱい。
2009/12/19(土) 02:10:141枚1枚ダウソしてたが 150枚くらいで。どうにかならないか…泣
0225名無しさん@お腹いっぱい。
2009/12/29(火) 02:15:45最初の数日はどんどんポイントが溜まっていった。
しかしこの頃は一日に100P入るかどうか、
日がたつにつれてgalleryごとにもらえる
ポイントのレートが下がってるのかな
0226名無しさん@お腹いっぱい。
2009/12/31(木) 14:31:420227名無しさん@お腹いっぱい。
2009/12/31(木) 14:43:510228名無しさん@お腹いっぱい。
2009/12/31(木) 17:11:06batch 処理で落とすためのスクリプトってないのかな?
最初の URL を wget でもってきて html を覗いて
<form action="http://... " method="post"> がそれっぽいんだけど
それを直接 wget しても×なんだよね…
0229名無しさん@お腹いっぱい。
2009/12/31(木) 19:35:56IP代わんないと連続では無理
0230名無しさん@お腹いっぱい。
2009/12/31(木) 23:29:480231名無しさん@お腹いっぱい。
2010/01/07(木) 11:31:140232名無しさん@お腹いっぱい。
2010/01/08(金) 04:03:400233名無しさん@お腹いっぱい。
2010/01/08(金) 16:28:13再うpお願いします。
0234名無しさん@お腹いっぱい。
2010/01/11(月) 04:18:01これが規制なのかな
0235名無しさん@お腹いっぱい。
2010/01/13(水) 23:24:43サムネまでは見れるが、そこから画像にアクセスしている気配すらない。
原因はなんなんでしょ。
0236名無しさん@お腹いっぱい。
2010/01/14(木) 15:03:580237名無しさん@お腹いっぱい。
2010/01/14(木) 15:30:19必要ないもの集めても仕方ないし、特定のものだけでも手間かかりすぎる
0238名無しさん@お腹いっぱい。
2010/01/14(木) 18:36:031. 最初のページ内の action="http://hogehoge" から "http://hogehoge" を抽出
2. 次のターゲット
% wget --post-data="dl.start=Free" http://hogehoge
3. 100秒とか待つ(カウントダウンタイマー分)
4. (2. から最終ターゲットを抽出して)wget
1.〜4. を 30分間隔(容量次第?)とかでぐるぐる
0239名無しさん@お腹いっぱい。
2010/01/14(木) 18:41:460240名無しさん@お腹いっぱい。
2010/01/16(土) 15:10:54リファラ,user-agentとクッキーを設定してやったら
スレッドは1つだけど退避時間もなしで、
509でなくなったよ。
0241名無しさん@お腹いっぱい。
2010/01/16(土) 16:19:360242名無しさん@お腹いっぱい。
2010/01/16(土) 21:45:19↑
これの作り方わかんないだけど、どうやんの?
0243名無しさん@お腹いっぱい。
2010/01/16(土) 22:25:27うpされてから半年間はそんな質問はなかったな
他と比較して自分の理解力を身をもって知るべきだ
短く言えば "アホは来るな"
0244名無しさん@お腹いっぱい。
2010/01/18(月) 09:27:43Your IP address is not allowed to access that
Your IP address has been temporarily banned for using automated mirroring/harvesting software and/or failing to heed the overload warning. The ban expires in 56 minutes 23 seconds
だって…
WIN向けだからここで聞くのも間違っている気もするんだけど、何か対策されたのかな?
0245名無しさん@お腹いっぱい。
2010/01/18(月) 14:42:55てか再うpきぼんぬ
0246名無しさん@お腹いっぱい。
2010/01/18(月) 17:25:43俺も弾かれるようになった
おそらく対策されたんだろう
いままで対策されなかったのが不思議だったし
0247名無しさん@お腹いっぱい。
2010/01/18(月) 19:17:53もともと発祥のちんこロダもなくなっちゃったし、ばーうpの方法もないし、対応難しいかなぁ
0248名無しさん@お腹いっぱい。
2010/01/19(火) 19:01:43なんとも図々しい。
頼み方も知らないのか。
0249名無しさん@お腹いっぱい。
2010/01/21(木) 03:38:16あれだけのデータをただで見れるとか怖くなっちゃうんだけど
0250名無しさん@お腹いっぱい。
2010/01/21(木) 11:43:11E-Hentaiって、有料なんですか?
freeとあるから無料なのですか?
0251名無しさん@お腹いっぱい。
2010/01/26(火) 22:07:41再うpおねがします
本当頼みます
0252名無しさん@お腹いっぱい。
2010/01/27(水) 14:39:42244 :名無しさん@お腹いっぱい。:2010/01/18(月) 09:27:43
>>189のツール使ってるんだけど、急に弾かれるようになっちゃった…
Your IP address is not allowed to access that
Your IP address has been temporarily banned for using automated mirroring/harvesting software and/or failing to heed the overload warning. The ban expires in 56 minutes 23 seconds
だって…
WIN向けだからここで聞くのも間違っている気もするんだけど、何か対策されたのかな?
246 :名無しさん@お腹いっぱい。:2010/01/18(月) 17:25:43
>>244
俺も弾かれるようになった
おそらく対策されたんだろう
いままで対策されなかったのが不思議だったし
前レス読んだ?急に真剣になってバカじゃないの??
0253名無しさん@お腹いっぱい。
2010/01/27(水) 22:39:270254名無しさん@お腹いっぱい。
2010/02/02(火) 00:50:57http://jappygal.blogspot.com/2010/01/dgcyuki-mogami-no811-201002.html
0255名無しさん@お腹いっぱい。
2010/02/02(火) 13:00:37URL=http://jappygal.blogspot.com/2010/01/dgcyuki-mogami-no811-201002.html
wget -O- "$URL" | grep -o "http://[^\"']*.jpg" | sed -ne "/s1600-h/s/s1600-h/s1600/p" >LIST
wget -i LIST
0256名無しさん@お腹いっぱい。
2010/02/02(火) 14:02:53おかないといけないんじゃないかな…
ページソースや直URL確認
wget --referer オプションやら -r -l などなど
zsh の連番技法 {001..052}.jpg とか
>255
html 解析から a href= 抽出するのは grep -o が使えたのか
0257名無しさん@お腹いっぱい。
2010/02/02(火) 14:14:57方法の改良論とかもありそうだし
0258名無しさん@お腹いっぱい。
2010/02/02(火) 14:26:460259名無しさん@お腹いっぱい。
2010/02/02(火) 17:20:47URLにはつながらず……
952 :950:2005/11/05(土) 18:30:02
>>950
テキトーにつくってみました。
http://seizen.dyndns.org:8080/matome/
ちなみにおいらはperl+sh派です。
0260名無しさん@お腹いっぱい。
2010/02/07(日) 06:27:04何だか知らないけどよろしくお願いします
とりあえずスレ見たらアク禁解けるまで待てと書いてあるので待ってみます
0261名無しさん@お腹いっぱい。
2010/02/07(日) 10:57:350262名無しさん@お腹いっぱい。
2010/02/08(月) 20:25:530263名無しさん@お腹いっぱい。
2010/02/12(金) 20:58:020264名無しさん@お腹いっぱい。
2010/02/13(土) 02:49:100265名無しさん@お腹いっぱい。
2010/02/14(日) 19:08:52千枚保存するのに20分掛かったが帯域制限には引っ掛からなかったよ。
これが >>262 の想いに届いたなら幸せだ。
http://www1.axfc.net/uploader/File/so/38900
スクリプト起動したら"URL>"のプロンプトにギャラリートップのURLを入力してくれ。
複数のURLをテキストファイルに書いてリダイレクトで食わせてもOK。
後は放っておくだけでギャラリーIDのサブディレクトリを掘って画像を保存するよ。
0266名無しさん@お腹いっぱい。
2010/02/14(日) 21:43:090267名無しさん@お腹いっぱい。
2010/02/15(月) 15:13:12phpスプリクトは対応してますか?
負荷掛けるのはいくない
0268名無しさん@お腹いっぱい。
2010/02/15(月) 16:22:00いいのだろうか
0269名無しさん@お腹いっぱい。
2010/02/15(月) 17:10:200270名無しさん@お腹いっぱい。
2010/02/15(月) 17:31:450271名無しさん@お腹いっぱい。
2010/02/15(月) 20:12:260272263
2010/02/15(月) 21:12:03wget なら --keep-session-cookies 併用して表示ページを経由する。
オリジナルをダウンロードする場合はログインスクリプト書いて
そのクッキー使う。DL数に厳しい上限あり。
ログインしておけば通常の画像も帯域が増えるよ。
0273名無しさん@お腹いっぱい。
2010/02/15(月) 21:39:22俺もサムネしか落ちないな
0274名無しさん@お腹いっぱい。
2010/02/15(月) 22:01:39あながち嘘ではない。ソースあるんだから、なんとかしたい人ならこれをベースになんとかする。
0275名無しさん@お腹いっぱい。
2010/02/15(月) 22:57:20一週間の掲載期間は長かったかしら。
まぁ洒落なんだからそんなに突っ込まないでくれ。
こんなところでそのまんま自前のソース広げて使われ
まくった挙句に変な対策でもされたら面倒だからね。
>>267 phpはgzip展開圧縮も普通に出来るよ。
0276名無しさん@お腹いっぱい。
2010/02/18(木) 13:16:01$ua->agent("Mozilla/5.0 (Windows; U; Windows NT 6.0; rv:1.9.2) Gecko/20100115 Firefox/3.6 (.NET CLR 3.5.30729)");
$ua->proxy('http', 'http://127.0.0.1:65536/');
0277名無しさん@お腹いっぱい。
2010/02/19(金) 02:08:37対策されたか?
0278名無しさん@お腹いっぱい。
2010/02/19(金) 15:36:480279名無しさん@お腹いっぱい。
2010/02/19(金) 16:21:20こっちも対策するぞ
0280名無しさん@お腹いっぱい。
2010/02/19(金) 17:21:23** make directory **
the list name is 0f9cd89d5b.list.
the directory name is 0f9cd89d5b.
0f9cd89d5b does exist.
doesn't make a directory.
** get 98 pics **
get pic's html file (1/98).
get html : success. (200 OK), [dummy.html]
get [0] ...:
HTTP::Response=HASH(0x2fd6994)->status_line, [0] : failed to download pic. try a
gain (5/5).
wait/sleep 3 sec : [***]
これを5回繰り返して止まる
0281名無しさん@お腹いっぱい。
2010/02/19(金) 18:19:24scrapeimgname() と scrapeimgurl() がファイル名と url を
抽出できなくなっただけ. これらの関数は getpics() から呼び出され,
抽出できなかった場合に return 0 するが, getpics() 側で特にエラー処理
してないので, エラーにならず get [0] ... とかなって走りつづけてる
(本当は 0 のとこに scrapeimgname() の戻り値であるファイル名が入る).
モジュールに依存しないように html の parse を自前でやってるが,
俺は面倒なので, HTML::TreeBuilder::XPath 使って書き直した.
あと HTTP::Response->status_line がメソッド呼び出しなのに
double quote で文字列展開しようとしてるので, status_line が
正しく表示できてないのもバグっぽい.
"@{[ $res->status_line ]}" とかしといた方がいい.
0282名無しさん@お腹いっぱい。
2010/02/19(金) 18:51:06QoSでperlへの帯域絞るしか無い?
0283名無しさん@お腹いっぱい。
2010/02/19(金) 22:35:10オリジナルは画像鯖のドメインでマッチングしてたんだけど、ドメインが変わったからマッチしなくなったんだね。
>>282
オリジナルだと4秒ぐらいで取りに行っちゃうから、間隔を10秒以上とるようにsleepを書き換えるとけっこう快適になるよ。
0284名無しさん@お腹いっぱい。
2010/02/19(金) 23:06:49サブルーチンを書き換えればいいのかな
0285名無しさん@お腹いっぱい。
2010/02/19(金) 23:17:33とか?
0286名無しさん@お腹いっぱい。
2010/02/19(金) 23:19:13そうそう。waitpとかいう名前だったはず。
0287名無しさん@お腹いっぱい。
2010/02/19(金) 23:21:06書出すファイル名は、altタグから引っぱればいいかな。
0288名無しさん@お腹いっぱい。
2010/02/19(金) 23:23:28便乗して悪いけど
img id.* ってのはscrape〜の
if ( m|src="http://r.e-hentai.org/.*?"| )
の部分のことでいいのかしら
0289名無しさん@お腹いっぱい。
2010/02/19(金) 23:25:00とか?
0290名無しさん@お腹いっぱい。
2010/02/19(金) 23:26:00base/1000の間違い
すまぬ
0291名無しさん@お腹いっぱい。
2010/02/20(土) 01:13:580292157
2010/02/20(土) 01:54:50waitpの時間延長を施した新ヴァージョンができました
http://www1.axfc.net/uploader/Sc/so/84683.zip&key=ehg
0293名無しさん@お腹いっぱい。
2010/02/20(土) 11:01:04ちゃんと動いてます。
0294名無しさん@お腹いっぱい。
2010/02/20(土) 17:10:24my $ua = LWP::UserAgent->new;
$ua->agent("User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.0;rv:1.9.2)
");
$ua->timeout(180);
$ua->proxy('http', 'http://127.0.0.1:80/');
0296名無しさん@お腹いっぱい。
2010/02/21(日) 13:12:16むしろ '常識知らねーな' と言われそうな変更を試してる。
これで4ページ/分のペースで14冊330ページ99MBまで落としたが
一向に帯域制限がやって来ない。昨夜は引っ掛かりまくりだったし
今まで3日の間を空けたってこんなこと無かったんだがな。
サーバのプログラムが変わったばかりらしいがバグを突けたのか?
それとも今日は感謝デーなのか?
0297名無しさん@お腹いっぱい。
2010/02/21(日) 13:21:48変更前と後のスクリプトで試してみて
両方とも帯域制限が来ないなら
今日は感謝デー
後の変更済みスクリプトだけに帯域制限がこないなら
その変更は大当たり
0298名無しさん@お腹いっぱい。
2010/02/21(日) 13:35:43おぉ、そりゃそうだ。舞い上がって変化点検証の基本を忘れてた。やってみる。
0299名無しさん@お腹いっぱい。
2010/02/21(日) 14:56:32変更前のコードでも222ページ75MBまでスルスル落とせた後に 509 がやってきた。
その直後に変更後のコードを掛けてみたがやっぱり 509 だった。
多分週末メンテナンスで俺のカウンタがリセットしたとかなんだろうな。
クッキーなくなってるね。リダイレクトもなし。img id=xxx は相変わらず付いてるけど
肝心の id の値はHTML本文中に見つからない。
0300名無しさん@お腹いっぱい。
2010/02/21(日) 16:34:570301名無しさん@お腹いっぱい。
2010/02/21(日) 20:17:10オレもそういうページあるけど多分複数ページじゃなくて単独ページの場所だと
動かないっぽい。
ベースページを解析するルーチンで1ページしかないページだと構文解析できずに
終わってるっぽいな。
直すのめんどいんで手作業でやってるけどね。
ついでだけど500枚くらいのやつだとエラー途中までしかDLしないのは仕様?
■ このスレッドは過去ログ倉庫に格納されています