トップページsoftware
1001コメント301KB

専用ブラウザを助けるプロクシ作らね? [転載禁止]©5ch.net

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。2015/02/17(火) 13:35:14.21ID:D7asMS8F0
専用ブラウザを作る訳じゃないから問題なし
0002名無しさん@お腹いっぱい。2015/02/17(火) 13:37:41.60ID:FnpFJPOQ0
すべては終わりの始まりが始まってから
0003名無しさん@お腹いっぱい。2015/02/17(火) 14:03:37.12ID:41fzODbV0
普通に「したらば用」のスクレイピングツールを作ればよくね
専用じゃなきゃいいっぽいし
0004名無しさん@お腹いっぱい。2015/02/17(火) 14:06:10.39ID:DkiqvBEU0
2ch放棄した方がマシでは
0005名無しさん@お腹いっぱい。2015/02/17(火) 15:22:27.10ID:xNg1dS/z0
>>1
もうすでに作っている人がいる件
ためしてないけど
0006名無しさん@お腹いっぱい。2015/02/17(火) 15:39:29.55ID:D7asMS8F0
http://anago.2ch.net/test/read.cgi/software/1424024569/264+643+656+728+923
これか
0007名無しさん@お腹いっぱい。2015/02/17(火) 15:45:03.45ID:98UwR0ug0
それで解決するならscのクロールは止まらんだろ
HTMLは難読化されるやろなぁ
0008名無しさん@お腹いっぱい。2015/02/17(火) 16:07:08.51ID:acSeWK190
またいちだんと負荷が増えるねw
0009名無しさん@お腹いっぱい。2015/02/17(火) 16:28:46.24ID:EdcJZYwk0
>>6
もうねえけど
0010名無しさん@お腹いっぱい。2015/02/17(火) 16:32:40.04ID:HJ9WxDwH0
>>1
sc
0011名無しさん@お腹いっぱい。2015/02/17(火) 17:56:30.05ID:K8XLGPeJ0
ここで言うのもなんだけど、専ブラをブラウザの振りをするように書き換えたほうが早くね?
プロトコルもフォーマットの元仕様も決まってるんだし。負荷は更にエライ事になるが。
あとはアレだな。そうなるとHTMLも時々変えて来るだろうからどうやって付いて行くかだな。
0012名無しさん@お腹いっぱい。2015/02/17(火) 18:29:47.31ID:D7asMS8F0
誰でも簡単に書き換えられるぐらいの手軽さがあれば良いんじゃないかな
0013名無しさん@お腹いっぱい。2015/02/17(火) 18:55:29.36ID:0gXITrNO0
>>7
これだろうな
いたちごっこになりそう
0014名無しさん@お腹いっぱい。2015/02/17(火) 19:37:30.57ID:dgLHR73y0
作ってみようと思ったけど、HTML取得するとメールが"/cdn-cgi/l/email-protection#*****"になるんだけどどうすればいいんかね
今時目欄なんてほぼ機能してないし無視しても問題少なそうだけど
0015名無しさん@お腹いっぱい。2015/02/17(火) 19:41:56.52ID:D7asMS8F0
>>14
http://pastebin.com/Mw0kSGHU C#
http://pastebin.com/b6RR21Rf perl
パースの見本があるので参考にすると良い

htmlの最後に書いてあるjsで復号化してるので
そっちを参考しても良い
0016名無しさん@お腹いっぱい。2015/02/17(火) 19:57:37.95ID:dgLHR73y0
thx
js見てみる
0017名無しさん@お腹いっぱい。2015/02/17(火) 20:15:20.15ID:Tk0C/ZCM0
プロクシってわけじゃないが、Google Apps Scriptつかって
ちょっとしたREST APIは作ってみようかと思う。

これだったら、誰でもアカウント作れてスクリプト設置できるからな。
サーバはGoogleだから、耐久力は折り紙つき。2ch.netもブロックは
出来ないからな。

手順としては、仕込んだスクリプトで公開APIとする。APIにパラメータ
を渡してアクセスすると、UrlfetchAppで対象のスレッドをスクレイピング
する。
そして、解析した中身をDATにして返してくれるというわけだ。JSON形式
でも返せるぜ。こっちのほうがクライアント側は楽だと思うがね。このスクリプト
を配布して、使いたい奴は使えば良い。アクセス先はGoogle Apps Scriptで
公開したURLにPOSTパラメータで渡せば良い。

こんな所か。Triggerで自動巡回も出来るし、スクリプトに設定項目でも入れて
おけば、キモいウザいスレやレスはフィルタさせることも出来る。プロクシとは
言えないが、かなり便利なものになるんじゃないかね。

応用すると、互換のない掲示板でも同じようなDAT形式にコンバートしてやれば
読めるようになるという優れものにもなるかもしれないと夢見てる。まぁ、3/3
以降にまずは自分用として作ってみようとは思う。
0018名無しさん@お腹いっぱい。2015/02/17(火) 20:37:26.45ID:DkiqvBEU0
Googleとわかってるならクローラー以外をブロックするだけで対策できるだろ
ログを集めるサーバと公開するサーバは別にした方がいい
0019名無しさん@お腹いっぱい。2015/02/17(火) 20:42:02.72ID:D7asMS8F0
俺もFiddler用のhtml2datスクリプト書いてみた
http://www.telerik.com/download/fiddler
インストールしてRule→Customize Ruleで下記のコード張り付けて保存して、専ブラのプロクシにfiddlerのアドレス設定するだけ
http://pastebin.com/Zpa7KB4G
subject.txt dat(Range Header) に対応。Javascriptだから編集が簡単
どうよ?
■ このスレッドは過去ログ倉庫に格納されています