専用ブラウザを助けるプロクシ作らね? [転載禁止]©5ch.net
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
2015/02/17(火) 13:35:14.21ID:D7asMS8F00182名無しさん@お腹いっぱい。
2015/02/27(金) 00:18:48.61ID:pkVVdIZI0移植してみれば
0183名無しさん@お腹いっぱい。
2015/02/27(金) 00:22:50.77ID:ZI82dLoW0about@ne.jp はどうよ?
0184名無しさん@お腹いっぱい。
2015/02/27(金) 00:25:21.20ID:ZI82dLoW0info@co.jp 👀
0185名無しさん@お腹いっぱい。
2015/02/27(金) 00:26:06.88ID:ulCopddq00186名無しさん@お腹いっぱい。
2015/02/27(金) 00:29:26.79ID:PaQA3RxW00187名無しさん@お腹いっぱい。
2015/02/27(金) 00:34:12.34ID:9/H5Odc40JaneXeno/150114で使ったらログが壊れるので、
スクリプト130行以降を全部削ったら使える様になりました。
ありがとうございます。
0188名無しさん@お腹いっぱい。
2015/02/27(金) 01:17:01.74ID:jO2BHuQV0オリジナルdatと完全互換なhtml2datを作るのは不可能な模様
0189名無しさん@お腹いっぱい。
2015/02/27(金) 01:18:20.01ID:Kp8WjHqy00190名無しさん@お腹いっぱい。
2015/02/27(金) 01:25:48.03ID:CkhMnjzt0↑の行は最後に半角スペースがある、datだと分かるがhtmlでは分からない
0191名無しさん@お腹いっぱい。
2015/02/27(金) 01:27:18.75ID:+JE0ec2M0それのせいでscがスクレイピング使ってるのが確定したからね
0192名無しさん@お腹いっぱい。
2015/02/27(金) 01:34:13.96ID:qOQoZo540特徴的なのはコピペした投稿
書き込み完了前の時点で各行の最後に半角スペース(\x20)が入る
書き込み後のdat上では\x20\x20<br>となってるけど
read.cgi通すと\x20<br>に変換される
改行の処理が \n → \x20<br>\x20 なんで各行の前後に半角スペースが必ず挿入される仕様
0193名無しさん@お腹いっぱい。
2015/02/27(金) 01:50:13.11ID:ulCopddq0それ単にdatにアクセスしてるだけじゃね?
0194名無しさん@お腹いっぱい。
2015/02/27(金) 01:51:13.61ID:pkVVdIZI0>>192ぐらいなら置換で戻せるし、行頭半角はbbs.cgi?の段階で削除されるから
文字と文字の間に複数個の半角スペース入れたりしない限りまぁ大丈夫
ただAA初心者とか整形しようとすると結構やっちゃうけどな
"無意味な空白は1つだけにする"でググるとそこらへんの処理が出てくるな
1byteでも転送量を減らそうという当時の努力が窺い知れる・・
0195名無しさん@お腹いっぱい。
2015/02/27(金) 01:51:20.14ID:5OJ3SYiJ0Whitespaceのプログラムでも書き込まない限り問題ないんだけどね
どのみち差分取得するならどっかにレス番かログ保存しとく必要あるし
0196名無しさん@お腹いっぱい。
2015/02/27(金) 02:01:27.50ID:p3P4xXWJ0htmltodatByFiddlerは
0197名無しさん@お腹いっぱい。
2015/02/27(金) 02:03:48.48ID:72X9Hzyb0実用上は問題なさそうだけど
0198名無しさん@お腹いっぱい。
2015/02/27(金) 02:06:09.60ID:ch/QUMXQ00199名無しさん@お腹いっぱい。
2015/02/27(金) 02:06:14.60ID:DRLw6QtK02015/02/27(金) 00:09:18.47 ID:2darJ9Q20<>\x20メール欄が壊れまくるな\x20<br>\x20htmltodatByFiddlerは\x20<>
2015/02/27(金) 00:09:18.47 ID:2darJ9Q20<dd>\x20メール欄が壊れまくるな\x20<br>\x20htmltodatByFiddlerは\x20<br><br>
>196 (>181のコピペ)
2015/02/27(金) 02:01:27.50 ID:p3P4xXWJ0<>\x20メール欄が壊れまくるな\x20\x20<br>\x20htmltodatByFiddlerは\x20<>
2015/02/27(金) 02:01:27.50 ID:p3P4xXWJ0<dd>\x20メール欄が壊れまくるな\x20<br>\x20htmltodatByFiddlerは\x20<br><br>
上DAT
下html
本文の半角スペースを\x20で表記
>196の書き込み内容 (ギコナビの送信記録)
Body=%83%81%81%5B%83%8B%97%93%82%AA%89%F3%82%EA%82%DC%82%AD%82%E9%82%C8%20%0D%0AhtmltodatByFiddler%82%CD%20
0200名無しさん@お腹いっぱい。
2015/02/27(金) 02:08:14.01ID:qaMrVnKn00201名無しさん@お腹いっぱい。
2015/02/27(金) 02:11:22.58ID:qOQoZo540datのファイルサイズが変わる
DAT廃止後にあぼーん検出で再取得必須
0202名無しさん@お腹いっぱい。
2015/02/27(金) 02:14:51.79ID:qRKvXgSE00203名無しさん@お腹いっぱい。
2015/02/27(金) 02:16:56.71ID:CkhMnjzt0一度ログ消して再取得しなけりゃならん、という程度
0204名無しさん@お腹いっぱい。
2015/02/27(金) 02:20:14.27ID:JqEh1bTS0それだけ
であればいいけどね
read.cgiのhtml出力仕様がコロコロ変わると大変な事に
0205名無しさん@お腹いっぱい。
2015/02/27(金) 02:29:19.06ID:72X9Hzyb00206名無しさん@お腹いっぱい。
2015/02/27(金) 02:30:24.34ID:Kp8WjHqy0参考にさせてもらいます
0207名無しさん@お腹いっぱい。
2015/02/27(金) 02:50:10.62ID:5OJ3SYiJ0V2Cの場合ログが勝手に再構成されるから問題なかった。再取得操作は不要
ここまで一切弄ってこなくて、SCのCGI経由クロール判明以降も全く弄ってなかったんだし、変わる可能性は薄いと思うけど
API流用型の改造も出てきてる今、現状使用者は相当少なくなるであろうこの手の串対策に変えてくるかなあ
0208名無しさん@お腹いっぱい。
2015/02/27(金) 03:30:37.58ID:BnR2ZpVg00209名無しさん@お腹いっぱい。
2015/02/27(金) 03:42:52.44ID:p3P4xXWJ0>差分リクエストに1からのDAT送りつけたら
クラウド鯖使うようになった初期の頃を知らんのか・・・
今年の1月後半ぐらいなんだがな
差分取得する毎に「あぼーん検出→再取得」のコンボだったよ
あぼーん検出不可なブラウザはどうなるか知らん
少なくともギコナビは取得済みから -8 Byteでリクエストしてこの 8 Byteが違っていたらあぼーん検出
かちゅ〜しゃ+kageの方は -1 Byteでリクエストして受信した最初が \x0A じゃなければあぼーん扱い
0210名無しさん@お腹いっぱい。
2015/02/27(金) 03:46:27.31ID:pkVVdIZI00211名無しさん@お腹いっぱい。
2015/02/27(金) 04:05:24.38ID:dKp87VDM00212名無しさん@お腹いっぱい。
2015/02/27(金) 04:48:57.48ID:5OJ3SYiJ0いや検出からの再取得じゃなく、串が動いたのは最初の1回のみで、何くわぬ顔でDAT再構築したんだよV2C
0213名無しさん@お腹いっぱい。
2015/02/27(金) 04:52:59.54ID:5OJ3SYiJ00214名無しさん@お腹いっぱい。
2015/02/27(金) 09:09:21.05ID:e3oaOS3L0新APIの仕様についての話題は、このスレでいいのか?
0215名無しさん@お腹いっぱい。
2015/02/27(金) 10:07:18.29ID:fd7kMbQz00216名無しさん@お腹いっぱい。
2015/02/27(金) 10:38:19.06ID:e3oaOS3L0http://pastebin.com/VGTR7Sf0
セッションIDを起動時に取得したまま、ずっと使い続けるテキトー実装だけど
セッションの有効期限って、どれくらいやろ
あと、if-modified-since、rangeリクエストをそのまま通過させてAPIに投げると
更新なし時にステータスコードが200で、bodyが404の返答があるのは何でや
0217名無しさん@お腹いっぱい。
2015/02/27(金) 11:20:05.06ID:PzY0nG8D0778 :名無しさん@お腹いっぱい。 [] :2015/02/27(金) 10:27:03.28 ID:+kID8sEa0 (7/7) [PC]
>>771
これはAPIの仕様かバグですね
ステータスコード 206 で返るべきところ、ステータスコード 200で返って来るので再取得が走ってしまう
一応対処は可能だけど、これは他の専ブラも困ってるはずで、API側で直してくれるかも
山下、これ直しとけよ
0218名無しさん@お腹いっぱい。
2015/02/27(金) 11:22:38.01ID:uGN5EnM20ソースどこよ
0219名無しさん@お腹いっぱい。
2015/02/27(金) 11:25:31.26ID:dMhmA4e+0http://anago.2ch.net/test/read.cgi/software/1424315959/778
0220名無しさん@お腹いっぱい。
2015/02/27(金) 11:26:19.12ID:PzY0nG8D00221名無しさん@お腹いっぱい。
2015/02/27(金) 11:29:38.83ID:67qHA7oQ0windowsで動いてる
サンクス
0222名無しさん@お腹いっぱい。
2015/02/27(金) 11:41:01.10ID:+kID8sEa0仕様とか言い出すかもなw
0223名無しさん@お腹いっぱい。
2015/02/27(金) 11:44:10.68ID:HO0ehFM20http://anago.2ch.net/test/read.cgi/software/1424327586/
>>835
0224名無しさん@お腹いっぱい。
2015/02/27(金) 12:49:39.53ID:zn/JeIfB0これとNode.jsとPython 2.7があれば良いのかな?
後でやってみよう
Node.js
http://nodejs.org/download/
Python 2.7
https://www.python.org/downloads/
0225名無しさん@お腹いっぱい。
2015/02/27(金) 13:10:51.81ID:e3oaOS3L0206は返ってきているようだが、304 Not Modifiedが返ってこないな
というより、20xのときは直にdatアクセスしたときの同じようなレスポンスが返ってくるから
サーバーが内部的にリクエストを転送してる気がする
if-modified-sinceヘッダーを取り除けば、問題は無くなりそう
>>224
ソースからインストールする場合と書いてあるから、Pythonは要らないかも
0226名無しさん@お腹いっぱい。
2015/02/27(金) 19:47:06.05ID:F+4QaO2U0email-protectionが無い場合はそのままmail返すように変えて使ってみたよー
htmltodatByFiddlerの場合はemail-protectionを>>19のように'X'までにするように直す必要があるね
本文のemail-protection処理はどっちも必要
ってかJSとか弄った事ないからよく分からねー
0227名無しさん@お腹いっぱい。
2015/02/27(金) 19:59:58.01ID:his4tOUj0結構なログをローカルに溜め込んでいるのよね
0228名無しさん@お腹いっぱい。
2015/02/27(金) 20:09:26.60ID:G6wuAdBj0API使ってることになるのかな?API使用してる確認法がわからん・・・
0229名無しさん@お腹いっぱい。
2015/02/27(金) 20:37:55.59ID:e3oaOS3L0ローカルであればプロキシ設定にlocalhost:8088と指定すれば使えているはず
一応、サンプルコードなので実用には注意
78行目あたりに
console.log(response.headers);
とか追記しておけば、APIにアクセスする度に返ってきたヘッダーを出力してくれる
0230名無しさん@お腹いっぱい。
2015/02/27(金) 20:44:48.19ID:Hii81umz0セッションの期限は2chmateだと55分でセッションID取り直しているみたいだから1時間くらいじゃね?
0231名無しさん@お腹いっぱい。
2015/02/27(金) 21:11:11.80ID:e3oaOS3L0実装いいかげんやな
0232名無しさん@お腹いっぱい。
2015/02/27(金) 22:34:08.15ID:CkhMnjzt00233名無しさん@お腹いっぱい。
2015/02/27(金) 23:31:38.98ID:CWhmdBOJ0仕様だ諦めろ
0234名無しさん@お腹いっぱい。
2015/02/28(土) 02:18:07.46ID:xxxBU7UG0どれが最新なんだろうか
0235名無しさん@お腹いっぱい。
2015/02/28(土) 02:39:26.18ID:lKCuzRBJ0山下SpyleはAPIのバグで近日中直すって言ってたけどな
0236名無しさん@お腹いっぱい。
2015/02/28(土) 04:23:39.36ID:lvAKUUCw00237名無しさん@お腹いっぱい。
2015/02/28(土) 04:28:06.57ID:25W0vuuW00238名無しさん@お腹いっぱい。
2015/02/28(土) 04:35:01.01ID:19zlKYBH0「API側の不具合で近日修正予定とのことです」とか言ってるし鯖のAPIなんて弄れないでしょ
0239名無しさん@お腹いっぱい。
2015/02/28(土) 04:45:52.63ID:MP7KfPZR0> なお、新しい“2ちゃんねる”のAPIはまだテスト中で、差分取得リクエストに失敗して「Jane Style」の
> タイトルバーが赤色になることがあるという。これはAPI側の不具合で、近日修正される予定。
http://www.forest.impress.co.jp/docs/news/20150223_689599.html
0240名無しさん@お腹いっぱい。
2015/02/28(土) 04:53:25.87ID:045xG2Cl0山下が開発してんのか?
0241名無しさん@お腹いっぱい。
2015/02/28(土) 05:02:32.96ID:eq4duOfG0CMでしょ
広告部分は分からんけど
0242名無しさん@お腹いっぱい。
2015/02/28(土) 05:18:21.95ID:0wP+XlhP00243名無しさん@お腹いっぱい。
2015/02/28(土) 05:25:11.89ID:FizJnEAg00244名無しさん@お腹いっぱい。
2015/02/28(土) 05:37:26.24ID:25W0vuuW00245名無しさん@お腹いっぱい。
2015/02/28(土) 06:32:12.65ID:5a21MezF0最近全然プロクシとか縁のなさそうな別スレで気になってた
0246名無しさん@お腹いっぱい。
2015/02/28(土) 07:21:49.36ID:bG6QwhyB00247名無しさん@お腹いっぱい。
2015/02/28(土) 08:17:44.68ID:QuJsHNUk0XPでも動作しました、ありがとうございます。
というかNode.jsが動く環境なら2000でもいけそうだね。
0248名無しさん@お腹いっぱい。
2015/02/28(土) 09:00:57.92ID:H+TQKx4C020年前くらいのVC++で作ったようなダサい画面構成をみて
そっとアンインストールした
0249名無しさん@お腹いっぱい。
2015/02/28(土) 09:13:09.45ID:H+TQKx4C00250名無しさん@お腹いっぱい。
2015/02/28(土) 10:36:41.13ID:H/0OS4UL0でギコナビでも行けた。環境は32bit版windows7
しばらく様子を見てみようと思う。
ありがとう!
0251anonymous@ne.jp
2015/02/28(土) 21:35:46.91ID:HNZCqnK300252anonymous@ne.jp
2015/02/28(土) 21:47:58.21ID:I6kPaz/J00253名無しさん@お腹いっぱい。
2015/02/28(土) 22:21:39.86ID:bG6QwhyB00254名無しさん@お腹いっぱい。
2015/02/28(土) 22:23:34.03ID:I6kPaz/J0普通のwebブラウザでこのスレ見てみな?
0255名無しさん@お腹いっぱい。
2015/02/28(土) 22:29:02.66ID:1LwgnSdw0htmlソースを見ればわかるがemail-protectionのデコード処理が
名前欄やら投稿日やらを全部食ってしまってる感じ。
html2datキラーでなくread.cgiキラーだ
0256ノtasukeruyo
2015/02/28(土) 22:31:25.47ID:bG6QwhyB0よく分からん。
0257名無しさん@お腹いっぱい。
2015/02/28(土) 22:36:39.00ID:om+vp5CG00258名無しさん@お腹いっぱい。
2015/02/28(土) 22:38:40.39ID:bG6QwhyB0一般のブラウザで開いて見たが、>>255のようにはならなかった。
やり方が悪いのか環境が悪いのか……
0259名無しさん@お腹いっぱい。
2015/02/28(土) 22:44:29.32ID:1LwgnSdw0> 一般のブラウザで開いて見たが、>>255のようにはならなかった。
「全部表示」で見ただろ。「最新50」とかで見てみ
email-protection処理はなんか数に制限あるみたいだから
レス数が多いと途中から利かなくなる
0260名無しさん@お腹いっぱい。
2015/02/28(土) 22:53:39.86ID:cSrw7ycP0email protection してくれてんだな。
してくれない時もあるってのがアレだけど
0261名無しさん@お腹いっぱい。
2015/02/28(土) 23:02:19.46ID:1fgyu5Zo00262名無しさん@お腹いっぱい。
2015/02/28(土) 23:16:24.40ID:bG6QwhyB0おお、確かに欠けた。面白い。
0263名無しさん@お腹いっぱい。
2015/02/28(土) 23:18:12.68ID:EEZAJ1z50IE11とGoogle Chromeでは>>251-252ともメール欄を含めて正常に読めてるが、他のブラウザでは変になるのかな?
↓
251 :anonymous@ne.jp:2015/02/28(土) 21:35:46.91 ID:HNZCqnK30
html2datキラー
252 :anonymous@ne.jp:2015/02/28(土) 21:47:58.21 ID:I6kPaz/J0
html2datキラー はこっちだった模様
0264名無しさん@お腹いっぱい。
2015/02/28(土) 23:20:35.29ID:tcO2M++f0char変換だけだと曜日とか一部化けるから、言語のエンコード系機能かなんか使う必要あるけど
単なるWebブラウザ殺しだわ
0265263
2015/02/28(土) 23:22:16.76ID:EEZAJ1z50なるほど、やっと理解した。IE,Chromeとも「最新50」で>>257と同じ現象が起きてる。なんてこった…
CFがぶっ壊れて名前欄とID欄が消えるから無理
0267名無しさん@お腹いっぱい。
2015/02/28(土) 23:31:28.32ID:eO/kN29Y0Email Protectionをオフにする要望も出てるけどスルーされてる
修理場 Carpenter Part.4
http://carpenter.2ch.net/test/read.cgi/operatex/1421829594/
0268名無しさん@お腹いっぱい。
2015/02/28(土) 23:32:37.10ID:1fgyu5Zo0いや、無理じゃないよ
閉じタグが誤ってエンコードされてるだけであってデコードすればちゃんと全部出てくる
0269名無しさん@お腹いっぱい。
2015/02/28(土) 23:33:15.89ID:tcO2M++f0いや余裕余裕
#からXの間を変換して/cdnからXまでと置き換えるといつも通りのhtml
あとは他と同じようにパースして整形
0270名無しさん@お腹いっぱい。
2015/02/28(土) 23:36:16.11ID:1fgyu5Zo00271名無しさん@お腹いっぱい。
2015/02/28(土) 23:38:56.52ID:tcO2M++f00272名無しさん@お腹いっぱい。
2015/02/28(土) 23:38:59.46ID:99NGaug400273名無しさん@お腹いっぱい。
2015/02/28(土) 23:40:40.77ID:1fgyu5Zo00274名無しさん@お腹いっぱい。
2015/03/01(日) 00:01:44.94ID:1iMp4NQ30>>234
http://anago.2ch.net/test/read.cgi/software/1424702481/384
これは?
0275名無しさん@お腹いっぱい。
2015/03/01(日) 00:14:50.13ID:M+I7sCK50意味が無え…。
0276名無しさん@お腹いっぱい。
2015/03/01(日) 00:16:03.09ID:CihT7Rxt0あーなるほど、そっちか
0277名無しさん@お腹いっぱい。
2015/03/01(日) 00:27:32.24ID:vDLohOSO0それはダメというか書いた本人がどこかのスレで言ってたような
けどここに書き込みしてる人たちのスキルは高そうなので
そのうちいいものができそうな気はする
0278名無しさん@お腹いっぱい。
2015/03/01(日) 00:27:46.34ID:LK0pL3R/0連中なかなかやるね
0279名無しさん@お腹いっぱい。
2015/03/01(日) 00:32:16.01ID:wtoICth60そりゃ専門にやってるんだからすぐ気付くだろう
こっちでも何日もかからず気付いたわけだし
0280名無しさん@お腹いっぱい。
2015/03/01(日) 01:29:13.11ID:LK0pL3R/0そうなんだけど、なんと言うかイタチごっこが無意味なくらい、何をやっても涼しい顔で付いてくるだけの技術があるって感じがね
当たり前っちゃ当たり前なんだけど、今の2chの運営って技術力からっきしな連中しかいないから
0281名無しさん@お腹いっぱい。
2015/03/01(日) 01:33:54.42ID:7sauQt5P0直す気がないんだか直せないんだか知らんけど
■ このスレッドは過去ログ倉庫に格納されています