Pythonのお勉強 Part50

**デフォルトの名無しさん** · 2014/10/17(金) 00:41:32.40

Pythonオフィシャルサイト
http://www.python.org/
日本Pythonユーザ会 (※英語わかる人は上記のオフィシャルの方を見ることをお薦めします)
http://www.python.jp/
まとめWiki
http://python.rdy.jp/
関連スレ
http://find.2ch.net/?BBS=ALL&;TYPE=TITLE&STR=python
Pythonのお勉強 Part49
http://peace.2ch.net/test/read.cgi/tech/1387528488/

日本語の扱いで戸惑ったらこちらをどうぞ（バッドノウハウ集で笑える）
ttp://speirs.blog17.fc2.com/blog-entry-4.html
ttp://atomic.jpn.ph/prog/etc/encode.html
ttp://d.hatena.ne.jp/kakurasan/20100330/p1

ttp://pc11.2ch.net/test/read.cgi/tech/1217836194/339
339 ：デフォルトの名無しさん：2008/08/23(土) 08:36:00
PythonのUnicodeEncodeErrorを知る
ttp://lab.hde.co.jp/2008/08/pythonunicodeencodeerror.html

よくまとまってた。あとで読む

**デフォルトの名無しさん** · 2014/12/06(土) 16:20:34.40

例外処理という単語が指す対象による

例外ブロックを作ったことによる効率低下は大したことない
一部の最適化ができなくなるくらいだから

一方、実際に例外を投げたなら、どの言語でもそれなりのコストを生じる

**デフォルトの名無しさん** · 2014/12/06(土) 16:29:48.62

０除算は例外出るので有名だけど
いちいちif文なんか実行してないから

**デフォルトの名無しさん** · 2014/12/07(日) 02:49:25.06

話の流れがわかってない子がいるみたいだね

**デフォルトの名無しさん** · 2014/12/07(日) 05:08:55.57

ifより例外のほうが重いイメージ

**デフォルトの名無しさん** · 2014/12/07(日) 10:45:35.98

お前はたぶん馬鹿だから無理だろうなというイメージ

**デフォルトの名無しさん** · 2014/12/07(日) 10:49:56.50

ぶっちゃけPythonで例外のコスト気にするようなプログラム書いたことねえよという事実

**デフォルトの名無しさん** · 2014/12/07(日) 12:51:19.52

まあループ最適化の脱出条件に例外使えば
最適化できるという誤解は誰もが通る道だわな

**デフォルトの名無しさん** · 2014/12/07(日) 12:54:25.49

PythonにもEffectiveJava的な本があるといいね

**デフォルトの名無しさん** · 2014/12/07(日) 13:12:03.36

そういった例外の使い方は例えばjvmでやると標準イデオムと比べて70倍程度は遅くなる
可読性もデバックのやりやすさも捨ててやることじゃない
10年以上前には話題に登ってて覚えてたんだが
pythonのvmは2001年時点のjvmより
おバカなのか？

**デフォルトの名無しさん** · 2014/12/07(日) 13:15:52.02

VMってかCPythonのインタプリタの実装は
かなり馬鹿正直、というか原始的なものだよ

**デフォルトの名無しさん** · 2014/12/07(日) 13:17:41.90

でもおじさんも計測してないや
pythonだとひょっとすると例外の方がはやいかもね

**デフォルトの名無しさん** · 2014/12/07(日) 13:30:04.59

多重ループ抜けるのにおもむろにオレオレエラー投げることはある

**デフォルトの名無しさん** · 2014/12/07(日) 13:32:59.51

PEP234でイテレータの終了判定にStopIterationを採用したことについて

> It has been questioned whether an exception to signal
> the end of the iteration isn't too expensive.

と述べられてる。
あまりコストが高くはなかったとはいえ、低いわけではない。
しかし続きを読むと分かるように、実装をシンプルに行えるメリットを彼らは選んだ。

**デフォルトの名無しさん** · 2014/12/07(日) 13:53:30.07

コストなんざプロセッサが速くなれば屁でもなくなる
でも、コストを重視した設計やコードのツケはずっと残る

**デフォルトの名無しさん** · 2014/12/07(日) 14:11:22.03

どうかなー2倍速かったらクラスタのインスタンス数2分の1にできますよ
一概に容認されうるものじゃないと思うね

**デフォルトの名無しさん** · 2014/12/07(日) 14:15:51.13

http://ideone.com/MfOOfM
数値配列末尾に文字列入れて
意図的に例外で落とすようにしたらふつうのループの２倍程度遅い
でもif+型チェックよりは例外のほうが早かった

なんとも微妙な・・・

**デフォルトの名無しさん** · 2014/12/07(日) 17:17:03.41

8おめこ

**デフォルトの名無しさん** · 2014/12/07(日) 18:17:38.73

>>186
例外が発生しなければ try/except のコストは極めて低いので、めったに発生しない例外ならば
例外を扱ったほうが良いというのFAQのどっかにあったね。

**デフォルトの名無しさん** · 2014/12/07(日) 19:32:02.09

try/except事態は早くてスタックフレームの巻き戻しとか重い操作は raise の時にやるんだよね

**デフォルトの名無しさん** · 2014/12/07(日) 22:39:07.66

scipyのcurve_fitで、収束が悪くてある計算時間を超えたらスキップさせて次に飛びたいんですけど、どうしたら良いでしょうか？

**デフォルトの名無しさん** · 2014/12/08(月) 07:36:33.23

>>182
C# だけど、まさにそのコード書いたばかりだ w

**デフォルトの名無しさん** · 2014/12/08(月) 09:59:10.61

今までみたPythonの例外処理で一番面白かったのはこんなの
http://atomic.jpn.ph/prog/etc/encode.html
http://speirs.blog17.fc2.com/blog-entry-4.html
http://d.hatena.ne.jp/kakurasan/20100330/p1

**デフォルトの名無しさん** · 2014/12/08(月) 10:14:48.98

>>192
エンコードが不明な文字列を片っ端からデコード試して
上手くいった奴が正解なんだよな
モヤモヤするけどね

**デフォルトの名無しさん** · 2014/12/08(月) 10:57:48.21

エンコードが成功とか失敗とかどうやって判断してるか不思議なんだけど
人間だったら文字化けしてるの見て違うって判断できるけど

**デフォルトの名無しさん** · 2014/12/08(月) 11:17:03.49

もちろん例外が出ない意地悪な文字列を送り込むことは可能
あと例外出させるのにも判定の順番が微妙に影響する
どのコードで先にエンコードしてみるかっていうのが結構重要

**デフォルトの名無しさん** · 2014/12/08(月) 11:20:00.98

あと例えば送られてきたメールに
「ーソЫⅨ噂浬欺圭構蚕十申曾箪貼能表暴予・・・」
っていう文字列を発見して

「文字化けしてるっ！」て騒ぐひともいるし
「ああテストしてんだな」って暗黙の了解するひともいる

**デフォルトの名無しさん** · 2014/12/08(月) 11:21:52.23

>>195 の訂正
エンコードじゃなくてデコードと言うべきか

**デフォルトの名無しさん** · 2014/12/08(月) 12:22:31.05

>>194
対応するコードがエンコード先の領域外、未定義だったら失敗でいいんじゃないか。
nkfみたいにマッピングしてるとこもあるかもだけど。

**デフォルトの名無しさん** · 2014/12/08(月) 21:25:30.06

どうもありがとう
> 対応するコードがエンコード先の領域外、未定義だったら失敗
これだったらたしかに失敗ははっきりするね
それにあてはまらない場合もあってそのときは
けっこう微妙な判定をしてるってことかな

**デフォルトの名無しさん** · 2014/12/09(火) 08:02:03.59

ファイルを読み込む時には、バカの一つ覚えのように
decode('utf8')を行ってきましたが、正規表現の処理
をしない場合には必要ありませんよね？

**デフォルトの名無しさん** · 2014/12/09(火) 08:05:14.29

ああー馬鹿の一つ覚えですねそれ

**デフォルトの名無しさん** · 2014/12/09(火) 08:22:35.48

古来ダメ文字問題とか起こしてたのはこいつらです

**デフォルトの名無しさん** · 2014/12/09(火) 14:11:10.31

文字コードとかpython3になったらトラブル減るからいいやと、真面目に取り組む気がしない。
そう思って数年、未だに2系…。

**デフォルトの名無しさん** · 2014/12/09(火) 19:17:54.02

『業務に役立つPerl』っていう本に「日本語を扱うための基本三原則」っていうのが出てたんだけど、
Pyhonも基本この考え方でいい？（ソースコードは文字コードさえちゃんと指定しとけば何でもいいという理解だけど）

・原則1：外部から入力された文字列はデコードして内部文字列に変換する
・原則2：外部へ出力する文字列はエンコードしてバイト文字列に変換する
・原則3：ソースコードはUTF-8で保存し、utfプラグマを有効にする

**デフォルトの名無しさん** · 2014/12/09(火) 19:37:38.16

>>204
バイト文字列って何だろ？
バイナリファイルのこと？

**デフォルトの名無しさん** · 2014/12/09(火) 19:51:55.53

>>205
当該本には

「バイト文字列」は、「バイナリ表現」「オクテット文字列」
「バイトストリーム」「バイト列」などと呼ばれることがあります。

バイト文字列はPerlから見た場合は単なるバイト列のように見えます。
知っているのはプログラマだけで、Perlはそれが文字列であるかどうかを知りません。

と書いてあります。

**デフォルトの名無しさん** · 2014/12/09(火) 20:03:39.61

perlのそういうのが嫌で他の言語を探してpythonを試してるのに

**デフォルトの名無しさん** · 2014/12/09(火) 21:35:24.14

>>206
やっぱりテキストをバイナリデータに変換して外とやりとりすべし、という風に読めるな
だとしたら、その原則は言語に関係ないよ
メインフレームなど異質なアーキテクチャのコンピュータまで視野に入れれば、バイナリで
データをやりとりした方が無難という一般論に近い話だ
PC同士、ましてWindows同士ならば、cp932のテキストのままで何の問題もない
むしろutf-8などという後から出てきたコードに変換する方が恐い

**デフォルトの名無しさん** · 2014/12/09(火) 22:18:44.43

今頃何を言ってるんだ？

**デフォルトの名無しさん** · 2014/12/09(火) 22:24:28.18

>>209
今やっちゃいけない話なのか？

**デフォルトの名無しさん** · 2014/12/09(火) 22:54:18.19

>>204
Python2ならそれと同じ

# coding: utf8
buf = open(...).read() # bufはstr（バイト文字列）
ustr = buf.decode("cp932") # CP932なバイト文字列をUNICODE文字列に変換
print ustr.encode("utf8") # UNICODE文字列をバイト文字列にして出力

**デフォルトの名無しさん** · 2014/12/09(火) 22:56:16.84

>>210
やってもいいけど、はたから見たら老害でしかないぞ

**デフォルトの名無しさん** · 2014/12/09(火) 23:44:44.11

>>212
そうか。>>208の回答を老害と言ってのける君は、さぞ素晴らしい回答をお持ちなのだろう
ぜひとも>>204に答えてあげてほしい
まさか批判だけして質問には答えないってことはないよね？

**デフォルトの名無しさん** · 2014/12/09(火) 23:51:43.65

今時外とやりとりするのにCP932推奨とか老害以外の何者でもないな。

**デフォルトの名無しさん** · 2014/12/10(水) 00:01:59.64

>>213

>>211 に十分な答えが書いてある。
入力でデコード出力でエンコード

老害さん以外誰も「Windowsだったら中でCP932使ってるから外に出すときもそのままで問題ないUTF-8に変換なんて恐ろしい」なんて事は書いてない

**デフォルトの名無しさん** · 2014/12/10(水) 00:05:37.30

>>213
>>204 で問題ないだろ
何を言ってるんだよ w

**デフォルトの名無しさん** · 2014/12/10(水) 02:01:12.95

utf8だとメモ帳て文字化けするから
cp932に全部代えてくれとか要望でたりする

**デフォルトの名無しさん** · 2014/12/10(水) 02:08:07.23

変換するツールを作ってくれ、のがいろいろ使えて便利だと思うんだけどなぁ。

**デフォルトの名無しさん** · 2014/12/10(水) 02:30:51.47

文字コードにある程度ルーズでもなんとかなるpython3さん流行れ

**デフォルトの名無しさん** · 2014/12/10(水) 02:37:11.79

Python2はフォーク(ていうかごっそり移動して)して別言語になれ。
これがwin-win。

**デフォルトの名無しさん** · 2014/12/10(水) 03:21:24.95

中間コードに変換すりゃいいよ

**デフォルトの名無しさん** · 2014/12/10(水) 03:42:57.87

よし、中間にうにこーどつかうぞー

**デフォルトの名無しさん** · 2014/12/10(水) 05:05:58.97

Ethernet経由で流れてくるセンサデータ（パケット）を
Python 2.7 or 3以降で処理したいのですが、
丁度いいパッケージはありませんか?
.pcap形式で一旦溜めずに、逐次処理できる方法を
探してます。

当方Win7 64bit、センサはたとえば
北陽UTM-30LX-EWを想定しています。

**デフォルトの名無しさん** · 2014/12/10(水) 07:20:42.27

>>217
いつの時代のメモ帳だよ w

**デフォルトの名無しさん** · 2014/12/10(水) 07:42:08.52

たぶんbomがついてないのだろう

**デフォルトの名無しさん** · 2014/12/10(水) 08:04:12.84

>>223
TCP か UDP か分かんないけど、
こんなもんでどう？

Lib/http/server.py
Lib/socket.py
Lib/socketserver.py

標準でどうでしょう？
最初は中を覗いてみるのをお勧めする。

**デフォルトの名無しさん** · 2014/12/10(水) 08:22:01.95

bomつきutf8とかいみふめいなんだけど？

**デフォルトの名無しさん** · 2014/12/10(水) 08:33:52.77

>>227
意味不明なのはいいけど、頑なに BOM を目の敵にするのはやめてくれ
流通しちゃってるんだから、書けなくていいから読み取りは対応しろよ...

**デフォルトの名無しさん** · 2014/12/10(水) 08:52:47.05

突っぱねる権限があるならいいだろ
有象無象の雑魚なら発狂しとけ

**デフォルトの名無しさん** · 2014/12/10(水) 09:16:51.66

どうもありがとう
Python2なら同じ考え方でいいんだね

Python3だとどうなるのかな
書き方が違うだけで同じことはできるみたいだけど
文字コードにある程度ルーズでもなんとかなる、よりも
多少面倒でもこれさえしとけばOK、ていう原則がはっきりしてるほうが
書く方は楽だと思うんだけど…でも3のほうが文字コードの扱いについては進歩してるんだよね？

#coding: utf8
ustr = open(encoding="cp932").read()
print(ustr.encode("cp932"))

**デフォルトの名無しさん** · 2014/12/10(水) 09:59:22.81

>>209-210

>208 のは
前半はそれで合ってるが最後の一文で台無しだな

SJISで出力すると内部コードの中にSJISに変換できない文字列が含まれてると死ぬ
UTF-8なら少なくともその問題はない

**デフォルトの名無しさん** · 2014/12/10(水) 10:06:29.84

>>227
BOM付UTF-8がイミフなのは同意だが
MSが推奨してるっぽいな
メモ帳とかVisualStudioとか
もうMSを見捨てる時期に来てる

**デフォルトの名無しさん** · 2014/12/10(水) 10:09:51.61

>230
printの中でencodeは好ましくないと思う
せめて
print(ustr)
か
sys.stdout.write(ustr.encode("cp932"))
のどちらかだけ(両方でも良いけどこの2つのどちらかって意味)を使うべき

**デフォルトの名無しさん** · 2014/12/10(水) 12:34:20.48

>>231
> 前半はそれで合ってるが

ここにも老害かよ
早く引退しろよ

**デフォルトの名無しさん** · 2014/12/10(水) 16:41:38.28

いまどきはテキストだろうが何だろうが圧縮で転送だよな
エンコード相違の問題の発生しようがない

**デフォルトの名無しさん** · 2014/12/10(水) 17:29:42.68

つまんねーギャグだな
生きてる価値なし

**デフォルトの名無しさん** · 2014/12/11(木) 01:28:31.04

>>233
bstr = ustr.encode("cp932")
print(bstr)

ならいいですか？

**デフォルトの名無しさん** · 2014/12/11(木) 05:24:02.53

>>237
だめ

**デフォルトの名無しさん** · 2014/12/11(木) 05:48:35.51

どういう理由だからダメなのか書いてくれよ
ここの人たち、レスがごくわずかなうえに不親切だよな

**デフォルトの名無しさん** · 2014/12/11(木) 07:07:17.75

実際に試してから言えよ
python3のprintはbytesをそのまま出力しないなんて実行すりゃ一発でわかるだろ

**デフォルトの名無しさん** · 2014/12/11(木) 07:12:44.33

馬鹿ですか？
立っている奴は親でも使えって言うでしょ
あんた親ですらないし
生きている限りは俺の役に立てよ
分かったか？スットボケ野郎

**デフォルトの名無しさん** · 2014/12/11(木) 07:27:33.17

10年以上使ったperlからpythonに
乗り換えて2年だが、日本語エンコ
ード関連のエラーが全体の6割程度
という感じ。ただ、perlに比べて
pythonは圧倒的に分かりやすいの
で、そのエラーも直ぐに解決できる。
　
　

**デフォルトの名無しさん** · 2014/12/11(木) 07:31:45.14

なんで ++ ないの?

**デフォルトの名無しさん** · 2014/12/11(木) 07:49:25.24

お前のために誂えた言語じゃないからだよ

**デフォルトの名無しさん** · 2014/12/11(木) 07:52:45.08

>>243
http://stackoverflow.com/questions/3654830/why-are-there-no-and-operators-in-python

**デフォルトの名無しさん** · 2014/12/11(木) 07:57:54.58

=+1と変わらないし、あっても意味がありません(1文字でもタイプ数が増えると指が折れる体質というなら別ですが)
完全にオリジナルの理由については古いメーリングリストを参照するか、グイドに聞いてください
我々は国語の先生じゃありませんから、作者の心情など知りません

**デフォルトの名無しさん** · 2014/12/11(木) 08:30:20.10

>>243
Rubyも同じこと言ってた

**デフォルトの名無しさん** · 2014/12/11(木) 09:55:41.16

>>240
試してみたけどちゃんとバイト列を出力するよ

>>> print('感動巨編'.encode('utf-8'))
b'\xe6\x84\x9f\xe5\x8b\x95\xe5\xb7\xa8\xe7\xb7\xa8'

**デフォルトの名無しさん** · 2014/12/11(木) 10:27:19.77

>>246
> =+1と変わらないし

バグ作り込んでるんじゃねーよ w

**デフォルトの名無しさん** · 2014/12/11(木) 14:45:55.70

>>248
それがどうかしましたか？

**デフォルトの名無しさん** · 2014/12/11(木) 15:16:27.95

printの引数はunicode文字列ってそんなに難しいこと？

**デフォルトの名無しさん** · 2014/12/11(木) 18:00:18.64

>>250
>>240で、「bytesをそのまま出力しない」って書いてあるんだけど
そのまま出力してるように見える

**デフォルトの名無しさん** · 2014/12/11(木) 19:13:40.76

>>252
__str__を呼んだ結果が出力されてる
おちょくってんならさっさとそう言って

**デフォルトの名無しさん** · 2014/12/11(木) 19:39:58.38

誰かこの全く話が噛み合わない流れを仲介してくれないか
>>240の真意が>>253であるのなら、
それは俺の疑問である>>239に対する答えになっているのか？

**デフォルトの名無しさん** · 2014/12/12(金) 00:48:08.07

そもそも具体性がなさすぎる
改める様子もないし気分を害したので無視する

**デフォルトの名無しさん** · 2014/12/12(金) 00:53:13.73

カウンターをインクリメントして、みたいな仕組みはみんな内蔵されてるからな
1だけ足す、みたいな処理が必要になったら、それは大抵使いこなせていない

**デフォルトの名無しさん** · 2014/12/12(金) 01:55:03.95

最初に>>204を書き込んだ者です。質問の背景としては、
Perlにおいていろんな本やサイトの記述を読んでも
文字コードエラーがなくならず嫌になりかけていたところ、
>>204の三原則にそって考えるようにしたら
文字コードエラーがぴたっと止まったという経験がありました。
ですが無意識には、Python2と3では文字コードの扱いは変わったはず、
だとすればこの両者で同じ原則が通用するのかしないのか、
通用するのなら文字コードの扱いが変わった意味は…
といったもやっとした問題意識があったようです。

Python2については同じ考え方でよいという返事をいただきました。
Python3については考え方については特に返事はいただいてないですが、
printでencodeはしてはいけないという指摘があり、どうやら
Python3では>>204の三原則をそのまま適用というわけにはいかないようだとわかりました。
日本語の扱いが楽になったといわれているPython3で、身に付いた考えが
使えないのは私にとってはジレンマなのですが…

教えていただいたことを手がかりにもう少しPythonの文字コードについては
勉強を続けていきたいと思います。
質問に答えていただいたみなさん、ありがとうございました。

**デフォルトの名無しさん** · 2014/12/12(金) 04:06:58.15

>printでencodeはしてはいけないという指摘があり、どうやら
>Python3では>>204の三原則をそのまま適用というわけにはいかないようだとわかりました。

なんでそうなる

**デフォルトの名無しさん** · 2014/12/12(金) 04:11:07.43

頭悪い香具師って
自分の妄想で思い込んだ勝手な結論で
さらに勝手な論理を展開する
そして新たにめちゃくちゃな結論を捏造するよな

朝日新聞の読み過ぎ

**デフォルトの名無しさん** · 2014/12/12(金) 05:13:35.78

>>257
その三原則のモデルが素朴に適用されてるのはPython2だから
そっちで慣れてから必要になれば3に移行するのでもいいのでは

Python3の入出力については下のopen()とprint()をよく読んで
https://docs.python.org/3/library/functions.html

**デフォルトの名無しさん** · 2014/12/12(金) 06:48:06.42

>>258
Perlでは出力するときは常にencodeしてそれで全く問題ありませんでしたので、
それがそのまま適用できないという意味ではそうなります。

>>260
ありがとうございます。よく読んでみます。

**デフォルトの名無しさん** · 2014/12/12(金) 07:51:36.39

python3 は３原則に則ってるだろ
print() は python 側が encode してくれるから
人間が encode したものを渡すのは間違い

**デフォルトの名無しさん** · 2014/12/12(金) 11:19:16.99

>>262
>print() は python 側が encode
文字列の処理を行う場合に、最終的にはwrite()
でファイルを出力する場合が多いが、途中、デ
バッグ作業でprint()でターミナルに文字列を出
すことがある。print()で問題がないことを確認
した後に、そのままwrite()で出力することが多い
ため、write()でトラブルがないようにprint()の
段階で、事前に「人間が encode した」状態に
して作業をしてきた。もっと効率的な方法はあ
るか？！

**デフォルトの名無しさん** · 2014/12/12(金) 11:44:36.73

そういうのはprintじゃなくてsys.stdout.write使え

**デフォルトの名無しさん** · 2014/12/12(金) 11:46:13.65

あとloggerをconsoleに繋ぎ変えて出力か

**デフォルトの名無しさん** · 2014/12/12(金) 13:35:52.67

文字列をわざわざエンコードして確認することで、いったい何の効率があがるというのか

ちなみにprint()でfile objectにも出力できる
>>> with open("hello.txt", "w") as f:
print("ハロー", "ワールド", "!", sep="\n", end="", file=f)

>>> with open("hello.txt", "r") as f:
print(f.read())

ハロー
ワールド
!

**デフォルトの名無しさん** · 2014/12/12(金) 15:06:48.59

>>266
揚げ足取りだけどencoding設定しよう

**デフォルトの名無しさん** · 2014/12/12(金) 15:39:20.54

loggerもまともに使えない奴多いからprintは廃止かどっかのモジュールに追い出して欲しいとすら思う

**デフォルトの名無しさん** · 2014/12/12(金) 16:08:24.74

pprintの方が便利

**デフォルトの名無しさん** · 2014/12/12(金) 22:08:55.47

# で始まるとコメントだと言ってる癖に、codingと書くと動作が変わる変態言語