トップページphp
4コメント2KB

pdf→html TEX→html についてですが

■ このスレッドは過去ログ倉庫に格納されています
0001syokora2006/06/05(月) 23:26:51ID:???
Webアプリケーションを作成することとなり、ブラウザ上でアップロード
すれば、自動で pdfをhtml化 TEX(テフ)をhtml化 のどちらかの機能を
もったものを作りたいのですが、これは可能でしょうか? また、
可能な場合どのような手法をとればよいでしょうか?(言語など)
0002sage2006/06/06(火) 02:35:05ID:I3k0I/lt
PDFをHTML化→Googleがすでに実現しているのでは。
ただし、PDFになった時点で、例えばTeXとかの構造に関する情報は失われているので、
“見た目”の再現しかできないと思う。それはHTML的ではないよね。

TeXをHTML化→ローカルで動くLaTeX2HTMLなどがそれなりに実用化されてるので、
充分に可能では。ソースをWeb経由でサーバに送って、サーバ上でLaTeX2HTMLで変換して、
結果を表示すればいいと思う。CGIでもPHPでもなんでもできるのでは。

どっちにせよ、すでに実現されているものなので、アプリケーションを作成するうえでの
新規性はなさげ。
0003syokora2006/06/06(火) 09:44:48ID:???
それが可能という前提なのですが、自動で pdfをhtml化 
TEX(テフ)をhtml化 のどちらかを行い、そのときに
年度、所属、文書のジャンルなどでカテゴリわけも行うと
いうことは可能でしょうか?
0004nobodyさん2006/06/09(金) 21:36:14ID:???
>>3

PDFに適切なメタデータが付与されていれば、分類可能では。
TeXで作る時に、hyperrefパッケージとかで、pdfauthorやpdfkeywordに
きちんとデータを与えておけば、それを使ってデータベース化可能だと思う。
TeX→HTMLについても、ソースに\authorや\keywords, \institution(これら
はクラスファイルによってあったりなかったり)など、コマンドの引数として
情報が書いてあれば、それを使って文字列処理できるのでは。

# ただ、そういったデータがついていないファイルについては、誤分類
# 覚悟の上で、「本文中に工学部と書かれていれば所属タグを工学部にする」
# などの処理をするしかないかな。
■ このスレッドは過去ログ倉庫に格納されています