pdf→html TEX→html についてですが

**syokora** · 2006/06/05(月) 23:26:51

Webアプリケーションを作成することとなり、ブラウザ上でアップロード
すれば、自動で　pdfをhtml化　TEX（テフ）をhtml化　のどちらかの機能を
もったものを作りたいのですが、これは可能でしょうか？また、
可能な場合どのような手法をとればよいでしょうか？（言語など）

**sage** · 2006/06/06(火) 02:35:05

PDFをHTML化→Googleがすでに実現しているのでは。
ただし、PDFになった時点で、例えばTeXとかの構造に関する情報は失われているので、
“見た目”の再現しかできないと思う。それはHTML的ではないよね。

TeXをHTML化→ローカルで動くLaTeX2HTMLなどがそれなりに実用化されてるので、
充分に可能では。ソースをWeb経由でサーバに送って、サーバ上でLaTeX2HTMLで変換して、
結果を表示すればいいと思う。CGIでもPHPでもなんでもできるのでは。

どっちにせよ、すでに実現されているものなので、アプリケーションを作成するうえでの
新規性はなさげ。

**syokora** · 2006/06/06(火) 09:44:48

それが可能という前提なのですが、自動で　pdfをhtml化　
TEX（テフ）をhtml化　のどちらかを行い、そのときに
年度、所属、文書のジャンルなどでカテゴリわけも行うと
いうことは可能でしょうか？

**nobodyさん** · 2006/06/09(金) 21:36:14

>>3

PDFに適切なメタデータが付与されていれば、分類可能では。
TeXで作る時に、hyperrefパッケージとかで、pdfauthorやpdfkeywordに
きちんとデータを与えておけば、それを使ってデータベース化可能だと思う。
TeX→HTMLについても、ソースに\authorや\keywords, \institution（これら
はクラスファイルによってあったりなかったり）など、コマンドの引数として
情報が書いてあれば、それを使って文字列処理できるのでは。

# ただ、そういったデータがついていないファイルについては、誤分類
# 覚悟の上で、「本文中に工学部と書かれていれば所属タグを工学部にする」
# などの処理をするしかないかな。