pdf→html TEX→html についてですが
■ このスレッドは過去ログ倉庫に格納されています
0001syokora
2006/06/05(月) 23:26:51ID:???すれば、自動で pdfをhtml化 TEX(テフ)をhtml化 のどちらかの機能を
もったものを作りたいのですが、これは可能でしょうか? また、
可能な場合どのような手法をとればよいでしょうか?(言語など)
0002sage
2006/06/06(火) 02:35:05ID:I3k0I/ltただし、PDFになった時点で、例えばTeXとかの構造に関する情報は失われているので、
“見た目”の再現しかできないと思う。それはHTML的ではないよね。
TeXをHTML化→ローカルで動くLaTeX2HTMLなどがそれなりに実用化されてるので、
充分に可能では。ソースをWeb経由でサーバに送って、サーバ上でLaTeX2HTMLで変換して、
結果を表示すればいいと思う。CGIでもPHPでもなんでもできるのでは。
どっちにせよ、すでに実現されているものなので、アプリケーションを作成するうえでの
新規性はなさげ。
0003syokora
2006/06/06(火) 09:44:48ID:???TEX(テフ)をhtml化 のどちらかを行い、そのときに
年度、所属、文書のジャンルなどでカテゴリわけも行うと
いうことは可能でしょうか?
0004nobodyさん
2006/06/09(金) 21:36:14ID:???PDFに適切なメタデータが付与されていれば、分類可能では。
TeXで作る時に、hyperrefパッケージとかで、pdfauthorやpdfkeywordに
きちんとデータを与えておけば、それを使ってデータベース化可能だと思う。
TeX→HTMLについても、ソースに\authorや\keywords, \institution(これら
はクラスファイルによってあったりなかったり)など、コマンドの引数として
情報が書いてあれば、それを使って文字列処理できるのでは。
# ただ、そういったデータがついていないファイルについては、誤分類
# 覚悟の上で、「本文中に工学部と書かれていれば所属タグを工学部にする」
# などの処理をするしかないかな。
■ このスレッドは過去ログ倉庫に格納されています