タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

programmingとfulltextsearchに関するma_koのブックマーク (2)

  • PDF→text(特に日本語) - chalkless::weblog

    PDF Hacks ―文書作成、管理、活用のための達人テクニック 作者: Sid Steward,千住治郎出版社/メーカー: オライリージャパン発売日: 2005/03/29メディア: 単行購入: 3人 クリック: 53回この商品を含むブログ (20件) を見るすでに、あちこちで議論はなされているのだが、少しかじってみる羽目に。 このでも触れられているのだが、処理するのには、pdftotextというのとpdftkの2通りがある。前者は文字通り、PDFをテキスト情報にするもの。後者は、もともとPDFを合体さすとか抽出さすもので、読んでも中身がわからんものをdecodeして、それをいじってテキストにしようという魂胆である。いずれにせよ、英語の場合は楽なのだが、日語になると途端に課題は困難となる。両方いじってみたが、前者の方がうまく日語が出たので(体裁は不満だが)、そっちの方で。 インス

    PDF→text(特に日本語) - chalkless::weblog
    ma_ko
    ma_ko 2011/07/04
    このページお役立ち. GJ!!
  • Lucene - PukiWiki

    FrontPage Luceneとは? † Jakarta Luceneは完全にJavaで書かれたハイパフォーマンスな全文検索エンジンのライブラリです。Luceneは全文検索が必要なアプリケーションに適しています。特にクロスプラットフォーム性を重視する場合は有用です。Javaの検索エンジンとしては、Namazu on Java2等もありますが、Namazu on Java2はライセンスがGPLで公開されており、(GPLが悪いという訳ではありませんが...)Namazu on Java2をアプリケーションに組み込むと開発したアプリケーションにもGPLが適用されます。LuceneはApache Software Licence 2.0で配布されており、アプリケーションに組み込んでもソースコードを公開する必要はありません(もちろん公開しても構いません)。LuceneはEclipseのヘルプの検索

  • 1