タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

rubyとhtmlに関するkasedacのブックマーク (2)

  • RubyスクリプトでHTMLファイルからePubを生成·EeePub MOONGIFT

    EeePubはHTMLファイルを組み合わせてePubファイルを生成するRubyライブラリです。 電子書籍フォーマットと言えばePub。そんなePubを自分で作ろうと思うとフォーマットの形式を覚えたり、専用の記述方式を習得しなければなりません。しかしEeePubを使えばHTMLファイルからePubファイルを作成できます。 インストールはとても簡単です。「gem install eeepub」のみです。 まずサンプルを試します。スクリプトを実行するとePubファイルが生成されます。 実際に開いたePubファイルです。テキストオンリーですがきちんとePubとして読めます。 元ファイルになったHTMLです。普通にHTMLとして記述されています。HTMLファイルは複数指定できます。 実際のコードです。ePubのヘッダー情報と、実際のコンテンツを渡しています。後は目次にあたる部分を指定しています。最後

    kasedac
    kasedac 2011/10/19
    「gem install eeepub」
  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

    kasedac
    kasedac 2007/02/21
    "scRUBYt!はRuby向けのツールを組み合わせもので、HpricotとWWW::Mechanizeを統合し、さらにXPathよりも人間に分かりやすい構文が使えるようにしたもの"
  • 1