タグ

develとXMLに関するgouei2001のブックマーク (2)

  • Gentleちゃれんじ Tips -lxmlでhtmlを処理する-

    lxmlでhtmlを処理する Pythonhtmlを取り扱う際は、「htmllib(標準モジュール)」や 「Beautiful Soup」 といったモジュールがあります。 しかし、高速で柔軟な操作がしたい場合は、 「lxml」がいいということなので、 今回はlxmlでhtmlを操作する方法をメモしたいと思います。 lxmlは、Beautiful Soupより高速で、htmllibより柔軟なhtml(xml)操作を可能にするのですが、 日語資料が少ないと言うのが難点でした。最低限のことならば、ちょっと英語を読めば、 何とかなりますが、ちょっと凝ったことをしようと思うと英語力がネックでつまづいてしまいました…。 そこで、今回は、自分がつまづいた所を中心に紹介したいと思います。 目次 htmlから情報を抽出する htmlソースを改変する まとめと補足 1. htmlから情報を抽出する htm

  • RSSのフォーマット・仕様・構造

    RSSフィードは、ウェブサイトやブログなどの更新情報を配信するために利用されているテキスト文書。 基はXML形式で記述されており、RSS1.0、RSS2.0、atom などの種類があり、それぞれ書式が異なる。 2005年~2010年にブログが流行り出した頃よく使われていたが、その後ブームが去り、デフォルトでRSS配信機能があるブログ以外では見かけることが少なくなった。 RSS関連のサービスは、スマホのアプリ以外は減っていった。 私も昔RSSフィードで更新情報を配信していた。 ユーザーのためというより、更新情報をpingサーバーに通知するために使用していた。 ただ、主要なpingサーバーがサービスを終了したためRSSの配信をやめた。 そして2024年、新しく追加したページ(URL)をGooglebotにクロールしてもらうためにRSSの配信を再開。 Googleサーチコンソールはサイトマップ

  • 1