[B! scraping] yterazonoのブックマーク

yterazono id:yterazono

scrapingに関するyterazonoのブックマーク (28)

Goとgoqueryでスクレイピング - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
yterazono 2018/11/19
Golang

scraping

goquery
リンク
Google Search
If you're having trouble accessing Google Search, please click here, or send feedback.
yterazono 2018/11/19
Golang

scraping

goquery

***あとで調べる***
リンク
GitHub - PuerkitoBio/goquery: A little like that j-thing, only in Go.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yterazono 2018/11/19
Golang

scraping

goquery
リンク
Go言語のスクレイピング系ライブラリまとめ - Qiita
Go言語のスクレイピング系ライブラリまとめ Goでスクレイピングしようと思い、ライブラリを探していた際に行き当たったパッケージをまとめます。調査段階なので一部しか利用はしておらず、実際の使い勝手等はわからないです。後々ピックアップして試していきますが、オススメがあればご意見ください！ scrape A simple, higher level interface for Go web scraping.って。その物言い嫌いじゃない。 2015/06/25から更新されていないがStarは一番多い(2016/03/01現在) Find,Attr,Textがあるので王道的な感じがします godoc有り goquery jQueryに近しい構文と使い勝手が実現できる net/htmlとcascadiaをつかっているみたいでJSerとしては相性が良さそういろんなライブラリで使われているライブラリ
yterazono 2018/11/19
Golang

scraping

goquery
リンク
Scraping Framework for Golang
Colly provides a clean interface to write any kind of crawler/scraper/spider With Colly you can easily extract structured data from websites, which can be used for a wide range of applications, like data mining, data processing or archiving. Features Clean API Fast (>1k request/sec on a single core) Manages request delays and maximum concurrency per domain Automatic cookie and session handling Syn
yterazono 2018/11/19
Golang

scraping

colly
リンク
GitHub - gocolly/colly: Elegant Scraper and Crawler Framework for Golang
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yterazono 2018/11/19
Golang

scraping

colly
リンク
goのスクレイピングフレームワークColly - Qiita
package main import ( "fmt" "github.com/gocolly/colly" ) func main() { c := colly.NewCollector() // リクエスト許可するドメインの設定 c.AllowedDomains = []string{"jp.leagueoflegends.com", "support.riotgames.com"} // HTMLもらった時に実行するコールバック c.OnHTML("a[href]", func(element *colly.HTMLElement) { link := element.Attr("href") fmt.Printf("見つけたリンク: %q -> %s\n", element.Text, link) // 見つけたリンクにリクエスト c.Visit(element.Request.A
yterazono 2018/11/19
Golang

scraping

Colly

***優先して試す***
リンク
クローラー／Webスクレイピング＆RPA Advent Calendar 2018 Advent Calendar 2018 - Qiita
クローラー／スクレイピングに関する話題ならなんでも誰でも OK な Advent Calendar です。 Webからどうやって情報を集めるか、いろいろな方法を共有しましょう。例言語別のクローラー／スクレイピング方法ノンプログラムで使えるサービスやっぱりExcel最高！！情報収集に関する注意点（著作権法、岡崎図書館事件）クローラー／スクレイピング本について時代はRPAでしょ過去のやつ 2017年: https://qiita.com/advent-calendar/2017/crawler 2016年: https://qiita.com/advent-calendar/2016/crawler 2015年: http://qiita.com/advent-calendar/2015/crawler 2014年: http://qiita.com/advent-calend
yterazono 2018/11/16
scraping

crawler

Advent Calendar
リンク
NTT40年の自然言語処理技術を結集して「いつどこで誰が何をどうしたゲーム」を作った【Python & Webスクレイピング & COTOHA API】 - Qiita
タイトルはアオリです。全然使いこなせてないので予めご了承ください。やりたいこと Python素人なので勉強したい。 Webスクレイピング素人なので実装したい。自然言語処理(NLP)素人なので使ってみたい。 →PythonでWebスクレイピングしてその結果を言語処理するアプリケーションを作る。作ったものスクリプトに引数として単語を与えると、その単語のWikipedia記事を解析。「いつ」「どこで」「だれが」「なにを」「どうした」に分解し、ランダムにそれらを組み合わせて表示する。動作例 (豊臣秀吉のページ解析) $ python cotoha_api_wikipedia.py "豊臣秀吉" word:豊臣秀吉 text_number:170 100%|███████████████████████████████████████████████████████████| 170/1
yterazono 2018/10/31
Python

scraping

COTOHA API

NLP

Natural Language Processing

自然言語処理
リンク
Evernoteの全ノートのテキストをBeautifulSoupとSQLAlchemyを使ってSQLiteに保存する - Qiita
evernoteの全文を抽出する必要がありその時に使った方法を公開します。 Evernote APIを使えばできそうですが、それほどのことでないので面倒ですよね。そこで、全ノートをhtml形式で出力してBeautifulSoupでスクレイピングする方法を紹介していきます。 Evernoteの全ノートをhtml形式で出力するまず、Command + Aで全ノートを選択します。そこからノートをエクスポートします。出力する形式はhtmlを選択してください。今回はこれをmynoteとしてデスクトップに保存します。 mynoteのindex.htmlには出力したファイル全てのノートの目次になっていて、各htmlファイルへのリンクがあるのでそれを利用します。手順としては index.htmlから出力するノートのurlを抽出する。 url先からテキストを抽出する。それをSQLiteに保存する。
yterazono 2018/10/22
Evernote

Beautiful Soup

scraping
リンク
記事のスクレイピングを機械学習で自動化 - Qiita
Help us understand the probl em. What is going on with this article?
yterazono 2018/10/22
Machine Learning

scraping

***あとでよく読む***
リンク
Qiitaの記事データをQiita API, Scrapyで収集 - Qiita
はじめにこの記事ではQiita APIおよびScrapyによるクローリング、スクレイピングによってQiitaの記事データ（タイトル、「いいね」数、投稿日時など）を取得しCSVファイルとして保存する方法を紹介する。基本的にはQiita APIを使うべきだが、「ストック」数ランキングに限ってはスクレイピングで取得するほうが簡単。以降のQiita APIやQiitaのサイトについての記述はすべて2018年8月15日時点の仕様。収集したデータの分析については以下。 Python, pandasによるデータ分析の実践（Qiita記事データ編） ※普段は自分のサイトに書いているのですが、Qiitaのデータを使わせてもらった内容はQiitaに書くのが筋だろうと思いこちらに書くことにしました。「いいね」と「ストック」 Qiitaには「いいね」と「ストック」がある。もともとは「ストック」だけだ
yterazono 2018/10/22
Scrapy

***あとでよく読む***

scraping
リンク
Python + Selenium で Chrome の自動操作を一通り（ログイン、ダウンロード、他）
はじめに Python + Selenium + Chrome で、要素の取得、クリックなどの UI系の操作、待機、ページ全体のスクリーンショットなど、一通り試してみます。 PhantomJS はもう更新されないということなので、ブラウザは Chrome にします。この記事には、Selenium の API に関する情報と Chrome に特化した情報がありますが、前者の Selenium の使い方に関する情報は Firefox など別のブラウザでも使えます。注意事項ウェブの自動テストやスクレイピングで使われる技術です。特にスクレイピングでは、著作権の問題や、サーバー側の負荷、各種規約（会員としてログインする場合の会員規約等）やマナーなどを考慮する必要があります。たとえば、Twitter など利用規約で明示的にスクレイピングが禁止されていることや、robot.txt などでクローリ
yterazono 2018/10/17
Python

Selenium

Chrome

Headless

***あとでよく読む***

scraping
リンク
【毎秒1万リクエスト!?】Go言語で始める爆速Webスクレイピング【Golang】 - Qiita
はじめに Webスクレイピング、みなさん大好きですよね。私は大好きです。今回は秒間1~10万リクエストを送る方法をご紹介したいと思います。だだし注意していただきたい所があります。過剰なリクエストは相手のサーバーに負担をかけ、最悪訴訟問題となります。有名なものだとLibrahack事件とも呼ばれる岡崎市立中央図書館事件と言うものがあります。岡崎市立中央図書館事件 - wikipedia Webスクレイピングの注意事項一覧また、相手のサーバだけではなく、通信業者（プロバイダ）等から目をつけられる可能性もあります。最悪の場合通信業界のブラックリストに入り一生ネット契約ができなくなるかもしれません。（存在するかは知りません）それらを考えた上で、スクレイピングを行いましょう。（もちろん許可取ったり、著作権とかも考えてね！）あくまで技術的にこうすればできるよという知見と考えてくださ
yterazono 2018/09/14
Golang

scraping
リンク
WebSub/PubSubHubbubでウェブサイトのインデックスを速くする-wordPressプラグイン| テクワク
yterazono 2018/09/14
PubSubHubbub

WebSub

scraping
リンク
Webスクレイピングマスターが教える「スクレイピング対策」@09/16追記 - Qiita
はじめにこんな記事書いてる人です。 Python Webスクレイピングテクニック集「取得できない値は無い」JavaScript対応@追記あり2/28 Python Webスクレイピング実践入門【毎秒1万リクエスト!?】Go言語で始める爆速Webスクレイピング【Golang】スクレイピングが大好きで、スクレイピングするためにAWSやVPS、Docker、サーバーレスなどなど1から勉強したりする人です。（もちろん遊びの範囲で）今回はそんな毎日スクレイピングしている自分がされたら嫌だなぁって思う現実的なスクレイピング対策を教えます。(Flash使えばいいじゃんとか極論はNG) ※この記事はスクレイピングの対策であって、SEO的に不利になったりすることもあります。ご注意を趣味で一つのVPS環境で複数のドメイン・サイトを管理できるCMSを作ったりもしてます。 1 サイトマップ・RSSフ
yterazono 2018/09/14
scraping

***あとでよく読む***

PubSubHubbub

WebSub
リンク
ヘッドレスChromeでスクレイピングする例 - Fuji Haruka's blog
ヘッドレス Chrome でスクレイピング。かなり手軽にやれることがわかった。簡単な例をいくつか書いてみた。準備は npm install chromy するだけ。 Google 検索して、タイトルとURLを取ってくる Amazon 検索して、本のタイトルを取ってくる Instagram ハッシュタグで検索して、画像のURLを取ってくる
yterazono 2018/09/12
chromy

Headless

Chrome

scraping

Instagram
リンク
Puppeteerがクローリングに使えそう
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yterazono 2018/09/12
puppeteer

scraping

***あとでよく読む***
リンク
Google Search
If you're having trouble accessing Google Search, please click here, or send feedback.
yterazono 2018/09/12
***あとで調べる***

Chrome

Headless

scraping
リンク
[Python] スクレイピング in AWS Lambda - Qiita
# !/usr/bin/env python import time # for sleep import os # for path import signal import selenium from selenium import webdriver from selenium.webdriver.support.ui import Select from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.desired_capabilities import DesiredCapabilities def lambda_handler(event, context): # set user agent user_agent = ("Mozilla/5.0 (Macintosh; Int
yterazono 2018/09/12
scraping

***あとでよく読む***
リンク
1 2 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx