2023-01-29 15:04:56 +00:00
|
|
|
# scrapy
|
|
|
|
|
|
|
|
> ウェブクローリングのフレームワークです。
|
2023-11-06 17:44:12 +00:00
|
|
|
> 詳しくはこちら: <https://scrapy.org>
|
2023-01-29 15:04:56 +00:00
|
|
|
|
|
|
|
- プロジェクトを作成する:
|
|
|
|
|
|
|
|
`scrapy startproject {{プロジェクト名}}`
|
|
|
|
|
|
|
|
- スパイダーを作成する (プロジェクトのディレクトリ内での実行):
|
|
|
|
|
|
|
|
`scrapy genspider {{スパイダー名}} {{ウェブサイトのドメイン名}}`
|
|
|
|
|
|
|
|
- スパイダーを編集する (プロジェクトのディレクトリ内での実行):
|
|
|
|
|
|
|
|
`scrapy edit {{スパイダー名}}`
|
|
|
|
|
|
|
|
- スパイダーを実行する (プロジェクトのディレクトリ内での実行):
|
|
|
|
|
|
|
|
`scrapy crawl {{スパイダー名}}`
|
|
|
|
|
|
|
|
- Scrapyが見るようにWebページを取得しソースを`stdout`(標準出力)に表示する:
|
|
|
|
|
|
|
|
`scrapy fetch {{url}}`
|
|
|
|
|
|
|
|
- Scrapyが見ているようにデフォルトブラウザ内でウェブページを開く(より応答に忠実であるようにするためにJavaScriptを無効化している):
|
|
|
|
|
|
|
|
`scrapy view {{url}}`
|
|
|
|
|
|
|
|
- URL用のScrapyシェルを開き、Python(もしくは可能であればIPython)シェル内でページソースとの対話式でのやり取りを可能にする:
|
|
|
|
|
|
|
|
`scrapy shell {{url}}`
|