admin管理员组文章数量:1122851
脱离八爪鱼,最近两天用scrapy爬了一个商品网站,本来可以快很多的,其中有一天把时间花在一行代码上最后绕了一大圈改了个参数就解决了??希望大家少走点弯路。
很多都是对慕课网的一个总结,网址:https://www.imooc/video/17519
讲得非常好!
比较敏感所以用课程的代码例子了。
第一次写,难免不专业多多指教。
1.新建项目
第一步先安装,可以按照视频上安装,略。
例子中,我们要爬的是:https://movie.douban/top250
首先:
scrapy startproject douban
就创建好了一个文件夹叫douban
在cmd上进入到douban文件夹中cd douban
,再进入子目录cd douban/
好的,现在我们需要与网站相关联的一个包,cmd输入
scrapy genspider douban_spider movie.douban.com
然后我们就可以用pycharm或者sublime把包导进去check一下
不要紧张,如果你的和我不一样,那么应该在douban目录下新建一个文件叫main.py
找到Settings.py文件 -> 找到被#掉的user agent -> (这个不是真正的user agent,我们需要打开https://movie.douban/top250,win直接F12,Mac就option+command+I ,打开检查栏)
把黑字复制了拷在settings.py上的user agent后面就好,别忘了去掉注释
2.快捷运行
在main.py文件中,让他代替终端的功能,在环境中运行就好
from scrapy import cmdline
cmdline.execute('scrapy crawl douban_spider'.split())
3. 修改douban_spider.py
先贴上源码
# -*- coding: utf-8 -*-
import scrapy
from douban.items import DoubanItem
class DoubanSpiderSpider(scrapy.Spider):
name = 'douban_spider'
allowed_domains = ['movie.douban']
start_urls = ['http://movie.douban/top250']
版权声明:本文标题:基于scrapy框架的爬虫详细步骤(含没有“下一页”按钮的href抓取) 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1724580565a905545.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论