基于scrapy框架的爬虫详细步骤（含没有“下一页”按钮的href抓取）

编程

更新时间：2024-08-2552

admin管理员组
文章数量:1122851

脱离八爪鱼，最近两天用scrapy爬了一个商品网站，本来可以快很多的，其中有一天把时间花在一行代码上最后绕了一大圈改了个参数就解决了？？希望大家少走点弯路。
很多都是对慕课网的一个总结，网址：https://www.imooc/video/17519
讲得非常好！
比较敏感所以用课程的代码例子了。
第一次写，难免不专业多多指教。

1.新建项目

第一步先安装，可以按照视频上安装，略。
例子中，我们要爬的是：https://movie.douban/top250

首先：

scrapy startproject douban

就创建好了一个文件夹叫douban
在cmd上进入到douban文件夹中cd douban，再进入子目录cd douban/
好的，现在我们需要与网站相关联的一个包，cmd输入

 scrapy genspider douban_spider movie.douban.com

然后我们就可以用pycharm或者sublime把包导进去check一下

不要紧张，如果你的和我不一样，那么应该在douban目录下新建一个文件叫main.py

找到Settings.py文件 -> 找到被#掉的user agent -> （这个不是真正的user agent，我们需要打开https://movie.douban/top250，win直接F12，Mac就option+command+I ，打开检查栏）

把黑字复制了拷在settings.py上的user agent后面就好,别忘了去掉注释

2.快捷运行

在main.py文件中，让他代替终端的功能，在环境中运行就好

from scrapy import cmdline
cmdline.execute('scrapy crawl douban_spider'.split())

3. 修改douban_spider.py

先贴上源码

# -*- coding: utf-8 -*-
import scrapy
from douban.items import DoubanItem

class DoubanSpiderSpider(scrapy.Spider):
    name = 'douban_spider'
    allowed_domains = ['movie.douban']
    start_urls = ['http://movie.douban/top250']

本文标签：下一页爬虫框架按钮步骤

版权声明：本文标题：基于scrapy框架的爬虫详细步骤（含没有“下一页”按钮的href抓取）内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1724580565a905545.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

java使用webMagic爬虫

编程

2月前

java使用webMagic爬虫 WebMagic是一个简单灵活且功能强大的Java爬虫框架。它旨在提供一种方便快捷的方式，让开发者能够快速构建一个爬虫。以下是关于WebMagic的基本使用。 1. 环境准备 J

如何将Win7、Win10笔记本，台式机系统C盘软件搬家？只需3个步骤！！！

编程

2月前

有时候都会为了图方便将安装的软件直接默认安装到C盘，再加上长时间软件缓存的积累，C盘的存储空间很快就会不够用。往往我们使用磁盘清理的功能会清理一些缓存文件会临时解决不够用的问题&#xff0

bluecam连接步骤说明_磊科路由器登录设置及默认密码说明

编程

1月前

本文详解磊科路由器登录说明：登录和配置磊科路由器需要知道两件东西： 1；磊科路由器的登录IP地址 2；登录用户名和密码本指南将为你展示两种设备如何登录磊科路由器。在配置路由器之前，我们先把线路连接好；电脑用户请把电脑设置为自动获取IP

不用u盘如何装win10，不用u盘装win10步骤

编程

1月前

网上有很多重装win10系统教程，其中有u盘重装，但是这种方式还不是最简单的，第一我们需要制作u盘启动盘，第二要自己去找镜像文件下载&#xff0

Windows Server 2008R2下Weblogic 10.3.6 下载地址及安装步骤

编程

1月前

1. 去Oracle官网下载Weblogic 10.3.6,选择Generic版本， 下载地址：http:www.oracletechnetworkmiddlewareweblogic

apex windows 安装步骤

编程

1月前

第一步：直接上github上下载apex-master。链接为：GitHub - ptrblckapex: A PyTorch Extension: Tools for easy mixed p

服务器两个内存为何只显示4g_windows7系统插入2个4G内存条却只显示4G的设置步骤?...

编程

1月前

我们在操作windows7系统电脑的时候,常常会遇到windows7系统插入2个4G内存条却只显示4G的问题。那么出现windows7系统插入2个4G内存条却只显示4G的问题该怎么解决呢？很多对电脑不太熟悉的小伙伴不知

Windows7 64位下VS2012编译与安装 ACE-6.3.3 步骤

编程

1月前

因为接手的项目中用到了ACE网络库。下午打算在windows平台上编译安装ACE,,与大家分享以备下次使用. 附上已编译好的版本（6.3.3）：http:download

Xshell 8详细安装步骤，包含安装包（兼容Windows11）

编程

1月前

本次使用天翼企业云盘进行软件分享（链接到网址框，稍等文件安全检查后，即可输入访问码下载） 安装包：https:b.cloud

12c删除不干净 oracle_Oracle12c 卸载详细步骤

编程

29天前

今天oracle12c安装错误，网上搜索卸载方法，感觉乱乱的.... 第一步， 首先删除 oracle服务.(这个不多说) 执行CMD命令 sc delete 服

win7系统怎么安装安装win7操作系统的步骤

编程

29天前

win7系统怎么安装？Windows 7是微软公司推出的一款经典操作系统，其稳定性和易用性备受用户喜爱。如果你想在自己的电脑上安装Win7系统，下面是一份详细的安装步骤教程&

通过U盘启动盘安装Windows10操作系统步骤

编程

18天前

主要包括以下几步： 1.U盘格式化，U盘容量要求不小于8G，如下图所示： 2.U盘启动盘制作： (1).进微软官网https:

爬虫04:利用requests实现豆瓣top250电影信息的抓取

编程

17天前

首先给出自己编写的源代码以及对应的运行结果（翻页抓取两页），最后对代码以及网页结构逐次分析。一、爬虫代码以及运行结果 https:www.doubandouli

python进阶-04-Python Scrapy带你掌握Python Scrapy（2.12）爬虫框架，附带实战

编程

17天前

python进阶-04-一篇带你掌握Python Scrapy（2.12）爬虫框架，附带实战一.简介在Python进阶系列我们来介绍Scrapy框架最新版本2.12&

新买的hp电脑,linux系统,怎么装xp系统?,hp台式机装xp步骤教程【图文】

编程

16天前

对于经典的WIN系统使用的都是很多使用PC的朋友们的最爱，这个经典的操作系统备受人们的青睐和喜欢，那么各位朋友如何在hp台式机装xp呢，尤其是很多没有安装过操作系统的朋友&a

js 点击按钮打开浏览器新页签，兼容版

编程

16天前

话不多说直接上代码，这是千辛万苦寻来的，帮助需要帮助的人。 <html><head>点击按钮打开浏览器新页签<head><body><di

MinGW-w64的安装详细步骤(cc++的编译器gcc、g++的windows版，win10、win11真实可用）

编程

12天前

文章目录 1、MinGW的定义2、MinGW的主要组件3、MinGW-w64下载与安装3.1、下载解压安装地址3.2、MinGW-w64环境变量的设置 4、验证MinGW是否安装成功5、编写一段简单的代码验证下6、总结 1、MinGW的定义

VMware安装Windows_Server_2012_R2 64位系统安装步骤

编程

11天前

1 文件>新建虚拟机，打开新建虚拟机向导，选择“自定义（高级）”，next,next 2 选择“稍后安装操作系统”&

电脑开机后进不了系统如何修复？原因及解决步骤介绍

编程

9天前

电脑开机后进不了系统是一种常见而又复杂的问题，可能会导致电脑无法正常使用或丢失重要的数据。电脑开机后进不了系统的原因可能有很多，例如硬件损坏、软件冲突、病毒感染、系统文件损坏等。本文将介绍几种常见

基于SSM框架的公交车调度管理系统

编程

6天前

系统介绍整个系统采用eclipse开发，JDK1.8Tomcat8.0MySQL5.5版本以上开发系统环境windows 项目前端采用Bootstrap框架，使用Ajax进行数据请求&

发表评论

全部评论 0

暂无评论

编程频道|软件玩家 - 软件改变生活！

基于scrapy框架的爬虫详细步骤（含没有“下一页”按钮的href抓取）

1.新建项目

2.快捷运行

3. 修改douban_spider.py

更多相关文章

java使用webMagic爬虫

如何将Win7、Win10笔记本，台式机系统C盘软件搬家？ 只需3个步骤！！！

bluecam连接步骤说明_磊科路由器登录设置及默认密码说明

不用u盘如何装win10，不用u盘装win10步骤

Windows Server 2008R2下Weblogic 10.3.6 下载地址及安装步骤

apex windows 安装步骤

服务器两个内存为何只显示4g_windows7系统插入2个4G内存条却只显示4G的设置步骤?...

Windows7 64位下VS2012编译与安装 ACE-6.3.3 步骤

Xshell 8详细安装步骤，包含安装包（兼容Windows11）

12c删除不干净 oracle_Oracle12c 卸载详细步骤

win7系统怎么安装 安装win7操作系统的步骤

通过U盘启动盘安装Windows10操作系统步骤

爬虫04:利用requests实现豆瓣top250电影信息的抓取

python进阶-04-Python Scrapy带你掌握Python Scrapy（2.12）爬虫框架，附带实战

新买的hp电脑,linux系统,怎么装xp系统?,hp台式机装xp步骤教程【图文】

js 点击按钮打开浏览器新页签，兼容版

MinGW-w64的安装详细步骤(cc++的编译器gcc、g++的windows版，win10、win11真实可用）

VMware安装Windows_Server_2012_R2 64位系统安装步骤

电脑开机后进不了系统如何修复？原因及解决步骤介绍

基于SSM框架的公交车调度管理系统

发表评论

推荐文章

Can I use a Ribbon in WPF Application VS 2022 and .NET 9 - Stack Overflow

php - Distribute total amount to a flat array of &quot;container&quot; elements with predefined limits - Stack Overflow

swift - Cannot show RPPreviewViewController with .sheet modifier in SwiftUI. Why? - Stack Overflow

seo - How to remove WordPress cloaking attack, possibly remove page link

character encoding problem in custom template

热门文章

python selenium trying to get data from tradingview chart - Stack Overflow

Transform JSON using jolt transformation - Stack Overflow

htaccess - Getting a 500 internal server error ONLY on wp-adminoptions-permalink.php

wp cli - Logs for WP CLI

URL rewriting not working

azure - Nginx is dropping part of request path in the request URL when redirecting after adding a trailing slash - Stack Overflo

php - WordPress Customizer - How to save list of checkbox of pages?

filters - Modify WordPress Rest Api RequestResponse

swift - Navigation on substring swiftui - Stack Overflow

swiftdata - Deleting item with relationship from List causes crash - Stack Overflow

最新文章

Java入门级教学（IDEA的下载与安装与JDK的环境配置）

华硕笔记本电脑用U盘重装windows系统

物理网卡MAC修改器v3.0 - 真实网卡硬件MAC地址修改，重装系统不变！

如何一键安装win7系统(一键安装win7系统步骤)

Windows 11最稳定版本详解

r - Prior distribution for zero-inflated Poisson MCMCglmm? - Stack Overflow

html - javascript question concerning multiple customised dropdowns in same page - Stack Overflow

pandas - Python: BeautifulSoup scraping yield data - Stack Overflow

android - Activity transaction in kotlin - Stack Overflow

javascript - Detecting overflowing menu items doesn&#39;t always calculate correctly - Stack Overflow

惠普OMEN 15-CE001TX 2EF91PA参数报价

苹果新款MacBook Pro 15英寸 i732GB1TBVega Pro 20参数报价

联想Y330A-PSE L参数报价

神舟战神Z7 D6 i7-12650H16GB512GBRTX4050旗舰版参数报价

神舟战神Z7 D6 i7-12650H16GB1TBRTX4050参数报价

如何将Win7、Win10笔记本，台式机系统C盘软件搬家？只需3个步骤！！！

win7系统怎么安装安装win7操作系统的步骤

php - Distribute total amount to a flat array of "container" elements with predefined limits - Stack Overflow

javascript - Detecting overflowing menu items doesn't always calculate correctly - Stack Overflow