使用 Scrapy 和 Splash 爬取 JS 页面的错误
2018-9-14 6:29:2
收藏:0
阅读:129
评论:0
不过,我在 shell 中一直遇到这个问题。
2018-09-13 14:50:36 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-09-13 14:50:36 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6028
2018-09-13 14:50:37 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2018-09-13 14:50:38 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://localhost:8050/robots.txt> (referer: None)
2018-09-13 14:51:10 [scrapy.downloadermiddlewares.retry] DEBUG: 正在重试 <GET http://quotes.toscrape.com/js/ via http://localhost:8050/render.html> (失败 1 次): 504 Gateway Time-out
2018-09-13 14:51:36 [scrapy.extensions.logstats] INFO: Crawled 2 pages (at 2 pages/min), scraped 0 items (at 0 items/min)
2018-09-13 14:51:40 [scrapy.downloadermiddlewares.retry] DEBUG: 正在重试 <GET http://quotes.toscrape.com/js/ via http://localhost:8050/render.html> (失败 2 次): 504 Gateway Time-out
2018-09-13 14:52:00 [scrapy.downloadermiddlewares.retry] DEBUG: 放弃重试 <GET http://quotes.toscrape.com/js/ via http://localhost:8050/render.html> (失败 3 次): 502 Bad Gateway
2018-09-13 14:52:00 [scrapy.core.engine] DEBUG: Crawled (502) <GET http://quotes.toscrape.com/js/ via http://localhost:8050/render.html> (referer: None)
2018-09-13 14:52:00 [scrapy.spidermiddlewares.httperror] INFO: 忽略响应 <502 http://quotes.toscrape.com/js/>: HTTP 状态码未被处理或未被允许
这是我的代码:
import scrapy
from scrapy_splash import SplashRequest
class MySpider(scrapy.Spider):
name = "jsscraper"
start_urls = ["http://quotes.toscrape.com/js/"]
def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url=url, callback=self.parse, endpoint='render.html')
def parse(self, response):
for quote in response.css("div.quote"):
scraped_info={
'authorname':quote.css('small.author::text').extract_first(),
'quote':quote.css('span.text::text').extract_first(),}
yield scraped_info
我已经安装了 scrapy-splash,并在 settings.py 中添加了这些命令。同时,我的 Splash 服务器正在运行在 http://localhost:8050/。
另外,当我尝试在 Splash 服务器上渲染任何 URL 时,我会遇到另一个错误:
HTTP Error 400 (Bad Request) Type: ScriptError -> LUA_ERROR Error happened while executing Lua script
Lua error: [string "function main(splash, args) ..."]:2: network3
使用的版本如下:
Splash 版本:3.2
Lua 5.2
点赞
评论区的留言会收到邮件通知哦~
推荐文章
- Lua 虚拟机加密load(string.dump(function)) 后执行失败问题如何解决
- 我想创建一个 Nginx 规则,禁止访问
- 如何将两个不同的lua文件合成一个 东西有点长 大佬请耐心看完 我是小白研究几天了都没搞定
- 如何在roblox studio中1:1导入真实世界的地形?
- 求解,lua_resume的第二次调用继续执行协程问题。
- 【上海普陀区】内向猫网络招募【Skynet游戏框架Lua后端程序员】
- SF爱好求教:如何用lua实现游戏内调用数据库函数实现账号密码注册?
- Lua实现网站后台开发
- LUA错误显式返回,社区常见的规约是怎么样的
- lua5.3下载库失败
- 请问如何实现文本框内容和某个网页搜索框内容连接,并把网页输出来的结果反馈到另外一个文本框上
- lua lanes多线程使用
- 一个kv数据库
- openresty 有没有比较轻量的 docker 镜像
- 想问一下,有大佬用过luacurl吗
- 在Lua执行过程中使用Load函数出现问题
- 为什么 neovim 里没有显示一些特殊字符?
- Lua比较两个表的值(不考虑键的顺序)
- 有个lua简单的项目,外包,有意者加微信 liuheng600456详谈,最好在成都
- 如何在 Visual Studio 2022 中运行 Lua 代码?
