在使用 scrapy-splash 脚本时遇到问题。我只得到一个结果，我的爬虫无法解析其他页面

2020-1-31 5:17:32

收藏：0

阅读：122

评论：1

我正在尝试从一个 JavaScript 网站解析列表。当我运行它时，它只在每列上返回一个条目，然后蜘蛛就关闭了。我已经设置好了我的中间件设置。我不知道出了什么问题。谢谢！

import scrapy
from scrapy_splash import SplashRequest

class MalrusSpider(scrapy.Spider):
    name = 'malrus'
    allowed_domains = ['backgroundscreeninginrussia.com']
    start_urls = ['http://www.backgroundscreeninginrussia.com/publications/new-citizens-of-malta-since-january-2015-till-december-2017/']

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url=url,
                                callback=self.parse,
                                endpoint='render.html')

    def parse(self, response):
        russians = response.xpath('//table[@id="tablepress-8"]')
        for russian in russians:
            yield{'name' : russian.xpath('//*[@class="column-1"]/text()').extract_first(),
                  'source' : russian.xpath('//*[@class="column-2"]/text()').extract_first()}

        script = """function main(splash)
                assert(splash:go(splash.args.url))
                splash:wait(0.3)
                button = splash:select("a[class=paginate_button next] a")
                splash:set_viewport_full()
                splash:wait(0.1)
                button:mouse_click()
                splash:wait(1)
                return {url = splash:url(),
                        html = splash:html()}
            end"""

        yield SplashRequest(url=response.url,
                            callback=self.parse,
                            endpoint='execute',
                            args={'lua_source': script})

用户10837080

.extract_first()（现在是 .get()）始终返回第一个结果。它不是一个迭代器，所以多次调用它没有意义。你应该试试 .getall() 方法。就像这样：

names = response.xpath('//table[@id="tablepress-8"]').xpath('//*[@class="column-1"]/text()').getall()
sources = response.xpath('//table[@id="tablepress-8"]').xpath('//*[@class="column-2"]/text()').getall()

2020-01-31 06:29:24

评论区的留言会收到邮件通知哦~

作者:

用户12403674

在使用 scrapy-splash 脚本时遇到问题。我只得到一个结果，我的爬虫无法解析其他页面

社区规范

发文指南

社区文章

开源项目 & 应用

🎮 游戏开发

World of Warcraft

Roblox

Defold

LÖVE 2D

🌐 高性能网络与 Web 服务

OpenResty

Kong

Redis

Nmap

LuaJIT

Wapiti

Wireshark

⚙️ 嵌入式系统与应用工具

LuatOS

TeX Live

Awesome WM

Vim/Neovim

FFmpeg

🧠 人工智能与科学计算

Torch

SciLua