◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
scrapy爬虫问题
在本例中,scrapy爬虫似乎导致了如下错误:
indexerror: tuple index out of range
问题剖析
yield request(self.follows_url.format(user=self.start_user, include=self.follows_query, offset=0, limit=20), callback=self.parse_follows)
解决方法
检查 follows_url 中是否存在“用户”参数。用户参数应为花括号内第一个参数,但在此例中似乎缺少。
正确的 follows_url 应如下所示:
follows_url = 'https://www.zhihu.com/api/v4/members/{user}/followees?includ={include}&offset={offset}&limit={limit}'
确保在创建 request 对象之前,user 参数已正确设置。对 follows_url 的格式化也需要进行相应调整。
此外,pycharm 中出现的“overrides method in spider”消息可能是因为 zhihuspider 类中存在同名方法的重写。从父类 spider 继承的方法应正确设置,并且在重写的自定义方法中,你需要明确指定 @overrides 装饰器。
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。