◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
scrapy爬虫问题:获取json格式数据失败
问题:
在运行scrapy爬虫时,无法获取响应的json格式数据。代码如下:
follows_url = 'https://www.zhihu.com/api/v4/members/{}/followees?includ={include}&offset={offset}&limit={limit}' follows_query = 'data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics'
在运行爬虫时,抛出异常:
indexerror: tuple index out of range
解决方案:
从错误信息可以看出,在格式化follows_url时,user参数为空。这是因为代码中将空的字典 {} 传递给格式化函数。
要修复错误,需要将 user 参数传递给 follows_url 的格式化函数,如下所示:
follows_url = 'https://www.zhihu.com/api/v4/members/{}/followees?includ={include}&offset={offset}&limit={limit}' follows_query = 'data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics' def start_requests(self): yield Request(self.user_url.format(user=self.start_user, include=self.user_query), self.parse_user) yield Request(self.follows_url.format(user=self.start_user, include=self.follows_query, offset=0, limit=20), callback=self.parse_follows)
通过将 user 参数包括在格式化函数中,爬虫将能够正确获取json格式数据。
需要注意的是,pycharm 中出现的 "overrides method in spider" 消息表明你正在覆盖父类 spider 中已存在的同名方法。在这种情况下,你正在覆盖 spider 类的 start_requests 方法。这通常是正常的,表明你正在根据自己的需要定制爬虫行为。
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。