Scrapy Crawlspider中的deny设置无效?如何正确使用正则表达式进行URL过滤?

ID:20265 / 打印

scrapy crawlspider中的deny设置无效?如何正确使用正则表达式进行url过滤?

scrapy crawlspider中的deny设置无效?

问题:使用rule设置了deny参数,但发现运行时仍然爬取了包含deny关键词的链接。例如,设置了deny=(“guba”、“data”...),但发现爬取了包含“guba”的链接。

解答:deny参数的设置需要遵循正则表达式语法。如果deny参数不是正则表达式,则只有当网址完全匹配deny关键词时才会被拒绝。

在给出的代码中,deny参数中的值(如“guba”、“data”)没有使用正则表达式语法。因此,只有当网址完全包含这些字符串时才会被拒绝。而“guba.eastmoney.com/list,of166401.html”这样的网址虽然包含“guba”,但不是完全匹配,所以不会被deny参数拒绝。

要正确使用deny参数,需要将其修改为正则表达式,例如:

deny=(r'guba', r'data')
上一篇: Windows 下 Python 分布式进程传递对象为何引发 PermissionError?
下一篇: Django 项目部署后,自定义过滤器模板标签无法识别怎么办?

作者:admin @ 24资源网   2025-01-14

本站所有软件、源码、文章均有网友提供,如有侵权联系308410122@qq.com

与本文相关文章

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。