◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
爬虫中的正则表达式匹配:如何抓取多个相同的标签的第二个
当使用正则表达式从 html 中提取数据时,有时会遇到有多个相同的标签的情况。然而,使用简单的正则表达式匹配往往会只抓取到第一个标签。
针对这种情况,可以通过指定额外的条件来匹配特定的标签。例如,如题所述,需要只抓取 align="center" 属性相同的标签的第二个,可以修改正则表达式如下:
title = extract_fields(r' <td style="color:#458c3f; font-size:14px; font-weight:bold; padding-top:15px; padding-bottom:8px;" align="center">(.*?)</td>{2}', datas, re.S) # 匹配标题
在修改后的正则表达式中,{2} 表示匹配两个连续的 标签,从而只抓取第二个标签。
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。