使用 Scrapy 的 xpath() 方法提取以 "/" 开头或以特定网址开头的链接方法

164 阅读 0 评论 0 点赞

要使用 Scrapy 的 response.xpath() 方法提取指定 XPath 表达式匹配到的所有内链（即 <a> 标签中的链接），您可以使用以下

方法如果您想要提取以 "/" 开头或以特定网址开头的链接，可以使用适当的 XPath 表达式和条件来实现。以下是一个示例：

def parse(self, response):
    # 提取所有包含 class="content-wrapper-post" 的元素
    content_wrapper_posts = response.xpath('//*[@class="content-wrapper-post"]')
    
    # 遍历每个 content-wrapper-post 元素
    for post in content_wrapper_posts:
        # 提取当前元素中的所有内链
        internal_links = post.xpath('.//a[@href and (starts-with(@href, "/") or starts-with(@href, "https://xxx.net/"))]')

        # 遍历每个内链
        for link in internal_links:
            # 提取链接的 href 属性值
            href = link.xpath('@href').get()
            # 处理链接
            yield {
                'link': href
            }

上述代码假设您正在使用 Scrapy 编写一个 Spider，并在 parse 方法中处理响应。response.xpath('//*[@class="content-wrapper-post"]') 用于提取所有包含 class="content-wrapper-post" 的元素，然后遍历每个元素并提取其中的所有带有 href 属性的 <a> 标签，最后提取每个链接的 href 属性值并将其返回。

在上面的示例中，starts-with(@href, "/") or starts-with(@href, "https://xxx.net/") 条件用于限制匹配的链接必须以 "/" 开头或以 "https://xxx.net/" 开头。这样可以保证提取的链接是站内链接或以特定网址开头的链接。您可以根据实际情况调整此条件。

（本文内容根据网络资料整理和来自用户投稿，出于传递更多信息之目的，不代表本站其观点和立场。也不对其真实性、可靠性承担任何法律责任，特此声明！）

点赞(0) 打赏

本文分类：PYTHON编程
本文标签：无
浏览次数：164 次浏览
发布日期：2024-03-08 01:50:52
本文链接：https://www.yelongauto.com/PYTHONbiancheng/2081.html

上一篇 > FastAPI在宝塔面板中的部署外网域名

使用 Scrapy 的 xpath() 方法提取以 "/" 开头或以特定网址开头的链接方法

评论列表共有 0 条评论

发表评论取消回复

使用 Scrapy 的 xpath() 方法提取以 "/" 开头或以特定网址开头的链接方法

python png模板图片上居中加文字 半透明处理后 居中合并到另外一个图片

python 图片加文字水印 且根据文字内容的长度自动换行的3总方法

python 图片加水印且根据文字长度自动换行

python 图片加长文字中textwrap.wrap文本自动换行与填充

评论列表 共有 0 条评论

发表评论 取消回复

python png模板图片上居中加文字半透明处理后居中合并到另外一个图片

python 图片加文字水印且根据文字内容的长度自动换行的3总方法

评论列表共有 0 条评论

发表评论取消回复