用python 正则表达式写过滤style和script标签

452 阅读 0 评论 0 点赞

虽然正则表达式在处理HTML时可能不如专门的HTML解析库准确，但如果你只是想简单地从HTML文本中移除style和script标签，你可以尝试以下方法。

import re

def remove_style_and_script(html_text):
    # 使用正则表达式匹配style和script标签
    pattern = r"<(style|script)[\s\S]*?</\1>"
    
    # 使用re.sub函数将匹配的标签替换为空字符串
    cleaned_html = re.sub(pattern, "", html_text, flags=re.IGNORECASE)
    
    return cleaned_html

# 原始的HTML文本
html_content = """
<html>
<head>
<style>
  body {
    font-size: 16px;
  }
</style>
</head>
<body>
<p>This is a paragraph.</p>
<script>
  alert("Hello, world!");
</script>
</body>
</html>
"""

# 过滤掉style和script标签后的HTML文本
filtered_html = remove_style_and_script(html_content)
print(filtered_html)

在上述代码中，我们使用正则表达式 <(style|script)[\s\S]*?</\1>用于匹配对应的结束标签来匹配style和script标签，然后使用re.sub函数将匹配的标签替换为空字符串。[\s\S]*?表示匹配任意字符（包括换行符），而</\1>用于匹配对应的结束标签。。

请注意，这种方法可能无法处理一些复杂的HTML结构，并且在处理HTML时，正则表达式可能会出现一些意外情况。为了更准确和安全地处理HTML文本，请考虑使用专门的HTML解析库，如Beautiful Soup。

（本文内容根据网络资料整理和来自用户投稿，出于传递更多信息之目的，不代表本站其观点和立场。也不对其真实性、可靠性承担任何法律责任，特此声明！）

点赞(0) 打赏

本文分类：PYTHON编程
本文标签：无
浏览次数：452 次浏览
发布日期：2023-08-15 01:49:45
本文链接：https://www.yelongauto.com/PYTHONbiancheng/2074.html

上一篇 > python 如何过滤所有html标签的属性除img a标签的href属性
下一篇 > QComboBox 每个选项设置其他参数

用python 正则表达式写过滤style和script标签

评论列表共有 0 条评论

发表评论取消回复

用python 正则表达式 写过滤style和script标签

python png模板图片上居中加文字 半透明处理后 居中合并到另外一个图片

python 图片加文字水印 且根据文字内容的长度自动换行的3总方法

python 图片加水印且根据文字长度自动换行

python 图片加长文字中textwrap.wrap文本自动换行与填充

评论列表 共有 0 条评论

发表评论 取消回复

用python 正则表达式写过滤style和script标签

python png模板图片上居中加文字半透明处理后居中合并到另外一个图片

python 图片加文字水印且根据文字内容的长度自动换行的3总方法

评论列表共有 0 条评论

发表评论取消回复