Python 使用正则表达式匹配URL网址

最新推荐文章于 2024-10-15 10:30:00 发布

转载最新推荐文章于 2024-10-15 10:30:00 发布 · 9.7k 阅读

14 ·

CC 4.0 BY-SA版权

原文链接：https://www.cnblogs.com/pzk7788/p/10498128.html

文章标签：

#python

python 同时被 2 个专栏收录

8 篇文章

订阅专栏

网络安全测试工具

2 篇文章

订阅专栏

本文详细介绍了如何使用正则表达式进行URL匹配，包括http和https协议的网址，并提供了具体的Python代码示例，展示了如何从文本中查找并提取符合特定格式的URL。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')
http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+

"^((http://)|(https://))?([a-zA-Z0-9]([a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])?\.)+[a-zA-Z]{2,6}(/)"

In [1]: import re

In [2]: str = "http://www.baidu.com/"

In [3]: regular = re.compile(r'[a-zA-Z]+://[^\s]*[.com|.cn]')

In [4]: re.findall(regular, str)                             
Out[4]: ['http://www.baidu.com']

很好用感谢作者
https://www.cnblogs.com/pzk7788/p/10498128.html

import re
f = open('test.txt')
F = f.read()
f.close()
r = r'[^\.\x20\r\n\f\t]*\.apk'
s = re.findall(r, F)
print '\n'.join(s)

正则表达式匹配详解网站

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

搬砖带头大哥

关注关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python正则匹配URL

qq_42352516的博客

07-09

1980

正则匹配URL地址 import re if __name__ == '__main__': url = "mkdir /path/to/ABYSS && cd /path/to/ABYSS wget" a = re.search('(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', url) print(a) print(a.group()) "

Python 正则与url匹配

珂鸣玉的博客

03-29

5141

详细用法可参考：https://blog.csdn.net/weixin_40907382/article/details/79654372 Django 1.9 前 url匹配方法可以同时匹配正则和字符串，但是1.9之后被划分为了两个方法。首先我们回顾一下python正则：正则(re)：是一种高级的字符串处理方式,主要用于字符串的匹配。字符匹配被分为了两种：内容匹配:通过描述内...

参与评论您还未登录，请先登录后发表或查看评论

python多页网站目录_python 爬取页面所有的url

weixin_39990819的博客

11-22

613

原博文2020-08-07 21:01 −1.使用request爬取有效的URL# -*- coding: GBK -*- from urllib import requestimport re #爬取某个主页上的全部有效URLdef crawb(): # 1. 确定好要爬取的入口链接 url = "http://www.b...相关推荐2019-12-18 21:26 −1，Django...

网址匹配正则表达式（python实现）

qq_46396470的博客

09-21

1347

这个正则表达式涵盖了协议、用户信息、域名、端口号、路径等各个 URL 的组成部分，能够处理大多数常见的 URL 格式。：这个部分匹配 URL 的路径或查询参数部分，可能为空，或者可以是类似。：这是正则表达式的一个标志，它指定正则表达式在匹配时不区分大小写。表示这一部分是可选的，不一定会出现在 URL 中。是可选的，这使得该部分可以匹配带有或不带有。，这是用于带有身份验证的 URL 的常见格式。：该部分匹配 URL 的协议部分，支持。：这个部分用于匹配可选的用户信息，即。

【Python】【正则表达式】Python使用正则表达式匹配数字

风云说通信

02-03

3233

Python使用正则表达式匹配数字，含实例讲解

java正则表达式匹配网页所有网址和链接文字的示例

09-04

- 网页解析和正则表达式匹配通常只能处理简单的HTML结构，对于复杂的HTML或XML文档，可能需要使用更强大的解析库，如Jsoup或DOM解析器。 - 对于URL的处理，应该考虑编码问题，确保URL的正确性。 - 这个示例没有...

python爬虫正则表达式使用说明

热门推荐

weixin_39517298的博客

06-07

1万+

Python 正则表达式（匹配URL） python的正则表达式是在re模块，属于内置模块。正则表达式格式的详细说明见文章结束表，模式的构建通过PATTERN = re.compile(REGEX_STRING)构建，下面是python正则常用的函数。 Python函数函数用法说明 PATTERN = re.compile(REGEX_STRING) 正则模式构建 match_ret = re.match(PATTERN, str) str是否符合某种模式，从str开始

Python 正则匹配URL

wangjinyu124419的博客

05-30

1862

python正则匹配网址_Python-网页转义字符及正则全文匹配

weixin_39713763的博客

11-24

537

前言大部分情况下，通过request去请求网页，response.text返回来的都是正常值，但是有一些反爬虫比较严重的网站(比如知乎)就不会是这样。知乎会返回转义字符，例如：header = {"User-Agent":"Mozilla/5.0 (X11; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0","HOST":"www.zhihu....

python正则匹配网址_python 正则提取网址不会写

weixin_39834475的博客

11-24

154

[Python] 纯文本查看复制代码import retext= '''电脑版图文详情

Python正则解析URL地址

很酷的站长的博客

12-12

1662

1、使用正则表达式提取URL中的协议。当使用Python来分析网络地址时，首先要把URL中的协议部分分开。可以使用re模块的findall函数来匹配正则表达式。import reprint(protocol) # 输出结果为 http2、使用正则表达式提取URL中的域名。URL中的域名部分可以通过正则表达式提取出来。import re

python中通用匹配网址的正则表达式

weixin_43226574的博客

12-28

4858

通用匹配网址的正则表达式 http = r'((http|ftp|https)://) (([a-zA-Z0-9\._-]+\.[a-zA-Z]{2,6})| ([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})) (:[0-9]{1,4})*(/[a-zA-Z0-9\&%_\./-~-]*)?' ...

Python使用正则表达式匹配图片

03-18

在Python中，可以使用正则表达式来匹配图片的文件名或者URL。下面是一个简单的示例代码： ```python import re def match_image(filename): pattern = r'\.(jpg|jpeg|png|gif)$' # 匹配常见的图片格式后缀 if re...