python爬虫入门教程

上传人:gbs****77 文档编号:9981979 上传时间:2020-04-09 格式:DOC 页数:193 大小:11.03MB
返回 下载 相关 举报
python爬虫入门教程_第1页
第1页 / 共193页
python爬虫入门教程_第2页
第2页 / 共193页
python爬虫入门教程_第3页
第3页 / 共193页
点击查看更多>>
资源描述
第 1 页 共 193 页 Python爬虫入门三之 Urllib库的基本使用 Python 崔庆才 5 个月前 02 12 13660 13评论 那么接下来 小伙伴们就一起和我真正迈向我们的爬虫之路吧 1 分分钟扒一个网页下来 怎样扒网页呢 其实就是根据 URL 来获取它的网页信息 虽然我们在浏览器中 看到的是一幅幅优美的画面 但是其实是由浏览器解释才呈现出来的 实质它 是一段 HTML 代码 加 JS CSS 如果把网页比作一个人 那么 HTML 便是 他的骨架 JS 便是他的肌肉 CSS 便是它的衣服 所以最重要的部分是存在于 HTML 中的 下面我们就写个例子来扒一个网页下来 1 2 3 4 import urllib2 response urllib2 urlopen print response read 是的你没看错 真正的程序就两行 把它保存成 demo py 进入该文件的目录 执行如下命令查看运行结果 感受一下 1python demo py 第 2 页 共 193 页 看 这个网页的源码已经被我们扒下来了 是不是很酸爽 2 分析扒网页的方法 那么我们来分析这两行代码 第一行 1response urllib2 urlopen 首先我们调用的是 urllib2 库里面的 urlopen 方法 传入一个 URL 这个网址是 百度首页 协议是 HTTP 协议 当然你也可以把 HTTP 换做 FTP FILE HTTPS 等等 只是代表了一种访问控制协议 urlopen 一般接受三个参数 它的参数如 下 第 3 页 共 193 页 1urlopen url data timeout 第一个参数 url 即为 URL 第二个参数 data 是访问 URL 时要传送的数据 第三 个 timeout 是设置超时时间 第二三个参数是可以不传送的 data 默认为空 None timeout 默认为 socket GLOBAL DEFAULT TIMEOUT 第一个参数 URL 是必须要传送的 在这个例子里面我们传送了百度的 URL 执行 urlopen 方法之后 返回一个 response 对象 返回信息便保存在这里面 1print response read response 对象有一个 read 方法 可以返回获取到的网页内容 如果不加 read 直接打印会是什么 答案如下 1 addinfourl at 139728495260376 whose fp 直接打印出了该对象的描述 所以记得一定要加 read 方法 否则它不出来内容 可就不怪我咯 3 构造 Requset 其实上面的 urlopen 参数可以传入一个 request 请求 它其实就是一个 Request 类 的实例 构造时需要传入 Url Data 等等的内容 比如上面的两行代码 我们可 以这么改写 第 4 页 共 193 页 1 2 3 4 5 import urllib2 request urllib2 Request response urllib2 urlopen request print response read 运行结果是完全一样的 只不过中间多了一个 request 对象 推荐大家这么写 因为在构建请求时还需要加入好多内容 通过构建一个 request 服务器响应请 求得到应答 这样显得逻辑上清晰明确 4 POST和 GET数据传送 上面的程序演示了最基本的网页抓取 不过 现在大多数网站都是动态网页 需要你动态地传递参数给它 它做出对应的响应 所以 在访问时 我们需要 传递数据给它 最常见的情况是什么 对了 就是登录注册的时候呀 把数据用户名和密码传送到一个 URL 然后你得到服务器处理之后的响应 这 个该怎么办 下面让我来为小伙伴们揭晓吧 数据传送分为 POST 和 GET 两种方式 两种方式有什么区别呢 最重要的区别是 GET 方式是直接以链接形式访问 链接中包含了所有的参数 当然如果包含了密码的话是一种不安全的选择 不过你可以直观地看到自己提 交了什么内容 POST 则不会在网址上显示所有的参数 不过如果你想直接查 看提交了什么就不太方便了 大家可以酌情选择 POST方式 上面我们说了 data 参数是干嘛的 对了 它就是用在这里的 我们传送的数据 就是这个参数 data 下面演示一下 POST 方式 1import urllib 第 5 页 共 193 页 2 3 4 5 6 7 8 9 import urllib2 values username 1016903103 password XXXX data urllib urlencode values url request urllib2 Request url data response urllib2 urlopen request print response read 我们引入了 urllib 库 现在我们模拟登陆 CSDN 当然上述代码可能登陆不进去 因为还要做一些设置头部 header 的工作 或者还有一些参数没有设置全 还没 有提及到在此就不写上去了 在此只是说明登录的原理 我们需要定义一个字 典 名字为 values 参数我设置了 username 和 password 下面利用 urllib 的 urlencode 方法将字典编码 命名为 data 构建 request 时传入两个参数 url 和 data 运行程序 即可实现登陆 返回的便是登陆后呈现的页面内容 当然你 可以自己搭建一个服务器来测试一下 注意上面字典的定义方式还有一种 下面的写法是等价的 1 2 3 4 5 6 7 import urllib import urllib2 values values username 1016903103 values password XXXX data urllib urlencode values 第 6 页 共 193 页 8 9 10 11 url request urllib2 Request url data response urllib2 urlopen request print response read 以上方法便实现了 POST 方式的传送 GET方式 至于 GET 方式我们可以直接把参数写到网址上面 直接构建一个带参数的 URL 出来即可 1 2 3 4 5 6 7 8 9 10 11 12 import urllib import urllib2 values values username 1016903103 values password XXXX data urllib urlencode values url geturl url data request urllib2 Request geturl response urllib2 urlopen request print response read 你可以 print geturl 打印 输出一下 url 发现其实就是原来的 url 加 然后加编 码后的参数 第 7 页 共 193 页 1 MSIE 5 5 Windows NT 第 9 页 共 193 页 6 7 8 9 10 11 values username cqc password XXXX headers User Agent user agent data urllib urlencode values request urllib2 Request url data headers response urllib2 urlopen request page response read 这样 我们设置了一个 headers 在构建 request 时传入 在请求时 就加入了 headers 传送 服务器若识别了是浏览器发来的请求 就会得到响应 另外 我们还有对付 反盗链 的方式 对付防盗链 服务器会识别 headers 中的 referer 是不是它自己 如果不是 有的服务器不会响应 所以我们还可以在 headers 中加入 referer 例如我们可以构建下面的 headers 1 2 headers User Agent Mozilla 4 0 compatible MSIE 5 5 Windows NT Referer 同上面的方法 在传送请求时把 headers 传入 Request 参数里 这样就能应付防 盗链了 另外 headers 的一些属性 下面的需要特别注意一下 User Agent 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出 的请求 Content Type 在使用 REST 接口时 服务器会检查该值 用来确定 HTTP Body 中的内容该怎样解析 application xml 在 XML RPC 如 RESTful SOAP 调用时使用 application json 在 JSON RPC 调用时使用 application x www form urlencoded 浏览器提交 Web 表单时使用 在使用服务器提供的 RESTful 或 SOAP 服务时 Content Type 设置错误 会导致服务器拒绝服务 其他的有必要的可以审查浏览器的 headers 内容 在构建时写入同样的数据即可 第 10 页 共 193 页 2 Proxy 代理 的设置 urllib2 默认会使用环境变量 http proxy 来设置 HTTP Proxy 假如一个网站它 会检测某一段时间某个 IP 的访问次数 如果访问次数过多 它会禁止你的访问 所以你可以设置一些代理服务器来帮助你做工作 每隔一段时间换一个代理 网 站君都不知道是谁在捣鬼了 这酸爽 下面一段代码说明了代理的设置用法 1 2 3 4 5 6 7 8 9 import urllib2 enable proxy True proxy handler urllib2 ProxyHandler http http some 8080 null proxy handler urllib2 ProxyHandler if enable proxy opener urllib2 build opener proxy handler else opener urllib2 build opener null proxy handler urllib2 install opener opener 3 Timeout 设置 上一节已经说过 urlopen 方法了 第三个参数就是 timeout 的设置 可以设置等 待多久超时 为了解决一些网站实在响应过慢而造成的影响 例如下面的代码 如果第二个参数 data 为空那么要特别指定是 timeout 是多少 写明形参 如果 data 已经传入 则不必声明 第 11 页 共 193 页 1 2 import urllib2 response urllib2 urlopen timeout 10 1 2 import urllib2 response urllib2 urlopen data 10 4 使用 HTTP 的 PUT 和 DELETE 方法 http 协议有六种请求方法 get head put delete post options 我们有时候需要用到 PUT 方式或者 DELETE 方式请求 PUT 这个方法比较少见 HTML 表单也不支持这个 本质上来讲 PUT 和 POST极为相似 都是向服务器发送数据 但它们之间有一个重要区别 PUT通常指定了资源的存放位置 而 POST则没有 POST 的数据存放位置由 服务器自己决定 DELETE 删除某一个资源 基本上这个也很少见 不过还是有一些地方比 如 amazon的 S3云服务里面就用的这个方法来删除资源 如果要使用 HTTP PUT 和 DELETE 只能使用比较低层的 httplib 库 虽然 如此 我们还是能通过下面的方式 使 urllib2 能够发出 PUT 或 DELETE 的 请求 不过用的次数的确是少 在这里提一下 1 2 3 import urllib2 request urllib2 Request uri data data request get method lambda PUT or DELETE 第 12 页 共 193 页 4response urllib2 urlopen request 5 使用 DebugLog 可以通过下面的方法把 Debug Log 打开 这样收发包的内容就会在屏幕上打印 出来 方便调试 这个也不太常用 仅提一下 1 2 3 4 5 6 import urllib2 httpHandler urllib2 HTTPHandler debuglevel 1 httpsHandler urllib2 HTTPSHandler debuglevel 1 opener urllib2 build opener httpHandler httpsHandler urllib2 install opener opener response urllib2 urlopen 以上便是一部分高级特性 前三个是重要内容 在后面 还有 cookies 的设置还 有异常的处理 小伙伴们加油 Python爬虫入门五之 URLError异常处理 Python 崔庆才 5 个月前 02 13 6387 3评论 大家好 本节在这里主要说的是 URLError 还有 HTTPError 以及对它们的一些 处理 1 URLError 首先解释下 URLError 可能产生的原因 网络无连接 即本机无法上网 连接不到特定的服务器 服务器不存在 第 13 页 共 193 页 在代码中 我们需要用 try except 语句来包围并捕获相应的异常 下面是一个例 子 先感受下它的风骚 1 2 3 4 5 6 7 import urllib2 requset urllib2 Request try urllib2 urlopen requset except urllib2 URLError e print e reason 我们利用了 urlopen 方法访问了一个不存在的网址 运行结果如下 1 Errno 11004 getaddrinfo failed 它说明了错误代号是 11004 错误原因是 getaddrinfo failed 2 HTTPError HTTPError 是 URLError 的子类 在你利用 urlopen 方法发出一个请求时 服务 器上都会对应一个应答对象 response 其中它包含一个数字 状态码 举个例 子 假如 response 是一个 重定向 需定位到别的地址获取文档 urllib2 将对 此进行处理 其他不能处理的 urlopen 会产生一个 HTTPError 对应相应的状态吗 HTTP 状态码表示 HTTP 协议所返回的响应的状态 下面将状态码归结如下 100 继续 客户端应当继续发送请求 客户端应当继续发送请求的剩余部 分 或者如果请求已经完成 忽略这个响应 第 14 页 共 193 页 101 转换协议 在发送完这个响应最后的空行后 服务器将会切换到在 Upgrade 消息头中定义的那些协议 只有在切换新的协议更有好处的时候 才应该采取类似措施 102 继续处理 由 WebDAV RFC 2518 扩展的状态码 代表处理将被继 续执行 200 请求成功 处理方式 获得响应的内容 进行处理 201 请求完成 结果是创建了新资源 新创建资源的 URI可在响应的实体 中得到 处理方式 爬虫中不会遇到 202 请求被接受 但处理尚未完成 处理方式 阻塞等待 204 服务器端已经实现了请求 但是没有返回新的信 息 如果客户是用 户代理 则无须为此更新自身的文档视图 处理方式 丢弃 300 该状态码不被 HTTP 1 0的应用程序直接使用 只是作为 3XX类型回 应的默认解释 存在多个可用的被请求资源 处理方式 若程序中能 够处理 则进行进一步处理 如果程序中不能处理 则丢弃 301 请求到的资源都会分配一个永久的 URL 这样就可以在将来通过该 URL来访问此资源 处理方式 重定向到分配的 URL 302 请求到的资源在一个不同的 URL处临时保存 处理方式 重定向 到临时的 URL 304 请求的资源未更新 处理方式 丢弃 400 非法请求 处理方式 丢弃 401 未授权 处理方式 丢弃 403 禁止 处理方式 丢弃 404 没有找到 处理方式 丢弃 500 服务器内部错误 服务器遇到了一个未曾预料的状况 导致了它无法 完成对请求的处理 一般来说 这个问题都会在服务器端的源代码出现错 误时出现 501 服务器无法识别 服务器不支持当前请求所需要的某个功能 当服务 器无法识别请求的方法 并且无法支持其对任何资源的请求 502 错误网关 作为网关或者代理工作的服务器尝试执行请求时 从上游 服务器接收到无效的响应 503 服务出错 由于临时的服务器维护或者过载 服务器当前无法处理 请求 这个状况是临时的 并且将在一段时间以后恢复 HTTPError 实例产生后会有一个 code 属性 这就是是服务器发送的相关错误号 因为 urllib2 可以为你处理重定向 也就是 3 开头的代号可以被处理 并且 100 299 范围的号码指示成功 所以你只能看到 400 599 的错误号码 下面我们写一个例子来感受一下 捕获的异常是 HTTPError 它会带有一个 code 属性 就是错误代号 另外我们又打印了 reason 属性 这是它的父类 URLError 的属性 第 15 页 共 193 页 1 2 3 4 5 6 7 8 import urllib2 req urllib2 Request try urllib2 urlopen req except urllib2 HTTPError e print e code print e reason 运行结果如下 1 2 403 Forbidden 错误代号是 403 错误原因是 Forbidden 说明服务器禁止访问 我们知道 HTTPError 的父类是 URLError 根据编程经验 父类的异常应当写 到子类异常的后面 如果子类捕获不到 那么可以捕获父类的异常 所以上述 的代码可以这么改写 1 2 import urllib2 第 16 页 共 193 页 3 4 5 6 7 8 9 10 11 req urllib2 Request try urllib2 urlopen req except urllib2 HTTPError e print e code except urllib2 URLError e print e reason else print OK 如果捕获到了 HTTPError 则输出 code 不会再处理 URLError 异常 如果发生 的不是 HTTPError 则会去捕获 URLError 异常 输出错误原因 另外还可以加入 hasattr 属性提前对属性进行判断 代码改写如下 1 2 3 4 5 6 7 8 9 import urllib2 req urllib2 Request try urllib2 urlopen req except urllib2 URLError e if hasattr e code print e code if hasattr e reason 第 17 页 共 193 页 10 11 12 print e reason else print OK 首先对异常的属性进行判断 以免出现属性输出报错的现象 以上 就是对 URLError 和 HTTPError 的相关介绍 以及相应的错误处理办法 小伙伴们加油 转载请注明 静觅 Python 爬虫入门五之 URLError 异常处理 喜欢 40 or 分享 1 Python爬虫入门六之 Cookie的使用 Python 崔庆才 5 个月前 02 14 8572 18评论 大家好哈 上一节我们研究了一下爬虫的异常处理问题 那么接下来我们一起 来看一下 Cookie 的使用 为什么要使用 Cookie 呢 Cookie 指某些网站为了辨别用户身份 进行 session 跟踪而储存在用户本地终 端上的数据 通常经过加密 比如说有些网站需要登录后才能访问某个页面 在登录之前 你想抓取某个页 面内容是不允许的 那么我们可以利用 Urllib2 库保存我们登录的 Cookie 然后 再抓取其他页面就达到目的了 在此之前呢 我们必须先介绍一个 opener 的概念 1 Opener 当你获取一个 URL 你使用一个 opener 一个 urllib2 OpenerDirector 的实例 在 前面 我们都是使用的默认的 opener 也就是 urlopen 它是一个特殊的 opener 可以理解成 opener 的一个特殊实例 传入的参数仅仅是 url data timeout 如果我们需要用到 Cookie 只用这个 opener 是不能达到目的的 所以我们需要 创建更一般的 opener 来实现对 Cookie 的设置 2 Cookielib 第 18 页 共 193 页 cookielib 模块的主要作用是提供可存储 cookie 的对象 以便于与 urllib2 模块配 合使用来访问 Internet 资源 Cookielib 模块非常强大 我们可以利用本模块的 CookieJar 类的对象来捕获 cookie 并在后续连接请求时重新发送 比如可以实现 模拟登录功能 该模块主要的对象有 CookieJar FileCookieJar MozillaCookieJar LWPCookieJar 它们的关系 CookieJar 派生 FileCookieJar 派生 MozillaCookieJar 和 LWPCookieJar 1 获取 Cookie保存到变量 首先 我们先利用 CookieJar 对象实现获取 cookie 的功能 存储到变量中 先来 感受一下 1 2 3 4 5 6 7 8 9 10 11 12 13 import urllib2 import cookielib 声明一个 CookieJar 对象实例来保存 cookie cookie cookielib CookieJar 利用 urllib2 库的 HTTPCookieProcessor 对象来创建 cookie 处理器 handler urllib2 HTTPCookieProcessor cookie 通过 handler 来构建 opener opener urllib2 build opener handler 此处的 open 方法同 urllib2 的 urlopen 方法 也可以传入 request response opener open for item in cookie print Name item name print Value item value 第 19 页 共 193 页 我们使用以上方法将 cookie 保存到变量中 然后打印出了 cookie 中的值 运行 结果如下 1 2 3 4 5 6 7 8 9 10 Name BAIDUID Value B07B663B645729F11F659C02AAE65B4C FG 1 Name BAIDUPSID Value B07B663B645729F11F659C02AAE65B4C Name H PS PSSID Value 12527 11076 1438 10633 Name BDSVRTM Value 0 Name BD HOME Value 0 2 保存 Cookie到文件 在上面的方法中 我们将 cookie 保存到了 cookie 这个变量中 如果我们想将 cookie 保存到文件中该怎么做呢 这时 我们就要用到 FileCookieJar 这个对象了 在这里我们使用它的子类 MozillaCookieJar 来实现 Cookie 的保存 1 2 3 import cookielib import urllib2 第 20 页 共 193 页 4 5 6 7 8 9 10 11 12 13 14 15 设置保存 cookie 的文件 同级目录下的 cookie txt filename cookie txt 声明一个 MozillaCookieJar 对 象实例来保存 cookie 之后写入文件 cookie cookielib MozillaCookieJar filename 利用 urllib2 库的 HTTPCookieProcessor 对象来创建 cookie 处理器 handler urllib2 HTTPCookieProcessor cookie 通过 handler 来构建 opener opener urllib2 build opener handler 创建一个请求 原理同 urllib2 的 urlopen response opener open 保存 cookie 到文件 cookie save ignore discard True ignore expires True 关于最后 save 方法的两个参数在此说明一下 官方解释如下 ignore discard save even cookies set to be discarded ignore expires save even cookies that have expiredThe file is overwritten if it already exists 由此可见 ignore discard 的意思是即使 cookies 将被丢弃也将它保存下来 ignore expires 的意思是如果在该文件中 cookies 已经存在 则覆盖原文件写入 在这里 我们将这两个全部设置为 True 运行之后 cookies 将被保存到 cookie txt 文件中 我们查看一下内容 附图如下 3 从文件中获取 Cookie并访问 那么我们已经做到把 Cookie 保存到文件中了 如果以后想使用 可以利用下面 的方法来读取 cookie 并访问网站 感受一下 第 21 页 共 193 页 1 2 3 4 5 6 7 8 9 10 11 12 13 import cookielib import urllib2 创建 MozillaCookieJar 实例对 象 cookie cookielib MozillaCookieJar 从文件中读取 cookie 内容到变量 cookie load cookie txt ignore discard True ignore expires True 创建请求的 request req urllib2 Request 利用 urllib2 的 build opener 方法创建一个 opener opener urllib2 build opener urllib2 HTTPCookieProcessor cookie response opener open req print response read 设想 如果我们的 cookie txt 文件中保存的是某个人登录百度的 cookie 那么 我们提取出这个 cookie 文件内容 就可以用以上方法模拟这个人的账号登录百 度 4 利用 cookie模拟网站登录 下面我们以我们学校的教育系统为例 利用 cookie 实现模拟登录 并将 cookie 信息保存到文本文件中 来感受一下 cookie 大法吧 注意 密码我改了啊 别偷偷登录本宫的选课系统 o o 第 22 页 共 193 页 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 import urllib import urllib2 import cookielib filename cookie txt 声明一个 MozillaCookieJar 对 象实例来保存 cookie 之后写入文件 cookie cookielib MozillaCookieJar filename opener urllib2 build opener urllib2 HTTPCookieProcessor cookie postdata urllib urlencode stuid 201200131012 pwd 23342321 登录教务系统的 URL loginUrl 7890 pls wwwbks bks login2 login 模拟登录 并把 cookie 保存到变量 result opener open loginUrl postdata 保存 cookie 到 cookie txt 中 cookie save ignore discard True ignore expires True 利用 cookie 请求访问另一个网址 此网址是成绩查询网址 gradeUrl 7890 pls wwwbks bkscjcx curscopre 请求访问 成绩查询网址 result opener open gradeUrl 第 23 页 共 193 页 23print result read 以上程序的原理如下 创建一个带有 cookie 的 opener 在访问登录的 URL 时 将登录后的 cookie 保 存下来 然后利用这个 cookie 来访问其他网址 如登录之后才能查看的成绩查询呀 本学期课表呀等等网址 模拟登录就这么 实现啦 是不是很酷炫 好 小伙伴们要加油哦 我们现在可以顺利获取网站信息了 接下来就是把网 站里面有效内容提取出来 下一节我们去会会正则表达式 转载请注明 静觅 Python 爬虫入门六之 Cookie 的使用 Python爬虫入门七之正则表达式 Python 崔庆才 5 个月前 02 15 9787 11评论 在前面我们已经搞定了怎样获取页面的内容 不过还差一步 这么多杂乱的代 码夹杂文字我们怎样把它提取出来整理呢 下面就开始介绍一个十分强大的工 具 正则表达式 1 了解正则表达式 正则表达式是对字符串操作的一种逻辑公式 就是用事先定义好的一些特 定字符 及这些特定字符的组合 组成一个 规则字符串 这个 规则 字符串 用来表达对字符串的一种过滤逻辑 正则表达式是用来匹配字符串非常强大的工具 在其他编程语言中同样有正则 表达式的概念 Python 同样不例外 利用了正则表达式 我们想要从返回的页 面内容提取出我们想要的内容就易如反掌了 第 24 页 共 193 页 正则表达式的大致匹配过程是 1 依次拿出表达式和文本中的字符比较 2 如果每一个字符都能匹配 则匹配成功 一旦有匹配不成功的字符则匹 配失败 3 如果表达式中有量词或边界 这个过程会稍微有一些不同 2 正则表达式的语法规则 下面是 Python 中正则表达式的一些匹配规则 图片资料来自 CSDN 第 25 页 共 193 页 第 26 页 共 193 页 3 正则表达式相关注解 1 数量词的贪婪模式与非贪婪模式 正则表达式通常用于在文本中查找匹配的字符串 Python 里数量词默认是贪婪 的 在少数语言里也可能是默认非贪婪 总是尝试匹配尽可能多的字符 非 贪婪的则相反 总是尝试匹配尽可能少的字符 例如 正则表达式 ab 如果用 于查找 abbbc 将找到 abbb 而如果使用非贪婪的数量词 ab 将找到 a 注 我们一般使用非贪婪模式来提取 2 反斜杠问题 与大多数编程语言相同 正则表达式里使用 作为转义字符 这就可能造成反 斜杠困扰 假如你需要匹配文本中的字符 那么使用编程语言表示的正则表 达式里将需要 4 个反斜杠 前两个和后两个分别用于在编程语言里转义成 反斜杠 转换成两个反斜杠后再在正则表达式里转义成一个反斜杠 Python 里的原生字符串很好地解决了这个问题 这个例子中的正则表达式可以 使用 r 表示 同样 匹配一个数字的 d 可以写成 r d 有了原生字符串 妈妈也不用担心是不是漏写了反斜杠 写出来的表达式也更直观勒 4 Python Re模块 Python 自带了 re 模块 它提供了对正则表达式的支持 主要用到的方法列举 如下 1 2 3 4 5 6 返回 pattern 对象 pile string flag 以下为匹配所用函数 re match pattern string flags re search pattern string flags re split pattern string maxsplit 第 27 页 共 193 页 7 8 9 10 re findall pattern string flags re finditer pattern string flags re sub pattern repl string count re subn pattern repl string count 在介绍这几个方法之前 我们先来介绍一下 pattern 的概念 pattern 可以理解为 一个匹配模式 那么我们怎么获得这个匹配模式呢 很简单 我们需要利用 pile 方法就可以 例如 1pattern pile r hello 在参数中我们传入了原生字符串对象 通过 compile 方法编译生成一个 pattern 对象 然后我们利用这个对象来进行进一步的匹配 另外大家可能注意到了另一个参数 flags 在这里解释一下这个参数的含义 参数 flag 是匹配模式 取值可以使用按位或运算符 表示同时生效 比如 re I re M 可选值有 1 2 3 4 5 6 re I 全拼 IGNORECASE 忽略大小写 括号内是完整写法 下同 re M 全拼 MULTILINE 多行模式 改变 和 的行为 参见上图 re S 全拼 DOTALL 点任意匹配模式 改变 的行为 re L 全拼 LOCALE 使预定字符 类 w W b B s S 取决于当前区域设定 re U 全拼 UNICODE 使预 定字符类 w W b B s S d D 取决于 unicode 定义的字符 属性 re X 全拼 VERBOSE 详细 模式 这个模式下正则表达式可以是多行 忽略空白字符 并可以加 第 28 页 共 193 页 入注释 在刚才所说的另外几个方法例如 re match 里我们就需要用到这个 pattern 了 下面我们一一介绍 注 以下七个方法中的 flags同样是代表匹配模式的意思 如果在 pattern生成时已经指明了 flags 那么在下面的方法中就不需要传入这个 参数了 1 re match pattern string flags 这个方法将会从 string 我们要匹配的字符串 的开头开始 尝试匹配 pattern 一直向后匹配 如果遇到无法匹配的字符 立即返回 None 如果匹配未结束已 经到达 string 的末尾 也会返回 None 两个结果均表示匹配失败 否则匹配 pattern 成功 同时匹配终止 不再对 string 向后匹配 下面我们通过一个例子 理解一下 1 2 3 4 5 6 7 8 9 10 11 12 13 author CQC coding utf 8 导入 re 模块 import re 将正则表达式编译成 Pattern 对象 注意 hello 前面的 r 的意思是 原生字符串 pattern pile r hello 使用 re match 匹配文本 获 得匹配结果 无法匹配时将返回 None result1 re match pattern hello result2 re match pattern helloo CQC result3 re match pattern helo CQC 第 29 页 共 193 页 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 result4 re match pattern hello CQC 如果 1 匹配成功 if result1 使用 Match 获得分组信息 print result1 group else print 1 匹配失败 如果 2 匹配成功 if result2 使用 Match 获得分组信息 print result2 group else print 2 匹配失败 如果 3 匹配成功 if result3 使用 Match 获得分组信息 print result3 group 第 30 页 共 193 页 36 37 38 39 40 41 42 43 44 else print 3 匹配失败 如果 4 匹配成功 if result4 使用 Match 获得分组信息 print result4 group else print 4 匹配失败 运行结果 1 2 3 4 hello hello 3 匹配失败 hello 匹配分析 1 第一个匹配 pattern 正则表达式为 hello 我们匹配的目标字符串 string 也为 hello 从头至尾完全匹配 匹配成功 2 第二个匹配 string 为 helloo CQC 从 string 头开始匹配 pattern 完全可以匹配 pattern 匹配结束 同时匹配终止 后面的 o CQC 不再匹配 返回匹配成功的信 息 3 第三个匹配 string 为 helo CQC 从 string 头开始匹配 pattern 发现到 o 时 无法完成匹配 匹配终止 返回 None 4 第四个匹配 同第二个匹配原理 即使遇到了空格符也不会受影响 第 31 页 共 193 页 我们还看到最后打印出了 result group 这个是什么意思呢 下面我们说一下 关于 match 对象的的属性和方法 Match 对象是一次匹配的结果 包含了很多关于此次匹配的信息 可以使用 Match 提供的可读属性或方法来获取这些信息 属性 1 string 匹配时使用的文本 2 re 匹配时使用的 Pattern对象 3 pos 文本中正则表达式开始搜索的索引 值与 Pattern match 和 Pattern seach 方法的同名参数相同 4 endpos 文本中正则表达式结束搜索的索引 值与 Pattern match 和 Pattern seach 方法的同名参数相同 5 lastindex 最后一个被捕获的分组在文本中的索引 如果没有被捕获的 分组 将为 None 6 lastgroup 最后一个被捕获的分组的别名 如果这个分组没有别名或者 没有被捕获的分组 将为 None 方法 1 group group1 获得一个或多个分组截获的字符串 指定多个参数时将以元组形式返回 group1可以使用编号也可以使用别名 编号 0代表整个匹配的子串 不填 写参数时 返回 group 0 没有截获字符串的组返回 None 截获了多次的 组返回最后一次截获的子串 2 groups default 以元组形式返回全部分组截获的字符串 相当于调用 group 1 2 last default表示没有截获字符串的组以这个值替代 默认为 None 3 groupdict default 返回以有别名的组的别名为键 以该组截获的子串为值的字典 没有别名 的组不包含在内 default 含义同上 4 start group 返回指定的组截获的子串在 string中的起始索引 子串第一个字符的索引 group 默认值为 0 5 end group 返回指定的组截获的子串在 string中的结束索引 子串最后一个字符的索 引 1 group 默认值为 0 6 span group 返回 start group end group 7 expand template 将匹配到的分组代入 template中然后返回 template 中可以使用 id 或 g g 引用分组 但不能使用编号 0 id 与 g 是等价的 但 10 将被认 为是第 10个分组 如果你想表达 1 之后是字符 0 只能使用 g0 下面我们用一个例子来体会一下 第 32 页 共 193 页 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 coding utf 8 一个简单的 match 实例 import re 匹配如下内容 单词 空格 单词 任意字符 m re match r w w P hello world print m string m string print m re m re print m pos m pos print m endpos m endpos print m lastindex m lastindex print m lastgroup m lastgroup print m group m group print m group 1 2 m group 1 2 print m groups m groups print m groupdict m groupdict print m start 2 m start 2 print m end 2 m end 2 print m span 2 m span 2 第 33 页 共 193 页 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 print r m expand r g g g m expand r 2 1 3 output m string hello world m re m pos 0 m endpos 12 m lastindex 3 m lastgroup sign m group 1 2 hello world m groups hello world m groupdict sign m start 2 6 m end 2 11 m span 2 6 11 m expand r 2 1 3 world hello 2 re search pattern string flags search 方法与 match 方法极其类似 区别在于 match 函数只检测 re 是不是在 string 的开始位置匹配 search 会扫描整个 string 查找匹配 match 只有在 0 位置匹配成功的话才有返回 如果不是开始位置匹配成功的话 match 就返 回 None 同样 search 方法的返回对象同样 match 返回对象的方法和属性 我 们用一个例子感受一下 第 34 页 共 193 页 1 2 3 4 5 6 7 8 9 10 11 12 13 导入 re 模块 import re 将正则表达式编译成 Pattern 对象 pattern pile r world 使用 search 查找匹配的子串 不存在能匹配的子串时将返回 None 这个例子中使用 match 无法成功匹配 match re search pattern hello world if match 使用 Match 获得分组信息 print match group 输出 world 3 re split pattern string maxsplit 按照能够匹配的子串将 string 分割后返回列表 maxsplit 用于指定最大分割次数 不指定将全部分割 我们通过下面的例子感受一下 1 2 3 4 import re pattern pile r d print re split pattern one1two2three3four4 第 35 页 共 193 页 5 6 7 输出 one two three four 4 re findall pattern string flags 搜索 string 以列表形式返回全部能匹配的子串 我们通过这个例子来感受一下 1 2 3 4 5 6 7 import re pattern pile r d print re findall pattern one1two2three3four4 输出 1 2 3 4 5 re finditer pattern string flags 搜索 string 返回一个顺序访问每一个匹配结果 Match 对象 的迭代器 我们 通过下面的例子来感受一下 1 2 3 import re pattern pile r d 第 36 页 共 193 页 4 5 6 7 8 for m in re finditer pattern one1two2three3four4 print m group 输出 1 2 3 4 6 re sub pattern repl string count 使用 repl 替换 string 中每一个匹配的子串后返回替换后的字符串 当 repl 是一个字符串时 可以使用 id 或 g g 引用分组 但不能使用编号 0 当 repl 是一个方法时 这个方法应当只接受一个参数 Match 对象 并返回 一个字符串用于替换 返回的字符串中不能再引用分组 count 用于指定最多替换次数 不指定时全部替换 1 2 3 4 5 6 7 8 9 10 11 import re pattern pile r w w s i say hello world print re sub pattern r 2 1 s def func m return m group 1 title m group 2 title print re sub pattern func s 第 37 页 共 193 页 12 13 14 15 output say i world hello I Say Hello World 7 re subn pattern repl string count 返回 sub repl string count 替换次数 1 2 3 4 5 6 7 8 9 10 11 12 13 14 import re pattern pile r w w s i say hello world print re subn pattern r 2 1 s def func m return m group 1 title m group 2 title print re subn pattern func s output say i world hello 2 I Say Hello World 2 第 38 页 共 193 页 15 5 Python Re模块的另一种使用方式 在上面我们介绍了 7 个工具方法 例如 match search 等等 不过调用方式都是 re match re search 的方式 其实还有另外一种调用方式 可以通过 pattern match pattern search 调用 这样调用便不用将 pattern 作为第一个参数传 入了 大家想怎样调用皆可 函数 API 列表 1 2 3 4 5 6 7 match string pos endpos re match pattern string flags search string pos endpos re search pattern string flags split string maxsplit re split pattern string maxsplit findall string pos endpos re findall pattern string flags finditer string pos endpos r
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!