|
|
|
|
移动端

1.2.4 字符串方法

《从零开始学Python网络爬虫》第1章Python零基础语法入门,本章立足基础,讲解Python和PyCharm的安装及Python最简单的法基础和爬虫技术中所需的Python语法。本节为大家介绍字符串方法。

作者:罗攀/蒋仟来源:机械工业出版社|2017-12-07 14:42

技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战

1.2.4  字符串方法

Python作为面向对象的语言,每个对象都有相应的方法,字符串也一样,拥有多种方法,在这里介绍爬虫技术中常用的几种方法。

1.split()方法

  1. a = 'www.baidu.com' 
  2. print(a.split('.'))  
  3. # result ['www', 'baidu', 'com'] 

字符串的split()方法就是通过给定的分隔符(在这里为‘.’),将一个字符串分割为一个列表(后面将详细讲解列表)。

注意:如果没有提供任何分隔符,程序会把所有的空格作为分隔符(空格、制表、换行等)。

2.repalce()方法

  1. a = 'There is apples' 
  2. b = a.replace('is','are')  
  3. print(b)  
  4. # result There are apples 

这种方法类似文本中的“查找和替换”功能。

3.strip()方法

  1. a = '  python is cool    ' 
  2. print(a.strip())  
  3. # result  python is cool 

strip()方法返回去除两侧(不包括内部)空格的字符串,也可以指定需要去除的字符,将它们列为参数中即可。

  1. a = '***python *is *good***' 
  2. print(a.strip('*!'))  
  3. # result  python *is *good 

这个方法只能去除两侧的字符,在爬虫得到的文本中,文本两侧常会有多余的空格,只需使用字符串的strip()方法即可去除多余的空格部分。

4.format()方法

最后,再讲解下好用的字符串格式化符,首先看以下代码:

  1. a = '{} is my love'.format('Python')  
  2. print(a)  
  3. # result  Python is my love 

字符串格式化符就像是做选择题,留了空给做题者选择。在爬虫过程中,有些网页链接的部分参数是可变的,这时使用字符串格式化符可以减少代码的使用量。例如,Pexels素材网(https://www.pexels.com/),当搜索图片时,网页链接也会发生变化,如在搜索栏中输入book,网页跳转为https://www.pexels.com/search/book/,可以设计如下代码,笔者只需输入搜索内容,便可返回网页链接。

  1. content = input('请输入搜索内容:')  
  2. url_path = 'https://www.pexels.com/search/{}/'.format(content)  
  3. print(url_path) 

运行程序并输入book,便可返回网页链接,单击网页链接便可访问网页了,如图1.4所示。

注意:Pexels素材网为外文网,需输入英文,该网站图片免费下载,无须担忧版权问题。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

网管员成长手记——网络组建、配置与应用

本书主要以“网管员的成长经历”为线索展开,虚拟出一个“新手”网管员的工作和学习环境,将网管员的成长分为4个阶段,以“网管入职充电→...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊