Python正则表达式
正则表达式是个魔鬼,也是个天使。在你没有掌握它之前,它是魔鬼,在你掌握它后,它是天使,但是,时
不时还是要跳出来,给你调皮捣蛋一番。
一个正则表达式就是由普通字符以及特殊字符组成的文字模式,该模式描述在查找文字主体时待
匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配,并能提取出匹配的结果。它是搜索、替换和解析复杂字符模式的
一种强大而标准的方法。
正则表达式有着总体规范的一套语法,但是到了各种语言中,又会有使用上的稍微不同,主要是表达式的细
微语法表达,还有语言的匹配类和方法的不同。
Python的所有类库都在re包中,和java
1.4以后的不同,String的各个方法,find和replace都不自做主张的去使用正则表达式,而是使用简单的字符串方式。这点我比较欣赏,有时
候只是做一些简单的替换,不要弄正则表达式这么麻烦,也让新手们摸不着北,替换两个字符就要去了解正则表达式这么夸张。
工具
Python有一个非常好的正则表达式辅助调试工具:Kodos。有Windows版本,提供了对正则表达式的方便的实时调试功能,建议学习正则表达式前
一定要下载:
http://kodos.sourceforge.net/
应用场景:
转换url为路径名
import
re
articleUrl =
"http://pp.sohu.com/yule/photoview-44789795.html#44789795"
path =
re.sub("http://|https://", "", articleUrl)
path =
re.sub("[?&.=#-]", "_", path)
path
'pp_sohu_com/yule/photoview_44789795_html_44789795'
采用这种替换方式,随时发现url中有新非法字符,添加到[]中就可以了。[]表示字符集,在[]其中的任意字符,都会被匹配到
2. 提取html页面中img标签的src属性
import
re
import
urllib
imgSrcPattern
=
r
'''
<img\s*src\s*="?(\S+)"?
'''
pageUrl
=
'
http://pp.sohu.com/yule/photoview-44789
相关文档:
Install Python Eric IDE
1 Download following things
1) Python3.1
2) PyQt for python 3.1
(http://www.riverbankcomputing.co.uk/software/pyqt/download) I am using
PyQt-Py3.1-gpl-4.7.3-2.exe
3) Eric5 IDE
(http://eric-ide.python-projects.org/eric-download.html)
2 ......
自己遇到的一个问题, WestGeco的3D地震数据, 提取导航数据:
#!/bin/env python
import sys
import struct
try:
f=open(sys.argv[1],'rb')
except (IOError,Exception):
print '''usage:
scriptname segyfilename
'''
&nbs ......
英文版Dive in python可以在下面找到中文翻译http://linuxtoy.org/docs/dip/toc/index.html
模块的__name__,当模块被import时,其为模块的名字,当模块作为main执行的时候,其为__main__
词典的key是大小写敏感的。
List也支持重载+操作,用于将两个list连接起来,并返回一个List,因此它没有extended执行高效。list也+ ......