正则表达式与python
在Python中有一个非常重要也非常好用的模块re,在import re后,就能够在Python中使用正则表达式,源于此次项目要用正则表达式对html代码提取一定的字符,所以在这也就用些小例子来熟悉一下正则表达式
现在就用最简单的例子
import re
s='<title>http://www.baidu.com</title>'
print re.findall(r'<\w+>(.+)</',s)
运行后结果为
>>>
['http:\\www.baidu.com']
这个相对来说还是比较简单的,但是这个正则表达式还是有比较多的问题
1对于比较复杂的字符串,比如嵌套了标签的字符串,就没有办法了,因为只能够判断最外一层的<></>标记而已
2是这个是判断具有类似<></>标记的字符串,对于实际的html中的提取,还是要加上具体的值,比如是title,还是head
import re
s='<head><title>http:\\www.baidu.com</title></head>'
print re.findall(r'title>(.+)</title',s)
运行后得到
>>>
['http:\\www.baidu.com']
虽然在这个比较简单的代码中我们解决了上述两个问题,但是针对html中更加复杂的代码,我觉得还是会有很多的问题
不过今天也就是简单的熟悉一下正则表达式,所以也就不再去深入研究,经过队员的讨论后在探讨解决问题的方案
下面给出一个判断邮箱地址是否合法的正则表达式
邮箱主要包括@和.,所以在判断的时候也只需假如这两个条件就可以了
import re
s='zhuangruln@gmail.com zhuangasdsad@126.com zhusdandsai@adsd'
print re.findall(r'(\w+@\w+\.\w+)',s)
运行结果
['zhuangruln@gmail.com', 'zhuangasdsad@126.com']
>>>
相关文档:
2009-11-16
Collin Winter是Python社区一位颇具影响力的开发者,他曾是CPython项目的核心开发者之一、也曾是Unladen Swallow(见文末注释)的核心开发者,参与了很多Python项目的开发。近来传闻Google将在其新项目中限制Python的使用,为此有开发者(以K表示)在Google 论坛中公开询问了Collin Winter,Collin Winte ......
Python是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定。Python 具有脚本语言中最丰富和强大的类库,足以支持绝大多数日常应用。它具有简单、易学、免费、开源、可移植性、解释性、面向对象、可扩展性、可嵌入性以及丰富的库等特性, ......
关于Python程序的运行,其实一个Python程序就相当于一个应用程序,它不需要经过编译,只需要用户电脑上面安装Python环境即可。要运行一个py程序,直接双击这个py文件即可。一般情况下,没有提示用户输入或控制屏幕显示,打开一个py文件时会突然闪一下马上就退出,这是由于程序运行已经完成了。若需要显示,则要添加一 ......
发信人: TRAD (GFans), 信区: NLP
标 题: 原创:使用python调用计算所分词
发信站: 水木社区 (Mon Nov 23 13:30:46 2009), 站内
代码很简单,但我自己摸索了一下午,发出来共享一下
把这个文件同ICTALAS30.DLL ,DATA文件夹,Configure.xm l放在同一个目录下即可。
python代码
#coding:gb2312
from cty ......
http://www.itzn.cn/html/jiaoben/python-perl-VBA/200812/19-3283.html
字符串是使用静态的方式进行存储,只能读而不能直接修改字符内容。特别将一堆对字符串并在一起的时候,虽然可以直接相加,听说这样的速度奇慢,只有用其它函数的方式进行,好在也不太麻烦。
比如用 print ','.join(datelist)
就可以将date ......