易截截图软件、单文件、免安装、纯绿色、仅160KB

python 爬虫程序详解

1 #!/usr/bin/python 使用魔法字符调用python
2
3 from sys import argv  导入sys是导入python解释器和他环境相关的参数
4 from os import makedirs,unlink,sep
os主要提供对系统路径,文件重命名和删除文件所需的函数
makedirs是创建递归文件夹的函数。比如说我们要创建一个新的目录,/python/HTML/crawl,但是目前这三个文件夹都不存在,如果使用mkdir命令的话需要使用三次才能完成,但是使用os.makedir只需使用一次就可以创建好整个目录。
os.makedirs(os.path.join(os.erviron["HOME"],"python","HTML","crawl")
os.unlink(path)删除file路径,和remove()相同。
sep os.sep系统用此来分割路径名
5 from os.path import dirname,exists,isdir,splitext
使用os中的这些模块来提取dirname路径名,exists,isdir是文件类型测试,测试是否是一个目录,splitext是将文件名和文件后缀分离。分成目录文件名和后缀两部分。
6 from string import replace,find,lower
导入string模块,用于字符串的替换,查找,和小写化。
7 from htmllib import HTMLParser
8 from urllib import urlretrieve
urlretrieve()函数用于将HTML文件整个下载到你的本地硬盘中去。
9 from urlparse import urlparse,urljoin
urlparse用于将URL分解成6个元素
而urljoin用于将baseurl和newurl组合在一起
10 from formatter import DumbWriter,AbstractFormatter
formatter函数主要用于格式化文本
11 from cStringIO import StringIO
调用cStringIO函数对内存中的文件进行处理
12
13 class Retriever:
Retriever类负责从网上下载网页并对每一个文档里面的连接进行分析,如果符合下载原则就添加到“待处理”队列中。从网上下载到的每个主页都有一个与之对应的Retriever实例。Retriever有几个帮助实现功能的方法,分别是:构造器(__init__()),filename(),download()和parseAndGetLinks()。
14  def __init__(self,url): 定义构造器,指向当前类的当前实例的引用。   self 指向新创建的
对象,另外一个参数是url.构造器实例化一个Retriever对象,并且把URL字符串和从filename()返回的与之对应的文件名保存为本地属性。
15   self.url=url
将url的值付给self.url
16   self.file=self.filename(url)
???
17  def filename(self,url,deffile="index


相关文档:

UltraEdit支持python语言。


为了让UE支持python语言,google了很多,结果都不行,最后看了下面的博客才知道错哪了,总结下以免忘记。
http://wangtao.name/2009/12/20/ultraedit_python.html
在官网上找到python的扩展下载点:http://www.ultraedit.com/downloads/extras.html
有各种语言的扩展,便可以支持语法高亮。
python 2.5:http://www.u ......

python访问 sql server

今天试验使用python连接 sql server 服务器。我记得以前使用ado连接access非常顺利,但是今天使用ado连接sql server竟然不成功。在python里面的出错信息都显示为转移序列,费了半天劲才搞明白:无效的类别字符串。
是连接字符串吗?测试了好几个 确认无误的数据库连接字符串,也是如此 。上网搜索,是有可能是 com的类别字 ......

python 正则表达式和re模块

正则表达式是搜索、替换和解析复杂字符模式的一种强大而标准的方法.
正则表达式(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.字符串也有很多方法,可以进行搜索 (index、find 和 count)、替换 (replace) 和解
析 (split),但它们仅限于处理最简单的情况
re 模块使 P ......

Python 元组


Python 元组
元组和列表十分类似,只不过元组和字符串一样是 不可变的 即你不能修改元组。元组通过圆括号中用逗号分割的项目定义。元组通常用在使语句或用户定义的函数能够安全地采用一组值的时候,即被使用的元组的值不会改变。
使用元组
例9.2 使用元组
#!/usr/bin/python
# Filename: using_tuple.py
zoo = ('wo ......

python学习(1)-字典 (Dictionary)

   
字典(Dictionary)是一种映射结构的数据类型,由无序的“键-值对”组成。字典的键必须是不可改变的类型,如:字符串,数字,tuple;值可
以为任何python数据类型。
1、新建字典
>>> dict1={}     
#建立一个空字典
>>> type(dict1)
<ty ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号