易截截图软件、单文件、免安装、纯绿色、仅160KB

python 爬虫程序详解

1 #!/usr/bin/python 使用魔法字符调用python
2
3 from sys import argv  导入sys是导入python解释器和他环境相关的参数
4 from os import makedirs,unlink,sep
os主要提供对系统路径,文件重命名和删除文件所需的函数
makedirs是创建递归文件夹的函数。比如说我们要创建一个新的目录,/python/HTML/crawl,但是目前这三个文件夹都不存在,如果使用mkdir命令的话需要使用三次才能完成,但是使用os.makedir只需使用一次就可以创建好整个目录。
os.makedirs(os.path.join(os.erviron["HOME"],"python","HTML","crawl")
os.unlink(path)删除file路径,和remove()相同。
sep os.sep系统用此来分割路径名
5 from os.path import dirname,exists,isdir,splitext
使用os中的这些模块来提取dirname路径名,exists,isdir是文件类型测试,测试是否是一个目录,splitext是将文件名和文件后缀分离。分成目录文件名和后缀两部分。
6 from string import replace,find,lower
导入string模块,用于字符串的替换,查找,和小写化。
7 from htmllib import HTMLParser
8 from urllib import urlretrieve
urlretrieve()函数用于将HTML文件整个下载到你的本地硬盘中去。
9 from urlparse import urlparse,urljoin
urlparse用于将URL分解成6个元素
而urljoin用于将baseurl和newurl组合在一起
10 from formatter import DumbWriter,AbstractFormatter
formatter函数主要用于格式化文本
11 from cStringIO import StringIO
调用cStringIO函数对内存中的文件进行处理
12
13 class Retriever:
Retriever类负责从网上下载网页并对每一个文档里面的连接进行分析,如果符合下载原则就添加到“待处理”队列中。从网上下载到的每个主页都有一个与之对应的Retriever实例。Retriever有几个帮助实现功能的方法,分别是:构造器(__init__()),filename(),download()和parseAndGetLinks()。
14  def __init__(self,url): 定义构造器,指向当前类的当前实例的引用。   self 指向新创建的
对象,另外一个参数是url.构造器实例化一个Retriever对象,并且把URL字符串和从filename()返回的与之对应的文件名保存为本地属性。
15   self.url=url
将url的值付给self.url
16   self.file=self.filename(url)
???
17  def filename(self,url,deffile="index


相关文档:

python图形处理库PIL(Python Image Library)


原文地址 http://www.javaeye.com/wiki/Python/1371-python-graphics-library-pil-python-image-library-introduction
关于PIL库的一些概念
pil能处理的图片
类型
pil可以处理光栅图片(像素数据组成的的块)。
通道
一个图片可以包含一到多个数据通道,如果这些通道具有相同的维数和深度,Pil允许将这些通道进行叠加 ......

python 中文问题

如果Python源文件中出现中文,需要在源文件第一行加上类似如下的代码页指令:
# -*- coding:gbk -*-
如果程序的运行结果中包含中文,可以在程序开头包含如下代码,就可以正确显示中文结果:
    import sys
    reload(sys)
    sys.setdefaultencoding('gbk')
......

Python modules : os, subprocess and commands

1. What’s the difference between all of the os.popen() methods?
popen2 doesn't capture standard error, popen3 does capture standard
error and gives a unique file handle for it. Finally, popen4 captures
standard error but includes it in the same file object as standard
output.
os.popen()&n ......

Python实现“各类型文件统计”功能

不多说了,直接看代码吧!
import os
path = 'e:/Download/'
kzm = []
kzmTemp = set()
kzmTemp2 = []
dict = {}
for root,dirs,files in os.walk(path):
    for file in files:
        ext = os.path.splitext(file)[1][1:]
      ......

Amusing Python 2: range/xrange

这两个基本上都是在循环的时候用。
Python
代码 < type="application/x-shockwave-flash" width="14" height="15" src="http://cloudhe.javaeye.com/javascripts/syntaxhighlighter/clipboard_new.swf" src="http://cloudhe.javaeye.com/javascripts/syntaxhighlighter/clipboard_new.swf" flashvars="clipboard=for%20i% ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号