易截截图软件、单文件、免安装、纯绿色、仅160KB

拜师贴:如何使用python抓取网页数据

如何使用python,将下面的网页
http://quotes.money.163.com/corp/1034/code=600221.html
那张资产负债表抓取出来,发到一个文本文件中?
请留下qq,我拜你为师


Python code:
import re
import urllib2

notePattern = '<table width="125" border="0" align="left" cellpadding="5" cellspacing="0" class="dataTb04">(?P<code>[\s\S]*?)</table>*?'

web = urllib2.urlopen("http://quotes.money.163.com/corp/1034/code=600221.html")
content = web.read()
p = re.compile(notePattern)
iter = p.finditer(content)
for matcher in iter:
code = matcher.group('code')
newpattern = '<td>(?P<data>[\s\S]*?)</td>'
s = re.compile(newpattern)
i = s.finditer(code)
for m in i:
d = m.group('data')
if d == '&nbsp;' or d =='&nbsp' or d == '&nbsp&nbsp;':
print ''
elif d.startswith('<font'):
f = '<font color=red>(?P<info>[\s\S]*?)</font>'
pf = re.compile(f)
t = pf.finditer(d)
for mm in t:
print mm.group('info')
else:
print d


沙老师,程序好像没有全部写完,可否简要介绍一下你的思考步骤,并将完整的程序贴出来?

这个表还算好,整个表结构比较清楚,
用beautiful


相关问答:

python 异常退出

最近用python写一个程序,总是异常退出,但是却没法用try..except来捕捉

由于没法发图片,所以把相关的信息打印出来
异常的信息大致如下:

python.exe遇到问题需要关闭。我们对此引起的不便表示抱歉 ......

eric4怎么运行python程序?

python和pyqt以及Eric4都已经配置好了,打开Eric4写个python程序比如简单的
print“hello,world”,怎么编译运行了,Start菜单的所有命令都出现和图中差不多的对话框,应当怎么运行了?

求大家指教

没有人用 ......

python PIL模块打开图片问题

请问下,我的是python2.5安装了PIL模块,然后编写程序打开本机上的一个图片时,为什么老出现错误呢,老是找不到图片,错误提示如下:File "C:\Python25\Lib\site-packages\PIL\Image.py", line 1888, in o ......

python正则表达式 如何取出以下字符串 多谢

s='aaa111aaa,bbb222,333ccc,444ddd444,555eee666,fff777ggg'
用正则表达式取出 前后字母相同的数据 结果如下:
111 ddd
谢谢~
Python code:

import re
s='aaa111aaa,bbb222,333ccc,444ddd444,555eee666,ff ......

python如何设置CLOSE_WAIT状态占用的端口重用

发现python2.6
import httplib
conn=httplib.HTTPSConnection('x.x.x.x')
conn.request('','')
rd=conn.getresponse()
conn.close()
这样结束后会变成CLOSE_WAIT状态,我 ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号