拜师贴:如何使用python抓取网页数据
如何使用python,将下面的网页
http://quotes.money.163.com/corp/1034/code=600221.html
那张资产负债表抓取出来,发到一个文本文件中?
请留下qq,我拜你为师
Python code:
import re
import urllib2
notePattern = '<table width="125" border="0" align="left" cellpadding="5" cellspacing="0" class="dataTb04">(?P<code>[\s\S]*?)</table>*?'
web = urllib2.urlopen("http://quotes.money.163.com/corp/1034/code=600221.html")
content = web.read()
p = re.compile(notePattern)
iter = p.finditer(content)
for matcher in iter:
code = matcher.group('code')
newpattern = '<td>(?P<data>[\s\S]*?)</td>'
s = re.compile(newpattern)
i = s.finditer(code)
for m in i:
d = m.group('data')
if d == ' ' or d ==' ' or d == '  ':
print ''
elif d.startswith('<font'):
f = '<font color=red>(?P<info>[\s\S]*?)</font>'
pf = re.compile(f)
t = pf.finditer(d)
for mm in t:
print mm.group('info')
else:
print d
沙老师,程序好像没有全部写完,可否简要介绍一下你的思考步骤,并将完整的程序贴出来?
这个表还算好,整个表结构比较清楚,
用beautiful
相关问答:
刚接触,感觉功能比较强大,主要是粘合性好,可以有机结合其他语言。但不明白它主要应用于什么领域,主要做那方面的东东。开发ERP系统是否可行?
基本上什么都可以做
今天去看了一下,基本上什么 ......
请问下,我的是python2.5安装了PIL模块,然后编写程序打开本机上的一个图片时,为什么老出现错误呢,老是找不到图片,错误提示如下:File "C:\Python25\Lib\site-packages\PIL\Image.py", line 1888, in o ......
我每次上传的文件读到的数据都不正确。2M 的图片读得10多K 。。哪位大侠可以帮帮我啊。
#!D:\ProgrammerTools\python26\python.exe
#encoding=utf-8
import cgitb
import os
cgitb.enable()
import cgi,urllib ......
rt
这个怎么实现,谢谢!
比如,我发现某个网站很好玩。我想用python写个程序注册到这个网站上。怎么实现?
up继续等回复
引用
对方可能有反auto机制,比如识别码等。所以你的工程量就大了。
......
feedparser导入这个包 读xml的title,link 都没问题 就是时间读取不出来
错误:
print d['feed']['%s lastBuildDate']
return UserDict.__getitem__(self, realkey)
KeyError: ' ......