发布网友 发布时间:2022-04-24 16:13
共4个回答
热心网友 时间:2022-05-02 17:25
page = urllib2.urlopen(url)
contents = page.read()
#获得了整个网页的内容也就是源代码
print(contents)
热心网友 时间:2022-05-02 18:43
#不用第三方模块
from urllib import request
import re
url = '' # 你的网址
req = request.Request(url)
with request.urlopen(req,timeout=60) as htm:
htm = htm.read().decode('gbk',errors='ignore')
pat = re.compile(r'二氧化硫<.+?>(\d.*?)<.+?>(\d.*?)<.+?>(\d.*?)<.+?>(\d.*?)<')
data = pat.search(htm)
for i in range(5):
print(data.group(i)) # 第 0 个是整体匹配字符串,1-4才是所要的数字追问
您好,使用了如上的代码,还是有很多不需要的内容显示。
能否告知下去掉的方法呢?
热心网友 时间:2022-05-02 20:18
requests库+ 正则表达式/dom库/xpath库等
热心网友 时间:2022-05-02 22:09
看源代码就可以了