首页 养生问答 疾病百科 养生资讯 女性养生 男性养生

python如何提取网页信息?

发布网友 发布时间:2022-04-24 16:13

我来回答

4个回答

热心网友 时间:2022-05-02 17:25

page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码

print(contents)

热心网友 时间:2022-05-02 18:43

#不用第三方模块
from urllib import request
import re

url = '' # 你的网址
req = request.Request(url)
with request.urlopen(req,timeout=60) as htm:
htm = htm.read().decode('gbk',errors='ignore')

pat = re.compile(r'二氧化硫<.+?>(\d.*?)<.+?>(\d.*?)<.+?>(\d.*?)<.+?>(\d.*?)<')
data = pat.search(htm)
for i in range(5):
print(data.group(i)) # 第 0 个是整体匹配字符串,1-4才是所要的数字追问

您好,使用了如上的代码,还是有很多不需要的内容显示。

能否告知下去掉的方法呢?

追答我代码里不是说了吗:
print(data.group(i)) # 第 0 个是整体匹配字符串,1-4才是所要的数字
你当然可以这样:
for i in range(1,5):
print(data.group(i))
这不就成了,嘿嘿
或者:
res = []
for i in range(1,5):
res.append(data.group(i)) # 结果是字符型数字
#es.append(float(data.group(i))) #将字符串转为float型数值

热心网友 时间:2022-05-02 20:18

requests库+ 正则表达式/dom库/xpath库等

热心网友 时间:2022-05-02 22:09

看源代码就可以了

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com