python如何提取网页信息?

发布网友发布时间：2022-04-24 16:13

共4个回答

热心网友时间：2022-05-02 17:25

page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码

print(contents)

热心网友时间：2022-05-02 18:43

#不用第三方模块
from urllib import request
import re

url = '' # 你的网址
req = request.Request(url)
with request.urlopen(req,timeout=60) as htm:
htm = htm.read().decode('gbk',errors='ignore')

pat = re.compile(r'二氧化硫<.+?>(\d.*?)<.+?>(\d.*?)<.+?>(\d.*?)<.+?>(\d.*?)<')
data = pat.search(htm)
for i in range(5):
print(data.group(i)) # 第 0 个是整体匹配字符串，1-4才是所要的数字追问

您好，使用了如上的代码，还是有很多不需要的内容显示。

能否告知下去掉的方法呢？

追答我代码里不是说了吗：
print(data.group(i)) # 第 0 个是整体匹配字符串，1-4才是所要的数字
你当然可以这样：
for i in range(1,5):
print(data.group(i))
这不就成了，嘿嘿
或者：
res = []
for i in range(1,5):
res.append(data.group(i)) # 结果是字符型数字
#es.append(float(data.group(i))) #将字符串转为float型数值

热心网友时间：2022-05-02 20:18

requests库+ 正则表达式/dom库/xpath库等

热心网友时间：2022-05-02 22:09

看源代码就可以了

全部频道

python如何提取网页信息?