整体爬虫逻辑:
1.获取省份和城市的定位,然后定位出各个城市和相对应的url
2.获取到 130 xx号段 (共317个)中的xxx个
3.获取最终的号段号码
先贴上源码
#抓取省份及城市
import requests
from lxml import etree
url='http://www.51hao.cc/'
req=requests.get(url)
req.encoding='gb2312'
html=req.text
select=etree.HTML(html)
infos=select.xpath('//div[@class="fkce"]/div[@class="fkt"][position()>1]')
#print(len(infos)) #核对下省的数量是否一致
for info in infos:
#定位省的地址
province=info.xpath('div[@class="fkbj"]/p/a/text()')[0]
#print(province)