搜狗微博爬虫案例--链接转换
最编程
2024-06-24 13:53:38
...
需要注意的是列表页中的链接并不是跳转后的链接,需要我们进行特殊处理。
我们请求列表页后,会返回一段script代码,可以发现该代码进行window.location的跳转工作。
那么把这段代码提取出来,通过execjs在本地执行,即可返回新的URL地址。
import execjs,re
html = ''
js='function s() {'+''.join(re.findall('\{.*?url.replace\("@", ""\);',html,re.S))+'return url}}'
new_url = execjs.compile(js).call('s')
print(new_url)
拿到weixin的链接后,即可进行采集。
上一篇: 网络搜索引擎优化
下一篇: 如何使用谷歌等搜索引擎