1. 关于jsoup的基本介绍
jsoup是一个使用java打开网页的实用工具,有着丰富的功能。我在制作一个crawler的时候使用了jsoup和maven有着很好的结合。
2. jsoup中的agent
本文并不很着重于介绍jsoup的一些相关特性。很多人都写过类似的内容。本文主要解决以下这个问题:
使用 jsoup 打开网页收到 403 错误的解决方法。(为了方便大家能够搜索到文章,我特别加了两个空格)这个问题可以通过使用agent属性来进行解决。其实虽然说是agent,但其实就是在请求头部分加上一定的信息从而蒙混过关。
3. 解决方法
使用类似以下语句可以解决问题:
1
Document document = Jsoup.connect(url).userAgent("Mozilla").timeout(10000/*wait up to 2 sec for response*/).get();
因为默认的Jsoup会使用java的方式打开网页。这个userAgent可以在请求头部分伪装成mozilla进行请求访问,从而蒙混过关。这个语句的扩展用法还有伪装成mobile或者其他浏览器来进行访问。如果有需求可以进行相关尝试。