爬虫遇到Javascript解析问题

2019年1月18日 20:31

如前文所述，javascr ip t可以动态生成dom。目前大多数网页属于动态网页（内容由javascript动态填充），尤其是在移动端，SPA/PWA应用越来越流行，网页中大多数有用的数据都是通过ajax/fetch动态获取后然后再由js填充到网页dom树中，单纯的html静态页面中有用的数据很少。

目前主要应对的方案就是对于js ajax/fetch请求直接请求ajax/fetch的url ，但是还有一些ajax的请求参数会依赖一段javascript动态生成，比如一个请求签名，再比如用户登陆时对密码的加密等等。

如果一昧的去用后台脚本去干javascript本来做的事，这就要清楚的理解原网页代码逻辑，而这不仅非常麻烦，而且会使你的爬取代码异常庞大臃肿，但是，更致命的是，有些javascript可以做的事爬虫程序是很难甚至是不能模仿的，比如有些网站使用拖动滑块到某个位置的验证码机制，这就很难再爬虫中去模仿。

其实，总结一些，这些弊端归根结底，是因为爬虫程序并非是浏览器，没有javascript解析引擎所致。针对这个问题，目前主要的应对策略就是在爬虫中引入Javascript 引擎，如PhantomJS，但是又有着明显的弊端，如服务器同时有多个爬取任务时，资源占用太大。

还有就是，这些无窗口的javascript引擎很多时候使用起来并不能像在浏览器环境中一样，页面内部发生跳转时，会导致流程很难控制。

2253 1681

上一篇：爬虫遇到IP限制问题如何解决？

下一篇：爬虫经常遇到的交互问题

选择ip在线代理时,大家理应从几方面着手武汉猎鹰网安科技有限公司：构建坚不可破的网络安全防线 ip代理服务器和云连N的差别共享IP,独占IP可以增强安全性武汉猎鹰网安科技有限公司：构建坚不可摧的网络安全防线武汉猎鹰网安科技有限公司：构建坚不可破的网络安全屏障最普遍的代理IP获得方法,一个是找免费IP资源什么是个人VPN 武汉猎鹰网安科技有限公司：构建坚不可破的网络安全屏障武汉猎鹰网安科技有限公司：构建坚不可破的网络安全防线

旗下产品

软件IP代理企业HTTP代理开放HTTP代理高速硬件IP代理

相关文章

旗下产品

相关介绍