Selenium爬虫Driver的选择

由于Chrome速度快,因此很早便使用Chrome Driver淘汰了IE Driver和PhantomJS Driver。最近的抓取工作出现了一个令人头疼的事情,单开一个Driver做while 1循环,每隔5分钟扫描抓取目标对象。不过Chrome Driver总是会在4~5个小时僵死掉。我做了性能和时间的记录:

  1. Turn 1:硕博家园
  2. 2016-1-6 16:45:00
  3. Mem 1.45GB
  4. 2016-1-6 17:06:45
  5. Mem 1.43GB
  6. chrome 38,000k
  7. 2016-1-6 17:14:14
  8. Turn 2:考研版块
  9. 2016-1-6 17:19:14
  10. Mem 1.43GB
  11. chrome 53,780k
  12. 2016-1-6 17:28:17
  13. Mem 1.32GB
  14. chrome 49,672k
  15. Turn 3:xxxx
  16. 2016-1-6 17:33:14
  17. Mem 1.33GB
  18. chrome 56,000k
  19. 2016-1-6 17:35:30
  20. Mem 1.33GB
  21. chrome 55,728k
  22. Turn 4:lunwentougao
  23. 2016-1-6 17:33:14
  24. Mem 1.33GB
  25. chrome 56,000k
  26. 2016-1-6 17:28:17
  27. Mem 1.32GB
  28. chrome 49,672k
  29. ——————————————
  30. 2016-01-11 13:26:56
  31. 2016-01-11 17:20:42
  32. 22:23:30
  33. 02:22:28
  34. 2016-01-12 06:50:12
  35. 2016-01-12 11:30:37
  36. 2016-01-12 13:13:28
  37. 2016-01-12 18:05:44

所以,我打算重新换个Driver试试,到官网的Download页面下(
www.seleniumhq.org/download/) ,能够看到目前陆续出现了更多浏览器的Drvier,包括opera、Edge等。

Selenium爬虫Driver的选择

我下载的是Firefox。当然必须第一在服务器上安装好完整的Firefox浏览器。然后可以在Python中简单调用。capabilities我还不太会用,所以注销了:

  1. from selenium import webdriver
  2. from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
  3. #driver = webdriver.Chrome('C:Python27Scriptschromedriver')
  4. #firefox_capabilities = DesiredCapabilities.FIREFOX
  5. #firefox_capabilities['marionette'] = True
  6. #firefox_capabilities['binary'] = u'C:Python27Scripts'
  7. #driver = webdriver.Firefox(capabilities=firefox_capabilities)
  8. driver = webdriver.Firefox

经过一晚的测试,发现效果不错,没有什么问题,机器一直在正确的轨道上运行着:

So,写这篇博文实则可以总结为一句话:Driver提议用Firefox

© 版权声明

相关文章

暂无评论

none
暂无评论...