现在我们可以通过python语言写出爬虫程序来实现页面抓取、定时启动更新、定时发邮件提醒功能。虽然python的爬虫程序可以在本地运行,但是如果是要爬取数十万页面的内容,电脑不能一直开机,本地网络质量不稳定的情况下,使用服务器来运行爬虫程序是最佳的选择。不过现在的服务器类型那么多,性能及价格不一,那么选择什么样的服务器更适合作为爬虫服务器来使用呢?
首先我们需要对爬虫程序所需要的资源以及服务器配置来确定配置参数:
序列号 | CPU | RAM | HDD | 带宽 | 售价(美元) | 免费试用 |
---|---|---|---|---|---|---|
香港服务器1 | E5-2620 | 32G | 1T HDD | 50M/无限流量 | $196.00 | 立即申请 |
香港服务器2 | E5-2650 | 32G | 1T HDD | 50M/无限流量 | $256.00 | 立即申请 |
香港服务器3 | E5-2680 | 32G | 1T HDD | 50M/无限流量 | $316.00 | 立即申请 |
香港服务器4 | E5-2690 | 32G | 1T HDD | 50M/无限流量 | $336.00 | 立即申请 |
香港服务器5 | E5-2697 | 32G | 1T HDD | 50M/无限流量 | $376.00 | 立即申请 |
香港服务器6 | E5-2620*2 | 32G | 1T HDD | 50M/无限流量 | $376.00 | 立即申请 |
香港服务器7 | E5-2650*2 | 32G | 1T HDD | 50M/无限流量 | $436.00 | 立即申请 |
香港服务器8 | E5-2680*2 | 32G | 1T HDD | 50M/无限流量 | $476.00 | 立即申请 |
香港服务器9 | E5-2690*2 | 32G | 1T HDD | 50M/无限流量 | $556.00 | 立即申请 |
香港服务器10 | E5-2697*2 | 32G | 1T HDD | 50M/无限流量 | $596.00 | 立即申请 |
香港服务器11 | E5-2680v4*2 | 32G | 1T HDD | 50M/无限流量 | $696.00 | 立即申请 |
香港服务器12 | E5-2698v4*2 | 32G | 1T HDD | 50M/无限流量 | $796.00 | 立即申请 |
假如页面爬取总数是30万左右,接下来需要确定的是:页面每天都需要爬一遍还是说每天只爬其中某一部分即可。
这里我们以最大上限来假设,每天爬30万页面,而且已经考虑了目标的反爬机制、代理池等等所需的条件都已经准备完成,那么需要测算的就是单位时间单核多线程的正常工作效率是多少,也就是爬虫程序能爬多少页面。
在网速不限的情况下,单位内存及CPU最高使用率下能够爬多少个页面,设为N。如果是在额定网速下,内存及CPU有闲置资源时能够爬多少个页面,设为M。
若基于M/N的爬取速度,都能满足每天爬30w的需求,就可以用固定网速下的网速,不限网速的硬件配置。
这里可以先选择弹性云,用最小配置测试,若不满足需求,逐渐增加配置。不过在逐渐升级配置的过程中我们也要考虑相应云服务器配置的成本,因为当云服务器的性能达到一定程度之后,云服务器租用的价格就会大大超过独立服务器,这时候我们就需要使用独立服务器了,而且独立服务器还可以选择多IP的站群服务器,防止爬虫IP过于单一而被屏蔽。