mm_crawler

知乎上看到cos出的一道题,描述如下:

Python写个爬虫把22mm.cc上的美女图片爬下来,我们把这个爬虫项目命名为:mm_crawler。

需满足:

1、不要把非相关的图片也爬了;

2、你总该考虑多线程吧?或者协程;

3、命令行-h可以查看程序运行帮助,-n可以指定并发的线程数(默认10个),-o可以指定图片存储在哪个目录(默认当前运行目录的pics目录下),-l可以限制爬多少图片就结束(默认不限制);

4、思考个问题,如果下次我要爬其他的美女网站,你这个程序如何尽可能利于复用;

5、把你的实现思路清晰记录在该爬虫项目的目录下:readme.txt;

6、你可以用Python内置模块与第三方模块来加速你这个任务;

7、两周内搞定;

这两天简单实现了一下,地址:

http://www.sfishlost.com/download/mm_crawler.rar