最近因项目需求写了点爬虫的东西,研究了下python的一个爬虫框架scrapy,在研究图片自动下载的时候,遇到一个问题,解决如下:
1.首先是items.py
2.然后是settings.py需要添加如下几行:
3.最后是爬虫image.py
我的问题就是出在爬虫的倒数第三行,本来是这样写的:
log里面会报错如下:
参考了stackoverflow.com上面的这个问答,并且看了scrapy源码之后发现原来这个item的image_urls是一个字典,难怪要在url外面加[],这也就解释了为什么不加[]会报上面的错,因为它把图片的链接”http://t.douban.com/img/files/file-1400831012.jpg”当作了一个字典,第一个元素自然是”h”,而它想要的是http一样的协议名,所以报错如上。
参考:
[1].http://stackoverflow.com/questions/8773732/downloading-pictures-with-scrapy
blog comments powered by