标签spider下的文章

admin 发布于 04月19, 2017

spynner解析中文页面显示?号

spynner解析中文页面显示?号

这个是底层的QtWebKit相关库里 用的是Qt的QString spynner在将QString转为Python的通用字符串时,没有考虑到中文编码这一块的问题。 原创声明:我这两天抓取动态页面,也遇到这个问题,通过调试发现是QString问题后从google找到了QString的正确转换方法。 你把Python27\Lib\site-packages\spynner\browser.py 下的函数 (大概是477行)

def _get_html(self):
    return six.u(self.webframe.toHtml())

改成下面这样

def _get_html(self):
    return  unicode(self.webframe.toHtml().toUtf8(), 'utf-8', 'ignore')

阅读全文 »

admin 发布于 03月30, 2017

搜索引擎爬虫蜘蛛的USERAGENT大全

搜索引擎爬虫蜘蛛的USERAGENT大全

搜索引擎爬虫蜘蛛的USERAGENT收集,方便制网络爬虫的朋友。

百度爬虫

google爬虫

雅虎爬虫(分别是雅虎中国和美国总部的爬虫)

Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”) Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)

新浪爱问爬虫

iaskspider/2.0(+http://iask.com/help/help_index.html”) Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

搜狗爬虫

Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″) Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)

网易爬虫

*Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )

MSN爬虫

*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

阅读全文 »