利用爬虫绕过豆瓣限制抓取豆瓣电影信息
前两天看到国内一个电影评论,大概意思是说近些年的烂片的一些规律,比如主演,导演,年份等等,闲来不是很忙,就写了段代码,按照年份把豆瓣的电影信息全部抓取下来,然后回头自己统计看看。
思路
爬虫程序写过好多,包括模拟提交,模拟登录抓取数据等等,所以核心代码就决定用Java的HttpClient来实现,本来想用C#来的,但是想着上次用WebClient的坑到现在都没好好填上,还是算了,用java吧。
整体思路很简单,爬了列表后,组合列表Url,然后爬所有电影的ID,最后用豆瓣的api接口来获取每部电影的详细信息。