91福利精品一区二区,欧美激情一区二区三3,国产91精品久久久久久久粉嫩,国产精品ww在线观看,91久久精品一区二区别,国产99视频精品草莓免视看,91伊人成人成网77777,亚洲精华液一二三产区,97免费播放视频观看

如何快速爬取B站全站視頻信息

桂林seo半杯酒博客 2017-11-20 19:28:52

　　如何快速爬取B站全站視頻信息

　　B 站我想大家都熟悉吧，其實(shí) B 站的爬蟲網(wǎng)上一搜一大堆。不過紙上得來終覺淺，絕知此事要躬行，我碼故我在。最終爬取到數(shù)據(jù)總量為 760萬條。

　　準(zhǔn)備工作

　　首先打開 B 站，隨便在首頁找一個(gè)視頻點(diǎn)擊進(jìn)去。常規(guī)操作，打開開發(fā)者工具。這次是目標(biāo)是通過爬取 B 站提供的 api 來獲取視頻信息，不去解析網(wǎng)頁，解析網(wǎng)頁的速度太慢了而且容易被封 ip。

　　勾選 JS 選項(xiàng)，F(xiàn)5 刷新

　　找到了 api 的地址

　　復(fù)制下來，去除沒必要的內(nèi)容，得到 https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633 ，用瀏覽器打開，會(huì)得到如下的 json 數(shù)據(jù)

　　動(dòng)手寫碼

　　好了，到這里代碼就可以碼起來了，通過 request 不斷的迭代獲取數(shù)據(jù)，為了讓爬蟲更高效，可以利用多線程。

　　核心代碼

　　result = [] req = requests.get(url, headers=headers, timeout=6).json() time.sleep(0.6) # 延遲，避免太快 ip 被封 try: data = req['data'] video = Video( data['aid'], # 視頻編號(hào) data['view'], # 播放量 data['danmaku'], # 彈幕數(shù) data['reply'], # 評(píng)論數(shù) data['favorite'], # 收藏?cái)?shù) data['coin'], # 硬幣數(shù) data['share'] # 分享數(shù) ) with lock: result.append(video) except: pass

　　迭代爬取

　　urls = ["http://api.bilibili.com/archive_stat/stat?aid={}".format(i) for i in range(10000)] with futures.ThreadPoolExecutor(32) as executor: # 多線程 executor.map(run, urls)

　　不要一次性爬取全部鏈接，我是利用兩個(gè)進(jìn)程，這樣就是多進(jìn)程+多線程了。一個(gè)進(jìn)程一次大概爬取 50w 條數(shù)據(jù)。100w 條數(shù)據(jù)的話大概一個(gè)多小時(shí)吧。分多次爬取，分別將數(shù)據(jù)保存為不同的文件名，最后再匯總。