作者:chenjiandongx
B 站我想大家都熟悉吧,其實 B 站的爬蟲網(wǎng)上一搜一大堆。不過?紙上得來終覺淺,絕知此事要躬行,我碼故我在。最終爬取到數(shù)據(jù)總量為?760萬?條。
準備工作
首先打開 B 站,隨便在首頁找一個視頻點擊進去。常規(guī)操作,打開開發(fā)者工具。這次是目標是通過爬取 B 站提供的 api 來獲取視頻信息,不去解析網(wǎng)頁,解析網(wǎng)頁的速度太慢了而且容易被封 ip。
勾選 JS 選項,F(xiàn)5 刷新
找到了 api 的地址
復(fù)制下來,去除沒必要的內(nèi)容,得到?https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633?,用瀏覽器打開,會得到如下的 json 數(shù)據(jù)
動手寫碼
好了,到這里代碼就可以碼起來了,通過 request 不斷的迭代獲取數(shù)據(jù),為了讓爬蟲更高效,可以利用多線程。
核心代碼
result = []req = requests.get(url, headers=headers, timeout=6).json()time.sleep(0.6) # 延遲,避免太快 ip 被封try: data = req['data'] video = Video( data['aid'], # 視頻編號 data['view'], # 播放量 data['danmaku'], # 彈幕數(shù) data['reply'], # 評論數(shù) data['favorite'], # 收藏數(shù) data['coin'], # 硬幣數(shù) data['share'] # 分享數(shù) ) with lock: result.append(video)except: pass
迭代爬取
urls = ["http://api.bilibili.com/archive_stat/stat?aid={}".format(i) for i in range(10000)] with futures.ThreadPoolExecutor(32) as executor: # 多線程 executor.map(run, urls)
不要一次性爬取全部鏈接,我是利用兩個進程,這樣就是多進程+多線程了。一個進程一次大概爬取 50w 條數(shù)據(jù)。100w 條數(shù)據(jù)的話大概一個多小時吧。分多次爬取,分別將數(shù)據(jù)保存為不同的文件名,最后再匯總。
運行的效果大概是這樣的,數(shù)字是已經(jīng)已經(jīng)爬取了多少條鏈接,其實完全可以在一天或者兩天內(nèi)就把全站信息爬完的。
至于爬取后要怎么處理就看自己愛好了,我是先保存為 csv 文件,然后再匯總插入到數(shù)據(jù)庫。
匯總的 csv 文件
數(shù)據(jù)庫表
由于這些內(nèi)容是我在幾個月前爬取的,所以數(shù)據(jù)其實有些滯后了。
數(shù)據(jù)總量
查詢播放量前十的視頻
查詢回復(fù)量前十的視頻
各種花樣查詢?nèi)尉x擇!!視頻的鏈接為?https://www.bilibili.com/video/av?+ v_aid
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 央國企采購管理升級,合合信息旗下啟信慧眼以科技破局難點
- Apache Struts重大漏洞被黑客利用,遠程代碼執(zhí)行風(fēng)險加劇
- Crunchbase:2024年AI網(wǎng)絡(luò)安全行業(yè)風(fēng)險投資超過26億美元
- 調(diào)查報告:AI與云重塑IT格局,77%的IT領(lǐng)導(dǎo)者視網(wǎng)絡(luò)安全為首要挑戰(zhàn)
- 長江存儲發(fā)布聲明:從無“借殼上市”意愿
- 泛微·數(shù)智大腦Xiaoe.AI正式發(fā)布,千人現(xiàn)場體驗數(shù)智化運營場景
- IDC:2024年第三季度北美IT分銷商收入增長至202億美元
- AI成為雙刃劍!凱捷調(diào)查:97%組織遭遇過GenAI漏洞攻擊
- openEuler開源五年樹立新里程碑,累計裝機量突破1000萬
- 創(chuàng)想 華彩新程!2024柯尼卡美能達媒體溝通會煥新增長之道
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。