作品介紹

Python網(wǎng)絡(luò)爬蟲從入門到實(shí)踐


作者:唐松      整理日期:2021-11-18 16:47:39

使用Python編寫網(wǎng)絡(luò)爬蟲程序獲取互聯(lián)網(wǎng)上的大數(shù)據(jù)是當(dāng)前的熱門專題。本書內(nèi)容包括三部分:基礎(chǔ)部分、進(jìn)階部分和項(xiàng)目實(shí)踐部分。基礎(chǔ)部分(~7章)主要介紹爬蟲的三個(gè)步驟——獲取網(wǎng)頁、解析網(wǎng)頁和存儲數(shù)據(jù),通過諸多示例的講解,讓讀者從基礎(chǔ)內(nèi)容開始系統(tǒng)性地學(xué)習(xí)爬蟲技術(shù),并在實(shí)踐中提升Python爬蟲水平。進(jìn)階部分(第8~13章)包括多線程的并發(fā)和并行爬蟲、分布式爬蟲、更換IP等,幫助讀者進(jìn)一步提升爬蟲水平。項(xiàng)目實(shí)踐部分(4~17章)使用本書介紹的爬蟲技術(shù)對幾個(gè)真實(shí)的網(wǎng)站進(jìn)行抓取,讓讀者能在讀完本書后根據(jù)自己的需求寫出爬蟲程序。無論你是否有編程基礎(chǔ),只要對爬蟲技術(shù)感興趣,本書就能帶領(lǐng)你從入門到實(shí)戰(zhàn)再到進(jìn)階,一步步了解爬蟲,很終寫出自己的爬蟲程序。唐松,2010年獲全額獎(jiǎng)學(xué)金人讀香港中文大學(xué)商學(xué)院,之后獲得康奈爾大學(xué)信息科學(xué)碩士學(xué)位。曾與IBM合作大數(shù)據(jù)A100計(jì)劃,為多個(gè)世界500強(qiáng)公司提供數(shù)據(jù)挖掘服務(wù),并將網(wǎng)絡(luò)爬蟲的經(jīng)驗(yàn)應(yīng)用到這些項(xiàng)目中。2018年以技術(shù)大咖入職騰訊公司,現(xiàn)任騰訊數(shù)據(jù)服務(wù)中心數(shù)據(jù)分析師,分析騰訊的海量數(shù)據(jù)。曾經(jīng)在香港中文大學(xué)、香港中文大學(xué)(深圳)、西南交通大學(xué)、東華大學(xué)多家高校進(jìn)行過網(wǎng)絡(luò)爬蟲教學(xué),獲得許多教授、博士生、研究生的一致好評。





上一本:計(jì)算思維之快樂編程 下一本:英語被動(dòng)結(jié)構(gòu)習(xí)得順序研究

作家文集

下載說明
Python網(wǎng)絡(luò)爬蟲從入門到實(shí)踐的作者是唐松 ,全書語言優(yōu)美,行文流暢,內(nèi)容豐富生動(dòng)引人入勝。為表示對作者的支持,建議在閱讀電子書的同時(shí),購買紙質(zhì)書。

更多好書