采集地址:
http://lib.cqvip.com/Qikan/Search/Index?from=Qikan_Search_Index
采集字段:
標(biāo)題,摘要、作者、出處、作者簡(jiǎn)介、郵箱。
采集結(jié)果:
使用“互聯(lián)網(wǎng)”作為關(guān)鍵詞進(jìn)行搜索,采集搜索結(jié)果,并保存到Excel。
首先先點(diǎn)擊下一頁(yè),發(fā)現(xiàn)網(wǎng)址沒(méi)有改變,說(shuō)明這個(gè)網(wǎng)址需要通過(guò)抓包來(lái)獲取真實(shí)地址。
打開(kāi)fiddler,點(diǎn)擊下一頁(yè)進(jìn)行抓包,使用Ctrl + F 查找有數(shù)據(jù)的網(wǎng)址,點(diǎn)擊進(jìn)去發(fā)現(xiàn)確實(shí)是我們需要的真實(shí)網(wǎng)址。
5、接下來(lái)開(kāi)始采內(nèi)容,要采集的幾個(gè)字段內(nèi)容源碼中都存在,直接從源碼獲取即可,這里標(biāo)題標(biāo)簽可以先用h1截取,然后用內(nèi)容替換和HTML標(biāo)簽過(guò)濾將不需要的內(nèi)容去除,其他幾個(gè)標(biāo)簽設(shè)置方法類似。
6、值得一提的是,郵箱是從作者簡(jiǎn)介里提取的,這里可以使用組合標(biāo)簽來(lái)獲取作者簡(jiǎn)介的內(nèi)容,在數(shù)據(jù)處理里使用智能提取郵箱功能來(lái)自動(dòng)獲取內(nèi)容里的郵箱信息。
7、最后,保存到本地Excel。