激情综合开心五月激情五月_免费看无码自慰一区二区_国产A级理论片无码_国产成人无码AV在线影院_久久影院九九被窝爽爽_国产美女久久久亚洲综合

每周一數(shù)丨小采教你如何用火車(chē)采集器爬取法律法規(guī)新聞數(shù)據(jù)(送規(guī)則+數(shù)據(jù))

2019-10-24 17:36:44 瀏覽:7178

采集網(wǎng)址:

http://www.pkulaw.cn/cluster_form.aspx?Db=news&menu_item=law&EncodingName=&keyword=&range=name&

12.png

采集目標(biāo):
1. 遍歷抓取列表頁(yè)的內(nèi)容頁(yè)地址
2. 內(nèi)容頁(yè)采集字段:標(biāo)題,內(nèi)容,關(guān)鍵詞語(yǔ),來(lái)源
使用工具:
1. 火車(chē)采集器
2. Fidder抓包軟件
采集成果:

13.png



那么我們接下來(lái)看如何用火車(chē)采集器來(lái)獲取法律法規(guī)數(shù)據(jù)。
第一步:打開(kāi)火車(chē)官網(wǎng) m.yemaf99.com 下載最新版火車(chē)采集器并安裝

QQ截圖20191024172516.png


第二步:打開(kāi)軟件中列表頁(yè)面,使用fiddler抓包獲取數(shù)據(jù)包并分析,得到實(shí)際的數(shù)據(jù)請(qǐng)求(多抓取幾個(gè)分頁(yè)進(jìn)行對(duì)比)
QQ截圖20191024172547.png
通過(guò)分析可以看出,分頁(yè)的加載方式是POST請(qǐng)求,POST表單中有控制分頁(yè)的變量,內(nèi)容頁(yè)地址在源碼當(dāng)中的格式清晰可見(jiàn)。

第三步:在采集器中新建規(guī)則,按照Fiddler抓包得到的信息編寫(xiě)列表頁(yè)的獲取規(guī)則POST請(qǐng)求地址填寫(xiě)到起始地址欄

QQ截圖20191024172621.png

填寫(xiě)POST表單,將分頁(yè)控制參數(shù)用[分頁(yè)]變量替換,然后設(shè)置分頁(yè)范圍
QQ截圖20191024172643.png

第四步:分析源碼后,在網(wǎng)址獲取選項(xiàng)中設(shè)置內(nèi)容頁(yè)地址的獲取規(guī)則,并測(cè)試采集列表
QQ截圖20191024172744.png
將抓包獲取的頭信息依次填寫(xiě)到HTTP請(qǐng)求設(shè)置
QQ截圖20191024172805.png

第五步:以上全部設(shè)置好后,可測(cè)試運(yùn)行列表的獲取,獲取成功后可以繼續(xù)制作內(nèi)容采集規(guī)則
QQ截圖20191024172828.png

第六步:瀏覽器中打開(kāi)一個(gè)內(nèi)容頁(yè),找到需要采集的字段位置,和源碼的對(duì)應(yīng)關(guān)系

QQ截圖20191024172847.png

找到數(shù)據(jù)的前后位置就可以通過(guò)前后截取或者正則提取得到內(nèi)容
QQ截圖20191024173205.png


第七步:由于”關(guān)鍵詞語(yǔ)”字段有多個(gè)值,建議使用循環(huán)獲取,以下是處理方法

設(shè)置關(guān)聯(lián)多頁(yè)并保存

QQ截圖20191024173224.png
從關(guān)聯(lián)多頁(yè)中進(jìn)行循環(huán)提取
QQ截圖20191024173244.png


總結(jié):通過(guò)Fiddler抓包分析數(shù)據(jù)請(qǐng)求信息,按照要求填寫(xiě)相應(yīng)設(shè)置,編寫(xiě)內(nèi)容字段的獲取規(guī)則即可。
注意:1.該網(wǎng)站采集存在封IP的問(wèn)題,需要使用代理后才能長(zhǎng)時(shí)間采集,
2.Cookie一段時(shí)間后也存在失效問(wèn)題

每周一數(shù)數(shù)據(jù)以及采集規(guī)則領(lǐng)取時(shí)間為2019/10/24日發(fā)文后5個(gè)工作日內(nèi)。采集規(guī)則涉及到商業(yè)版本功能,建議用戶(hù)登錄商業(yè)版本使用此規(guī)則。


數(shù)據(jù)領(lǐng)取資格:火車(chē)采集器/火車(chē)瀏覽器/觸控精靈商業(yè)版軟件用戶(hù)(服務(wù)年限內(nèi)),如果您不是商業(yè)用戶(hù)或者已經(jīng)過(guò)了服務(wù)年限,但也想?yún)⑴c活動(dòng)的話(huà),可以新購(gòu)軟件或者升級(jí)續(xù)費(fèi),這樣就能參與活動(dòng)啦!通知一下哦,雙11火車(chē)活動(dòng)優(yōu)惠折扣很大呢!


數(shù)據(jù)領(lǐng)取方式

第一步:掃碼添加火車(chē)運(yùn)營(yíng)微信號(hào),火車(chē)運(yùn)營(yíng)助手會(huì)拉你進(jìn)入活動(dòng)群。

微信圖片_20191024173419.jpg


第二步:進(jìn)群后添加數(shù)據(jù)咨詢(xún)客服.雅的微信號(hào),經(jīng)客服驗(yàn)證為服務(wù)年限內(nèi)商業(yè)用戶(hù)身份后,即可領(lǐng)取。


好啦,本期的“每周一數(shù)”就到這里了。如果您還有想要獲取更多的數(shù)據(jù)資源以及采集器規(guī)則的話(huà),可以在文章下方或是公眾號(hào)后臺(tái)留言,小采會(huì)綜合大家的意見(jiàn)選擇下一期贈(zèng)送數(shù)據(jù)的主題哦!






掃碼關(guān)注微信