快速采集中文期刊網站丨數據、規則一起送

                    2019-12-18 16:57:51 瀏覽:764

                    采集地址:

                    http://lib.cqvip.com/Qikan/Search/Index?from=Qikan_Search_Index

                    QQ截圖20191218165226.png

                    采集字段:

                    標題,摘要、作者、出處、作者簡介、郵箱

                    采集結果:

                    使用“互聯網”作為關鍵詞進行搜索采集搜索結果,并保存到Excel。


                    1、下載火車采集器
                    輸入網址 www.hisherry.cn 進入火車官網,隨后點擊下載來獲取火車采集器最新版本

                    QQ截圖20191218165301.png

                    2、注冊并登錄火車采集器
                    在網站進行注冊,注冊好賬號直接登錄即可。
                    3、打開爬取網站,確定真實地址

                    首先先點擊下一頁,發現網址沒有改變,說明這個網址需要通過抓包來獲取真實地址。

                    打開fiddler,點擊下一頁進行抓包,使用Ctrl + F 查找有數據的網址,點擊進去發現確實是我們需要的真實網址。


                    QQ截圖20191218165337.png

                    QQ截圖20191218165356.png

                    4網址是POST類型的,查看POST提交的數據發現是編碼過的,可以用工具轉碼,再點擊下一頁,進行抓包,對比兩次抓包的數據,只有PageNum發生了變化,也就是分頁,所以網址采集規則可如下設置。

                    QQ截圖20191218165418.png



                    5接下來開始采內容,要采集的幾個字段內容源碼中都存在,直接從源碼獲取即可,這里標題標簽可以先用h1截取,然后用內容替換和HTML標簽過濾將不需要的內容去除,其他幾個標簽設置方法類似。

                    QQ截圖20191218165436.png



                    6值得一提的是,郵箱是從作者簡介里提取的,這里可以使用組合標簽來獲取作者簡介的內容,在數據處理里使用智能提取郵箱功能來自動獲取內容里的郵箱信息。

                    QQ截圖20191218165620.png


                    7最后,保存到本地Excel。

                    QQ截圖20191218165540.png





                    本次每周一數贈送的是中文期刊數據+采集規則,僅限火車軟件的商業版本用戶。不符合領取條件的可參加正在進行的火車雙十二年終回饋活動,活動還剩最后兩天。消費達到1500元更是可以領取2019年整年每周一數的所有數據,趕緊參加吧!

                    最后兩天.png

                    本周每周一數領取時間:2019年12月18 日發文后5個工作日內(節假日除外)
                    領取方式:掃碼加運營微信,運營會拉您進每周一數群,群內加:【火車數據咨詢客服.雅】,經驗證為商業用戶后,即可領取。

                    微信圖片_20191024173419.jpg



                    掃碼關注微信
                    最受歡迎的網頁采集軟件! X

                    您好,如需了解軟件或有數據采集問題請直接聯系我們~

                    日本中文字幕伦aV在线 - 视频 - 在线观看 - 影视资讯 - 唯爱网