火車
采集器是一款專業的互聯網數據抓取、處理、分析,挖掘軟件,多
數據庫支持,用戶可以對Access/
MySQL/MsSQL/Sqlite/Oracle多種類型的數據庫保存及發布,功能豐富實用操作簡單,支持各種文件數據格式,圖片、壓縮文件、
視頻等任意格式的文件都能輕松
下載,兼容性極強,適用于各種微軟系統,運行流暢,完美匹配。多個搜索引擎,強大數據搜索能力,業界領先,用戶不需要再下載其他搜索軟件,今天小編就為大家帶來了火車采集器,標簽編輯使用教學,幫助大家更好的使用這一款軟件!
火車采集器標簽編輯
對數據內容標簽進行編輯定義,數據的獲取方式有
A).從源碼中獲取數據
B).生成固定格式的數據
C).已有標簽組合
A).從源碼中獲取數據:可精確地設置標簽的來源是從默認頁的源碼、返回頭信息和網頁地址中,
或者是分頁、循環分塊、多頁中。
其數據提取方式包括:
A.a).前后截取
A.b).正則提取
A.c).正文提取
A.d).Xpath提取
A.e).JSON 提取
B).生成固定格式的數據:可生成固定的字符串、系統時間、隨機字符串、隨機數字、系統時間戳、隨機抽取信息
C).已有標簽組合:可通過組合已有的標簽,來生成新的標簽內容
A.a).前后截取
通過設置開始字符串和結束字符串,來獲取中間的字符,可以在開始和結束字符串中設置通配符(*)
A.b).正則提取
支持兩種正則,一個純正則,一個參數正則。
先介紹純正則,舉個例子,
如:前字符串 (?<content>[\s\S]*?)后字符串,這個正則其實效果跟前后截取一樣,
如需要獲取全部代碼,則為^(?<content>[\s\S]*?)$ ,此功能運用需有一定的正則基礎。
關于參數正則,是通過參數組合,來生成內容。
比如說要匹配標題為“新用戶注冊”和作者“神秘嘉賓”,代碼如下:
<div class="content">
<h2>新用戶注冊</h2>
<div id="tools">【作者:神秘嘉賓】【字號:<a href="#" class="fontSize">大</a>
設置如圖:
火車采集器標簽編輯使用教學圖2
需要獲取的字段用參數表示,不需要的字段或空格用星號代替;在組合結果里可以對多個參數進行組合。
A.c).正文提取
注意這種方式只適合格式較為規則的多文字數據提取,例如新聞文章。
它不需要設置復雜的規則,可智能分析提取文章正文,文章標題,以及發布時間。
火車采集器標簽編輯使用教學圖3
A.d).Xpath提取
通過Xpath表達式來獲取數據,比如//div[@id=’content’],
就是獲取id為content的div可指定要獲取html節點的屬性,
比如 Innerhtml、Outerhtml、Innertext、Href屬性。
(注意:這種有一定的局限性,對于部分html標簽不規范的頁面無法解析。)
A.e).JSON提取
通過對JSON形式的數據格式化操作,寫表達式來獲取其節點數據。
- 軟件性質:國產軟件
- 授權方式:免費版
- 軟件語言:簡體中文
- 軟件大。23789 KB
- 下載次數:4414 次
- 更新時間:2021/1/14 13:22:40
- 運行平臺:WinAll...
- 軟件描述:火車采集器是使用人數比較多的互聯網數據挖掘軟件。能采集99%的網頁,就算網頁需要... [立即下載]