将所有页面源码中的相对地址转换成绝对地址(包含超链接、图片、JS链接等)
默认将已采集网址排重过滤,选择“是”允许重复采集
网址中如果存在中文、特殊字符和空格会导致抓取失败,需要对中文、特殊字符和空格进行转码才能正常解析
通常情况下网址中有锚点(#)和无锚点解析出的内容是相同的,为避免采集到重复内容可去除网址锚点
以哪种顺序采集内容页网址,默认按正常顺序采集
需先配置页面渲染,可自动加载ajax内容,注意:渲染后的html源码与未渲染时的不相同,html的变动可能会导致原来的规则失效!
使用正则规则时进行以上模式匹配,默认情况下仅忽略大小写