要采集的标题列表页,有多页,每页换一行
比较傻瓜化,没规则的标题列表页可以在此输入,而有规则的也可以手工在此一页一页的输入 注意:是文章的列表页,不是内容页
|
|
自定义正则语法规则(即用通配符替换原文内容):
第一步,随意查看一个要采集的标题列表页HTML网页源代码.
第二步,在源代码里,随意找一篇文章的标题与网址,只能是一篇文章中的一小段代码,不能是两篇.
举例:比如要采集的某个列表页中的任何一篇文章的标题html代码大致如下
<tr><td><a href="文章URL地址"
title="文章标题">文章标题</a></td></tr>
那么左边输入
<tr><td><a href="{url=*}"
title="{*}">{title=*}</a></td></tr>
以上只是举例,其中:
{url=*}代表标题网址通配符
{title=*}代表标题通配符
{*}代表不需要的内容通配符,比如当链接地址中有title描述的时候,就必须要使用到它,不能同时使用两个标题通配符的。
复杂设置如下:
比如要采集的某个列表页中的任何一篇文章的标题html代码大致如下
<tr><td><a href="文章URL地址"
title="文章标题">文章标题</a></td></tr>
那么左边输入
<tr><td><a href="{url=NO"}"
title="{NO"}">{title=NO<}</a></td></tr>
其中{url=NO"}代表地址当中不包含有"双引号的字符串
注意:如果代码当中没有"号,而是单引号的话,要改变一下,如
<tr><td><a href='文章URL地址'title="文章标题">文章标题</a></td></tr>
以上这个情况是单引号的话,
那么需要变成
<tr><td><a href="{url=NO'}"
title="{NO"}">{title=NO<}</a></td></tr>
即是把 {url=NO"} 换成了 {url=NO'}
这里遵循的是靠近原则,它旁边是什么符号,就输入什么符号.又比如是这种情况的话
<tr><td><a href=文章URL地址 title="文章标题">文章标题</a></td></tr>
那么需要变成
<tr><td><a href={url=NO
} title="{NO"}">{title=NO<}</a></td></tr>
即是把 {url=NO"} 换成了 {url=NO
}
遵循的是靠近原则,他旁边是空格,这里也要输入空格,但必须要注意你的输入法是不是全格.如果是全格的话.要换为半格.全格输入的空格是有问题的.
又比如是这种情况的话
<tr><td><a href=文章URL地址>文章标题</a></td></tr>
那么就要换成
<tr><td><a href={url=NO>}>{title=NO<}</a></td></tr>
即是把 {url=NO"} 换成了 {url=NO>}
遵循的是靠近原则,他旁边是>大于号
其中{title=NO<}代表标题当中不包含有<号的字符串,也是遵循靠近原则,他旁边的是<小于号
其中{NO"}代表不包含有"号的字符串,
必须要注意的是:为何他前面没有等号呢?那是因为不考虑取他的值,我们只需要标题与文章的链接网址就足够了.但是其他非相关的内容,也必须要写一个这样的正则.那是因为每个标题当中,他们都不是一样的代码.是变化的代码.
注:所有NO后面可以写上任何字符,可多个,但不能为中文,
例如:{url=NO' "=<>}代表除'
"=<>他们之外的字符串
另外有一点还需要注意的是:
当这种情况的时候:
<tr><td><a href=文章URL地址1><font
color=red>文章标题1</font></a></td></tr>
或
<tr><td><a href=文章URL地址2>文章标题2</a></td></tr>
这两种情况同时存在的话,那么就要换成
<tr><td><a href={url=NO>}>{title=NO[}</a></td></tr>
这里为什么不遵循靠近原则呢?那是因为部分标题他外面还包含了一个标题颜色的HTML代码<font color=red></font>而部分标题却没有,情况比较复杂.此时就需要找一个他们都不可能存在的符号,而这里设置[号,当然你也可以换成]+-]%#等等都可以的.只要他们当中都不可能出现的就可以.
另外还要注意的是,为什么要用这段代码:
<tr><td><a href="{url=NO"}" title="{NO"}">{title=NO<}</a></td></tr>
而不用
<a href="{url=NO"}" title="{NO"}">{title=NO<}</a>
这段代码呢?
答案是:用这段也可以采集,但是会采集到太多不相关的内容.也就是说精确度不高.尽量拿多点代码.那精确度就会越高.但也不能过多.因为过多的话,有时就导致采集不到内容.只要唯一性就可以了.
|
|