myip.cn自动采集别人网站上的ALT标签是怎么做到的。
其实他不一定需要采集你网站的图片(很多工具也都是把别的工具的信息采集回来,然后重新组合加强功能),它只需要采集搜索引擎的图片,就基本上可以把有ALT标签的网站的图片都采集得到,因为愿意好好写ALT标签的网站并不多。
你可以这样想啊,你用搜索引擎的图片搜索功能搜索到的图片都是哪里来的?全是从别的网站上采集下来的,那排名是怎么排的?搜索引擎也不能一张图片一张图片点开来看,其中很大一部分就是通过图片的ALT标签的匹配程度来给搜索到的图片排名(如果你的图片没有ALT标签,或者ALT标签没有意义,那么搜索引擎会根据你的文章标题和网站标题等因素来给排名,排名相对较低)。
原理不算太难,用正则匹配就可以,因为在网页中能用ALT标签的只有图片,它只要把常用的的信息全部采集下来就可以,包括SRC地址,ALT标签,图片长度,图片宽度。对于搜索引擎来说,这四个信息少一个,给你的排名都会很差,其它信息则无关紧要。
我用易语言做一下案例说一下匹配是怎么回事。
<img src="(.*?)" alt="(.*?)" width="(.*?)" height="(.*?)"/>
第一个(.*?)是图片地址,第二个(.*?)是图片ALT标签,第三个(.*?)是图片宽度,第四个(.*?)匹配到的是图片高度。
这个是不包括垃圾信息的一种组合形式,只要你把其它排除垃圾信息后的组合形式全部罗列出来,然后把搜索到的网页拿出来进行匹配就可以了,如果匹配到图片信息,就保存到相应的库里面。
当然,易语言的功能不可能像其它语言那么强大,但是基本原理都是差不多的。