今天来说说
YYPOST新功能的一个灵活用法,采集亚马逊商品信息,并且获得排名的软件,亚马逊现在越来越多客户做,淘宝的水是越来越清了,以前做电商的客户,现在都转战到外国,最赚钱的要数一些客户往亚马逊里堆了吧,拿我这个YYPOST的客户,最多的是采集,分析排名,刷价格,刷数量,改价,刷访问量等等技术,哪个有优自己商品排名他们都会相办法刷起来,当然现在劳动工具促进生产力的发展,有好的劳动工具做起事来,就是摔别人几条街,往往要请一个人盯着的项目,用YYPOST多次试演后,软件就变的很顺畅起来,N多客户直接就整好软件,直接租服务器,用100来块钱生成几十个独立YYPOST程序刷起来,这些客户怎么可能会山尽水穷呢?
亚马逊这个商城,他其实是防采集的,而且一页代码非常大,这个网站的服务器,应该是库房级的大牛了,没有几百个CPU撑不起这么大的单页面数据量,而我们软件完全是模拟谷歌浏览器去访问的,所以他也不会拦截啥的,采集价格,标题,商品描术,研究对手,全靠软件支撑起来的。他单页面代码达到三四万之多,也只有他才敢这么牛了吧,所以采集起来还是很费劲的,而且他有多国语言,英语是占大头的,所以他的代码更递,是很繁重的存在。可以说国内没有一个网站敢这么牛的整。
采集商品的客户主要是采商品名称,商品链接,销量排行,商品类目,评论量,好评分数,价格,商品卖家名称,上架时间,这样大范围分析对手的,需要采集很大的数据内容访问网址差不多要二十秒左右,有的人网络快CPU计算能力强的,都会比较快。
采集这个
脚本,先是访问网站,因为是多线程的,所以都是有间隔打开时间的,我这里有1到3秒的廷迟。这个网站要注意,他不能用GET,也不能用POST,只能硬访问网址,而且在快还会遇到验证码拦截,下图这里就是判断如果遇到验证码,应该怎么处理的步骤。
紧接着这个逻辑判断是判断当没有打开网站应该重新打开,后面还加了一个五次打不开做一个网址采集记录下来。
然后到了采集这里,这个采集是非常复杂的,如果不是谷歌核心强大,几近崩溃的边缘。这个采集得出来的结果就是上面那个列表着的。
后半部分就是软件进行采集不成功网址的动作,就是采多了一次的意思了。
上面这个是采集的脚本,主要是采集商品数据的动作。
再说一下另一个亚马逊的采集脚本。
这个采集排名的脚本,主要是采集所有广告的排序方法。还有自然排名采集的脚本排序方法。
这个脚本首先是先打开网址,输入关键字,采集这个老亚的网址,是要放超时19秒的,防止网站卡死了。
<% keyID=打开网址11774
{打开网址}
<超时>19</超时>
<备注>多线程打开网址</备注>
{/打开网址}
%>
输入关键字,点击搜索后,先采集了包含广告的数组,Sponsored主要是包含这个代码的就表示是广告的商品名称了。
那要采集本页不带广告排名的数组就是下面这个排名方法了。要注意的是非Sponsored和是Sponsored的都是保留为数组,这是为什么呢?
网页他老家伙是不会给这个东东你的呢,所以我们要用到软件新功能,下面这个排序就是后面入库的效果
我们要把二个数组排在一列里,就要加上一个序号功能。
最后我们要把结果全部放在列表之中,就可以实现列表入库,也就是有序,有分析数据的放到软件的列表中去,如果您数据量大,那就要考虑放到数据库里去。
很多人总是不能理解为什么要放数据库里去,一般有二个优势,第一,电脑没有电,软件崩溃了,那采多少入库多少,怎么整都会在对应的数据库里,软件列表,虽然也有自动保存的功能,但这样注定就比较慢的存在。如果你是专业采集的玩家,那就想办法学会弄数据库,如果你整天只是为了打哈欠的,那就随意了哈。
这二个脚本,一个是采商品属性的分析脚本,另一个是采集排名的脚本,下载地址如下: