请教大神一个“阿里巴巴”网站的‘提取HTML’的问题

动作需求 · 1089 次浏览
水哥一号 创建于 2021-03-01 18:58

由于阿里巴巴网站加载图片很多,导致浏览器卡顿,效率很低,我关注的只有阶梯价格和分销的价格,想通过提取html的功能提取相应的价格出来,但是在设置xpath的时候,总提示节点不存在。

 

用http请求get的方式,然后在用提取html,倒是可以了,但是提取的信息还是不够精准,要么多出来很多代码,要么就只采集到部分片段。总是不能得到自己想要的。

 

希望大神能指点一下。

 

举例页面:https://detail.1688.com/offer/627274691509.html?spm=a261y.7663282.trade-type-tab.1.643b474fmzm3oZ&sk=order

此页面的分销价格页面:https://detail.1688.com/offer/627274691509.html?spm=a261y.7663282.trade-type-tab.1.643b474fmzm3oZ&sk=order


回复内容
CL 2021-03-01 22:32
#1

可能用正则提取更灵活一点,可以研究一下看看。

另外,浏览器似乎可以设置不加载图片的,可以搜索一下。

水哥一号 2021-03-21 06:20 :

谢谢

BIG_DEVIL 2021-03-20 15:38
#2

.//*[contains(concat(" ",normalize-space(@class)," ")," price-num ")]

这个应该可以

推荐个大佬的动作,可以生成xpath:快速获取CSS


水哥一号 2021-03-21 06:19 :

我用文本和josn提取了。

不同的页面貌似结构不一样。

回复主贴