请教大神一个“阿里巴巴”网站的‘提取HTML’的问题

水哥一号创建于 2021-03-01 18:58

由于阿里巴巴网站加载图片很多，导致浏览器卡顿，效率很低，我关注的只有阶梯价格和分销的价格，想通过提取html的功能提取相应的价格出来，但是在设置xpath的时候，总提示节点不存在。

用http请求get的方式，然后在用提取html，倒是可以了，但是提取的信息还是不够精准，要么多出来很多代码，要么就只采集到部分片段。总是不能得到自己想要的。

希望大神能指点一下。

举例页面：https://detail.1688.com/offer/627274691509.html?spm=a261y.7663282.trade-type-tab.1.643b474fmzm3oZ&sk=order

此页面的分销价格页面：https://detail.1688.com/offer/627274691509.html?spm=a261y.7663282.trade-type-tab.1.643b474fmzm3oZ&sk=order

CL 2021-03-01 22:32

可能用正则提取更灵活一点，可以研究一下看看。

另外，浏览器似乎可以设置不加载图片的，可以搜索一下。

水哥一号 2021-03-21 06:20 :

谢谢

BIG_DEVIL 2021-03-20 15:38

.//*[contains(concat(" ",normalize-space(@class)," ")," price-num ")]

这个应该可以

推荐个大佬的动作，可以生成xpath：快速获取CSS

水哥一号 2021-03-21 06:19 :

我用文本和josn提取了。

不同的页面貌似结构不一样。