如何提取<!--enpcontent-->之间的内容

使用问题 · 690 次浏览
臭冬瓜 创建于 2023-02-24 11:42

别嫌我笨啊,一点没有HTML和Xpath的知识。正在学习爬虫,请问如何提取<!--enpcontent-->之间的内容,title啥的略微有点头绪,这个属于节点还是元素,还是属性啊

 

CL 最后更新于 2023/2/24

臭冬瓜 2023-02-24 11:42 :

难道提取DIV吗,那可好多,又如何区分我需要的部分呢

CL 回复 臭冬瓜 2023-02-24 11:44 :

图片内容过于敏感,换个图片吧😂

臭冬瓜 回复 CL 2023-02-24 11:45 :

下回注意:D

臭冬瓜 回复 CL 2023-02-24 11:46 :

直接用正则我会,反倒是用提取HTML内容不会用

CL 回复 臭冬瓜 2023-02-24 11:47 :

这个<!--enpcontent-->是html的注释,提取html应该是没有办法通过它来定位的。

臭冬瓜 回复 CL 2023-02-24 11:48 :

xpath我应该写啥

臭冬瓜 回复 CL 2023-02-24 11:51 :

举个例子:(网址就忽略吧,在CL指导下,大致会用了)

我现在会用提取HTML内容提取TITLE,但是正文如何提取呢,给个思路

臭冬瓜 最后更新于 2023-02-24 12:24
CL 回复 臭冬瓜 2023-02-24 11:59 :

HTML请求不一定能得到网页里的全部内容,因为有的网页是动态加载的,具体要测试看看。

xpath可以从这里复制


臭冬瓜 回复 CL 2023-02-24 12:01 :

好的,我继续学习一下,现在我用正则解决的,就是想学习"提取HTML内容"

臭冬瓜 回复 CL 2023-02-24 12:22 :

会用了,谢谢!^_^

回复内容

解决

乐昂岚【接定制】 最后更新于 2023-03-02 13:44
臭冬瓜 回复 乐昂岚【接定制】 2023-02-25 01:25 :

好的,谢谢,有问题会向你请教,你可别嫌我笨,没有耐心哟,因为小白一个,可能有些问题有些傻

PS:先帮看看,我学习做的一个动作(https://getquicker.net/Sharedaction?code=8a364f48-289c-46be-4642-08db159e6a6f&fromMyShare=true),看看有哪些问题,有哪些可以改进

大致是从网页获取标题和正文,复制到WORD文档,用VBA将标题设置成黑体居中

臭冬瓜 最后更新于 2023-02-25 01:31
回复主贴