如何提取之间的内容

臭冬瓜创建于 2023-02-24 11:42

别嫌我笨啊，一点没有HTML和Xpath的知识。正在学习爬虫，请问如何提取之间的内容，title啥的略微有点头绪，这个属于节点还是元素，还是属性啊

CL 最后更新于 2023/2/24

臭冬瓜 2023-02-24 11:42 :

难道提取DIV吗，那可好多，又如何区分我需要的部分呢

CL 回复臭冬瓜 2023-02-24 11:44 :

图片内容过于敏感，换个图片吧😂

臭冬瓜回复 CL 2023-02-24 11:45 :

下回注意：D

臭冬瓜回复 CL 2023-02-24 11:46 :

直接用正则我会，反倒是用提取HTML内容不会用

CL 回复臭冬瓜 2023-02-24 11:47 :

这个是html的注释，提取html应该是没有办法通过它来定位的。

臭冬瓜回复 CL 2023-02-24 11:48 :

xpath我应该写啥

臭冬瓜回复 CL 2023-02-24 11:51 :

举个例子：（网址就忽略吧，在CL指导下，大致会用了）

我现在会用提取HTML内容提取TITLE，但是正文如何提取呢，给个思路

臭冬瓜最后更新于 2023-02-24 12:24

CL 回复臭冬瓜 2023-02-24 11:59 :

HTML请求不一定能得到网页里的全部内容，因为有的网页是动态加载的，具体要测试看看。

xpath可以从这里复制

臭冬瓜回复 CL 2023-02-24 12:01 :

好的，我继续学习一下，现在我用正则解决的，就是想学习"提取HTML内容"

臭冬瓜回复 CL 2023-02-24 12:22 :

会用了，谢谢！^_^

乐昂岚 2023-02-24 20:47

解决

乐昂岚最后更新于 2023-03-02 13:44

臭冬瓜回复乐昂岚 2023-02-25 01:25 :

好的，谢谢，有问题会向你请教，你可别嫌我笨，没有耐心哟，因为小白一个，可能有些问题有些傻

PS：先帮看看，我学习做的一个动作（https://getquicker.net/Sharedaction?code=8a364f48-289c-46be-4642-08db159e6a6f&fromMyShare=true），看看有哪些问题，有哪些可以改进

大致是从网页获取标题和正文，复制到WORD文档，用VBA将标题设置成黑体居中

臭冬瓜最后更新于 2023-02-25 01:31