【开放下载】:网页内容抽取器
2022-9-21 23:14:57 Author: MicroPest(查看原文) 阅读量:14 收藏

    记得以前,介绍过这个小工具,没什么技术含量,当时只是为了解决一个小问题:提取网页中指定内容而写的,可以见《网页内容抽取器》。

这个小工具源码不足百行,但它背后的解析器约有2000多行,所以看着挺萌的。

幕后是HTML解析器在支撑,解析器就是将html标识解析为解析树,从而将网页层层分解,就象F12那样。

关于html解析器,可以参看这篇文章:《解析-HTML 解析器https://juejin.cn/post/6844903780119478285

HTML是结构化文档(Structured Document),由诸多标签(<p>等)嵌套形成的著名的文档对象模型(DOM, Document Object Model),是显而易见的树形多层次结构。如果带着这种思路看待HTML、编写HTML解析器,无疑将导致问题复杂化。不妨从另一视角俯视HTML文本,视其为一维线状结构:诸多单一节点的顺序排列。仔细审视任何一段HTML文本,以左右尖括号(<和>)为边界,会发现HTML文本被天然地分割为:一个标签(Tag),接一段普通文字,再一个标签,再一段普通文字……所以,提供了一组筛选器来自由应对。

工具虽小,实用,精悍!

链接:https://pan.baidu.com/s/1I-4c3apATN0DXmfOdxczHw

提取码:ir2c


文章来源: http://mp.weixin.qq.com/s?__biz=MjM5NDcxMDQzNA==&mid=2247487393&idx=1&sn=da4f1737f6a3d9c27d319494ae90a350&chksm=a682d96c91f5507aa377f3bac3722e248d473300f84b356dc7f37d4f00bc78c2eb3b7a520594#rd
如有侵权请联系:admin#unsafe.sh