【开放下载】：网页内容抽取器

【开放下载】：网页内容抽取器
read file error: read notes: is a directory 2022-9-21 23:14:57 Author: MicroPest(查看原文) 阅读量:38 收藏

记得以前，介绍过这个小工具，没什么技术含量，当时只是为了解决一个小问题：提取网页中指定内容而写的，可以见《网页内容抽取器》。

这个小工具源码不足百行，但它背后的解析器约有2000多行，所以看着挺萌的。

幕后是HTML解析器在支撑，解析器就是将html标识解析为解析树，从而将网页层层分解，就象F12那样。

关于html解析器，可以参看这篇文章:《解析-HTML 解析器》https://juejin.cn/post/6844903780119478285

HTML是结构化文档(Structured Document)，由诸多标签（<p>等）嵌套形成的著名的文档对象模型（DOM, Document Object Model），是显而易见的树形多层次结构。如果带着这种思路看待HTML、编写HTML解析器，无疑将导致问题复杂化。不妨从另一视角俯视HTML文本，视其为一维线状结构：诸多单一节点的顺序排列。仔细审视任何一段HTML文本，以左右尖括号（<和>）为边界，会发现HTML文本被天然地分割为：一个标签（Tag），接一段普通文字，再一个标签，再一段普通文字……所以，提供了一组筛选器来自由应对。

工具虽小，实用，精悍！

链接：https://pan.baidu.com/s/1I-4c3apATN0DXmfOdxczHw

提取码：ir2c

文章来源: http://mp.weixin.qq.com/s?__biz=MjM5NDcxMDQzNA==&mid=2247487393&idx=1&sn=da4f1737f6a3d9c27d319494ae90a350&chksm=a682d96c91f5507aa377f3bac3722e248d473300f84b356dc7f37d4f00bc78c2eb3b7a520594#rd
如有侵权请联系:admin#unsafe.sh