博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Html Agility Pack解析Html(C#爬虫利器)
阅读量:4704 次
发布时间:2019-06-10

本文共 1972 字,大约阅读时间需要 6 分钟。

有个需求要写网络爬虫,以前接触过一个叫Html Agility Pack这个解析html的库,这次又要用到,然而发现以前咋用的已经不记得了,现在从头开始记录一下使用过程.

.大家用的同时也可以去github上star一下这个项目,支持一下.net开源项目.(首页上有其github的项目地址)

加载Html

有几种方式可以加载Html

  1. 从流(Stream)中加载

    HtmlWebRequest req = WebRequest.Create("https://www.cnblogs.com/Laggage/p/10740012.html") as HtmlWebRequest;HtmlWebResponse res = req.GetResponse() as HtmlWebResponse;Stream s = res.GetResponseStream();HtmlDocument doc = new HtmlDocument();doc.Load(s)
  2. 从字符串加载Html(直接用的官网的一个例子)

    var html = @"    

    This is bold heading

    This is underlined paragraph

    This is italic heading

    ";var htmlDoc = new HtmlDocument();htmlDoc.LoadHtml(html);var htmlBody = htmlDoc.DocumentNode.SelectSingleNode("//body");Console.WriteLine(htmlBody.OuterHtml);
  3. 从文件加载

    string path = @"test.html";HtmlDocument doc = new HtmlDocument();doc.Load(path);HtmlNode node = doc.DocumentNode.SelectSingleNode("//body");Console.WriteLine(node.OuterHtml);
  4. 还可以直接从网络上加载(套用官网的例子)

    string html = @"http://html-agility-pack.net/";HtmlWeb web = new HtmlWeb();HtmlDocument htmlDoc = web.Load(html);HtmlNode node = htmlDoc.DocumentNode.SelectSingleNode("//head/title");Console.WriteLine("Node Name: " + node.Name + "\n" + node.OuterHtml);

解析html

利用Html Agility Pack解析起html还是很容易的.主要利用XPath语法.同样套用官网的代码.

HtmlDocument htmlDoc = new HtmlDocument();htmlDoc.LoadHtml(html);string name = htmlDoc.DocumentNode    .SelectNodes("//td/input")  //双斜杠表示查询所有的子节点,如果是只要查询范围在当前节点的下一层子节点,则只用一个子节点.    .First()    .Attributes["value"].Value;

主要就是利用 HtmlNode.SelectSingleNode()和HtmlNode.SelectNodes()方法来寻找节点.

这是 Html Agility Pack 官网首页的一段html,现在以要拿到其中的pre标签的所有内容为例.

string url = @"https://html-agility-pack.net/";HtmlWeb web = new HtmlWeb();HtmlDocument doc = web.Load(html);string text = doc.DocumentNode.SelectSingleNode("//div[@class='side-body container-none page-index']/div[@class='container-examples-index d-flex justify-content-center']/pre").InnerText;Console.WriteLine(text);

具体的XPath语法可以看W3C的教程:.

转载于:https://www.cnblogs.com/Laggage/p/10740171.html

你可能感兴趣的文章
小甲鱼OD学习第1讲
查看>>
HDU-1085 Holding Bin-Laden Captive-母函数
查看>>
php提示undefined index的几种解决方法
查看>>
LRJ
查看>>
Struts2环境搭建
查看>>
Linux: Check version info
查看>>
stl学习之测试stlen,cout等的运行速度
查看>>
魔戒三曲,黑暗散去;人皇加冕,光明归来
查看>>
Error和Exception
查看>>
Python和Singleton (单件)模式[转载]
查看>>
httpclient设置proxy与proxyselector
查看>>
IT常用单词
查看>>
拓扑排序
查看>>
NYOJ--32--SEARCH--组合数
查看>>
gulpfile 压缩模板
查看>>
【34.14%】【BZOJ 3110】 [Zjoi2013]K大数查询
查看>>
【 henuacm2016级暑期训练-动态规划专题 A 】Cards
查看>>
第五篇:白话tornado源码之褪去模板的外衣
查看>>
设备常用框架framework
查看>>
bootstrap模态框和select2合用时input无法获取焦点(转)
查看>>