使用HtmlAgilityPack解析HTML
2011-06-30 by 嘉瑜, Category: 学习, Tags: XPath, 开发点滴 No Comments 17次浏览
近来老大给我找了点有趣的活,帮公司的人事部门做一个小项目,我负责将三大人才网(智联招聘,前程无忧和中华英才)的简历解析到数据库,09年倒是有用火车头去采过一些大大小小的人才网,不过这次因为需要使用C#来做HTML的解析,所以为此在网上一顿好找,最后托Stackoverflow和里面可爱又可敬的先行者们的福,找到了两个开源的三方HtmlAgilityPack和SharpQuery。
HtmlAgilityPack http://htmlagilitypack.codeplex.com/
在这篇回复的最佳答案中, 提到了如何在该三方中应用LINQ与XPath
SharpQuery http://code.google.com/p/sharp-query/
使用的是jQuery的CSS选择器的概念,所以可以很方便的定位HTML标识
做这个多少是个细致活,其实不需要用到太多技术,只需要了解基本的XPath即可,
关于XPath的一些有用链接,
- 这是XPath的语法说明
- 觉得Resig这篇XPath与CSS的选择器的语法对比挺清楚的,其实在这儿可以发现SharpQuery没必要使用
- 其实这儿将XPATH的选择器讲得更明白,可惜还是不全
- w3cshools的权威吗? 仍然感觉不够全
- XPath 2.0的官方spec
- 挺不错的非官方API
- CPan.org的XPath 1.13


