Rss Feed

嘉瑜的知性探索

2011年梦想主色调:书、茶、咖啡、红酒、运动、日记、音乐、自制美食、干净明亮的房间

使用HtmlAgilityPack解析HTML

2011-06-30 by ,   Category: 学习,   Tags: ,  No Comments  17次浏览  

近来老大给我找了点有趣的活,帮公司的人事部门做一个小项目,我负责将三大人才网(智联招聘,前程无忧和中华英才)的简历解析到数据库,09年倒是有用火车头去采过一些大大小小的人才网,不过这次因为需要使用C#来做HTML的解析,所以为此在网上一顿好找,最后托Stackoverflow和里面可爱又可敬的先行者们的福,找到了两个开源的三方HtmlAgilityPack和SharpQuery。

HtmlAgilityPack http://htmlagilitypack.codeplex.com/ 
这篇回复的最佳答案中, 提到了如何在该三方中应用LINQ与XPath

SharpQuery http://code.google.com/p/sharp-query/
使用的是jQuery的CSS选择器的概念,所以可以很方便的定位HTML标识

做这个多少是个细致活,其实不需要用到太多技术,只需要了解基本的XPath即可,
关于XPath的一些有用链接,

  1. 这是XPath的语法说明 
  2. 觉得Resig这篇XPath与CSS的选择器的语法对比挺清楚的,其实在这儿可以发现SharpQuery没必要使用
  3. 其实这儿将XPATH的选择器讲得更明白,可惜还是不全
  4. w3cshools的权威吗? 仍然感觉不够全
  5. XPath 2.0的官方spec
  6. 挺不错的非官方API
  7. CPan.org的XPath 1.13


Tags: ,

Leave a Comment