首页 > 知识库 > 正文

雅虎开源解析HTML页面数据的Web爬取工具Anthelion
2016-02-20 19:34:14   来源: 佚名 开源中国    评论:0 点击:

12月14日,Yahoo宣布开源解析HTML页面结构数据的Web爬取工具Anthelion。Web爬行工具是Yahoo很重要的核心,甚至超过了其他应用:Yahoo Mail,Yahoo Finance,Yahoo Messenger,Flickr和Tumblr。Anthelion的代码现在以Apache开源授权协议托管到GitHub:https: github com yahoo anthelion,包含Apache Nutch完整源代码。

\

12月14日,Yahoo 宣布开源解析 HTML 页面结构数据的 Web 爬取工具 Anthelion。Web 爬行工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail,Yahoo Finance,Yahoo Messenger,Flickr 和 Tumblr。

上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:“Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

Microdata 和 RDFa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 Google,Yahoo 和 Bing 搜索引擎都在研究的项目) a project that the Google, Yahoo, and Bing search engines all work on.

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代码。

Anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。

via venturebeat.com

【编辑推荐】

  1. 微软开源Windows Live Writer并更名为Open Live Writer
  2. Facebook开源AI所使用的硬件平台Big Sur
  3. Windows Live Writer完成开源并推出开源分支
  4. 开源中国OSC源创会火热开启 点燃开发者的创业激情
  5. 另类开源工具:五套方案帮助你搞定音乐制作
【责任编辑:火凤凰 TEL:(010)68476606】

相关热词搜索:雅虎 开源 工具

上一篇:运维人要理清运维产品的能力分层体系
下一篇:从QQ运维的历史遗留问题看公司运维的进化过程

分享到: 收藏