javascript 真的要火!
这个网页爬虫类库集成多个优秀的类库 可见一斑
http://www.slideshare.net/sylvinus/web-crawling-with-nodejs目前的类库
比python的命令行还好用
支持高亮 和tab成员枚举 爽呆了
通过ubuntu的ppa安装最新版
安装npm费了点事 需要一点准备工作
主要是npm需要系统用node来执行nodejs 而上面的ppa只建立了nodejs 命令
我现在还搞不清楚 linux的好几种link方式
用了硬link 可能不是最好的方案
link nodejs node
然后执行 curl http://npmjs.org/install.sh | sh 需要切换到root
sudo su
curl http://npmjs.org/install.sh | sh
-------------------------------------------------------------------------
下午写了一个豆腐块 呵呵
var url=require('url');
var get = require('get');
var htmlparser = require("htmlparser");
var select = require('soupselect').select;
var download = new get('http://www.zgbm.com/bm/office/index.asp?sm=%C4%DA%C3%C9%B9%C5');
download.proxy=url.parse(process.ENV.http_proxy);
download.asString(function(err, wp) {
var handler = new htmlparser.DefaultHandler(function (error, dom) {
select(dom, "area").forEach(function(element) {console.log(element);});
});
var parser = new htmlparser.Parser(handler);
parser.parseComplete(wp);
});
没有评论:
发表评论