2011-05-10

nodejs 大呼过瘾!!

javascript 真的要火!


这个网页爬虫类库集成多个优秀的类库 可见一斑
http://www.slideshare.net/sylvinus/web-crawling-with-nodejs


目前的类库


比python的命令行还好用
支持高亮 和tab成员枚举 爽呆了

通过ubuntu的ppa安装最新版


安装npm费了点事 需要一点准备工作
主要是npm需要系统用node来执行nodejs 而上面的ppa只建立了nodejs 命令

我现在还搞不清楚 linux的好几种link方式
用了硬link 可能不是最好的方案
link nodejs node

然后执行 curl http://npmjs.org/install.sh | sh  需要切换到root

sudo su

-------------------------------------------------------------------------


下午写了一个豆腐块 呵呵 

var url=require('url');
var get = require('get');
var htmlparser = require("htmlparser");
var select = require('soupselect').select;


download.proxy=url.parse(process.ENV.http_proxy);

download.asString(function(err, wp) {
    var handler = new htmlparser.DefaultHandler(function (error, dom) {
select(dom, "area").forEach(function(element) {console.log(element);});
    });
    var parser = new htmlparser.Parser(handler);
    parser.parseComplete(wp);
});

没有评论:

所见所闻所思