扶凯

取势 明道 优术

正在浏览标签 crawler

总共找到 1 篇

作者为 扶 凯 发表

在 CU 上看帖子,见人问 Perl 整站采集有什么好方案,想了想,使用 Mojo::UserAgent  来实现实在太方便了,花了十分钟就完成了。多年以前看云舒的多线程的 Perl 爬虫那个例子实在很帅,也照着这样写了一个. 就因为云舒和兰花仙子,知道了 Bloom 这样的算法,也知道了 Bloom::Filter 这个模块。我是使用这个来做重复 URL 的检查。Mojo::UserAgent 本身就支持事件,这样就不用多进线。另...