www.5615.net > C jAvA python爬虫

C jAvA python爬虫

我用c#,java都写过爬虫.区别不大,原理就是利用好正则表达式.只不过是平台问题.后来了解到很多爬虫都是用python写的.因为目前对python并不熟,所以也不知道这是为什么.百度了下结果:1)抓取网页本身的接口 相比与其他静态编程

推荐使用python爬虫好代码量会少很多性能也可以

爬虫目前主要开发语言为java、Python、c++ 对于一般的信息采集需要,各种语言差别不大.c、c++ 搜索引擎无一例外使用C\C++ 开发爬虫,猜想搜索引擎爬虫采集的网站数量巨大,对页面的解析要求不高,部分支持javascript python 网络功能

如果想用java写爬虫的话可以考虑学一下webmagic,不然的话可以学python再学爬虫,毕竟写爬虫的还是python用的多一点

用python打个比方java和python爬虫编写的时间效率等于汇编写一个按钮,和c#拖拽一个按钮的效率虽然有点言过啦,大概这个意思

Python优点: 1.各种爬虫框架,方便高效的下载网页; 2.多线程、进程模型成熟稳定,爬虫是一个典型的多任务处理场景,请求页面时会有较长的延迟,总体来说更多的是等待.多线程或进程会更优化程序效率,提升整个系统下载和分析能力

我只知道python的爬虫框架,scrapy 下载一个scrapy模块,结合lxml可以很快实现抓取,非常方便.可以多线程,自由的设定处理方式,抓取间隔,头信息等..

我两个都做过爬虫,如果高并发和多线程比较要求,爬取内容比较复杂的时候推荐java,普通的爬虫我还是喜欢用python,代码效率高.

你听到的应该是python爬虫,那指的是python的一种用途即写爬虫,但是本质上python只是一种编程语言

单从语言本身来说,我倒认为Python是做网络爬虫的理想语言,使用它做文档分析时通常会有一气呵成的感觉.如果从性能来看,C++的地位仍然不可憾动,如果要爬的海量数据,而且你确实能够驾驭C++,那就选择它吧.如果你不打算从头开始,希望在框架的基础上做二次开发,那可以考虑Java.如果只是做些简单的数据分析和抓取,不一定要通过“语言”这个层次来实现,在某些情况下,一些爬虫工具比你自己写的爬虫表现更好.

网站地图

All rights reserved Powered by www.5615.net

copyright ©right 2010-2021。
www.5615.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com