掌握黑客技术领域独特的知识

为安全加码

当前位置:首页 > 黑客入门基础 > 《网络数据采集技术——Java网络爬虫实战》

《网络数据采集技术——Java网络爬虫实战》

heikeshu 黑客入门基础 71热度

《网络数据采集技术——Java网络爬虫实战》  第1张

书名:《网络数据采集技术——Java网络爬虫实战》  作者:钱洋 姜元春  出版:电子工业出版社

内容简介

本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。

本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。

本书的特色

注重基础:俗话说,基础不牢,地动山摇。本书从可读性和实用性出发,重点介绍了网络爬虫中涉及的基础知识。

系统性:本书系统地梳理了网络爬虫的逻辑和开发网络爬虫需要掌握的技术。对网络爬虫初学者和进阶者而言,学习这些内容将有利于解决数据采集过程中遇到的各种问题。

详细的案例讲解:本书选取了较为典型的网站,讲解网络爬虫经常遇到的问题,如HTTPS请求认证问题、大文件内容获取问题、模拟登录问题、不同格式文件(文本、图片和PDF等)的存储问题、定时数据采集问题等。

开源框架:本书介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。通过对这3种网络爬虫开源框架的学习,读者可以轻松开发一些高性能的网络爬虫项目。

完整的代码:为便于读者学习,对于每个数据网络爬虫项目,笔者都提供了完整的代码,并且在代码中给出了清晰的注释。

更新时间 2025-02-01 18:41:55