网络数据采集技术:Java网络爬虫实战在线阅读
会员

网络数据采集技术:Java网络爬虫实战

钱洋等
开会员,本书免费读 >

计算机网络编程语言与程序设计6.1万字

更新时间:2020-09-29 15:50:25 最新章节:9.4 本章小结

立即阅读
加书架
下载
听书

书籍简介

本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
上架时间:2020-01-01 00:00:00
出版社:电子工业出版社
上海阅文信息技术有限公司已经获得合法授权,并进行制作发行

最新章节

钱洋等
主页

最新上架

  • 会员
    本书全面介绍了华为在开源领域的实践和思考。首先,在认识开源部分,深入介绍了开源的起源、发展历程和底层逻辑;其次,在拥抱开源部分,揭示了华为积极参与和贡献开源的方式;然后,在践行开源部分,详细展示了华为在开源领域的具体实践和贡献;最后,在开源心法部分,深入探讨了华为对开源理念、价值观的理解和思考。此外,本书还剖析了开源产业、生态及文化的未来走向。本书旨在提供一个全面、深入的视角,让读者了解华为在开源
    任旭东等计算机16.7万字
  • 会员
    本书使用深入浅出、通俗易懂的语言阐述JavaWeb相关知识,并结合典型的Web应用案例,帮助读者掌握Web应用程序的开发技术。本书共15章,详细讲解了网页开发的基础知识和JavaWeb开发的核心知识,其中网页开发基础知识包括HTML技术、CSS技术、JavaScript技术和Bootstrap技术,而JavaWeb的核心知识包括Servlet技术、会话技术,JSP技术、JDBC技术和数据库连
    黑马程序员编著计算机16.6万字
  • 会员
    本书内容分为差分进化算法(以下简称算法)的设计及应用。本书从差分进化算法基本原理、单目标差分进化算法、面向约束优化的差分进化算法、面向多目标差分进化算法、面向离散问题的差分进化算法等五个方面进行了介绍。对提出的10个算法进行了详细介绍和讨论,并给给出了实验(仿真)结果。
    董明刚 王宁 艾兵等计算机9.6万字
  • 会员
    本书介绍了Docker和Kubernetes的相关知识,可以帮助读者快速了解并熟练配置Kubernetes。本书共分为16章。首先介绍了Docker基础和Docker进阶;然后介绍了Kubernetes的基础操作,包括部署Kubernetes集群、升级Kubernetes、创建及管理Pod等;之后重点介绍了存储管理、密码管理、Deployment、DaemonSet及其他控制器、探针、Job、服务
    段超飞编著计算机8.6万字
  • 会员
    这是一套从Android性能优化本质入手,指导读者实现从硬件层到操作系统层再到应用层全面优化的实战方法论。本书由Android方向Google开发者专家撰写,融合了作者10年大厂实战经验,其中不仅包括作者实操过的监控、优化、防劣化等方向的各种典型案例,还包括多个实战小技巧,可以帮助读者解决工作中遇到的90%以上的能优化问题。本书内存、速度和流畅性、稳定性、包体积、耗电、磁盘占用、流量、降级这8个方
    赵子健计算机13.2万字
  • 会员
    本书为广受读者喜爱的畅销书升级版,旨在让读者快速、简单地上手大模型应用开发。本书为初学者提供了一份清晰、全面的“最小可用知识”,带领你快速了解GPT-4和ChatGPT的工作原理及优势,并在此基础上使用流行的Python编程语言构建大模型应用。升级版在旧版的基础上进行了全面更新,融入了大模型应用开发的最新进展,比如RAG、GPT-4新特性的应用解析等。本书提供了大量简单易学的示例,帮你理解相关概念
    (比)奥利维耶·卡埃朗 (法)玛丽-艾丽斯·布莱特计算机13.1万字
  • 会员
    本书讲解了C++语言基础知识,以及编程解题常用的方法和基础算法。每章都是由一个小故事来引出编程思维。本书也介绍了各种有趣的计算机知识,并涵盖了全国青少年软件编程等级考试(C语言)一级和二级考试的知识点。
    王桂平 周祖松 穆云波 葛昌威编著计算机13.4万字
  • 会员
    本书主要探讨高并发场景下系统设计的原理和实践案例,帮助读者系统、快速地理解高并发系统的设计原理与相关实践,以及掌握解决高并发场景下可能遇到的各种问题的方法。本书共6章。第1章介绍高并发系统的发展历史、设计难点和基本设计原则,以及度量指标;第2~4章介绍有助于提升高并发系统可用性的3种方法—系统容错、冗余和分片;第5章从提升高并发系统性能的角度讲解并发与异步的原理和实践技巧;第6章从系统运维和团队流
    唐扬计算机11.4万字
  • 会员
    本书主要以Java虚拟机的基本特性及运行原理为中心,分析了JVM的组成结构和底层实现,介绍了很多性能调优的方案和工具的使用方法。最后还扩展介绍了JMM内存模型的实现原理和Java编译器的优化机制。
    李博计算机12.1万字