基于lucene的案例开发20：纵横小说章节列表采集

about云腾讯认证空间

本帖最后由 nettman 于 2015-4-16 22:35 编辑
问题导读：
1、如果查看网页源代码时，发现页面已经把鼠标右键操作屏蔽了，还有另外方法查看吗？
2、如何采集章节列表页信息？

接上篇：基于lucene的案例开发19：纵横小说简介页采集

在上两篇博客中，已经介绍了纵横中文小说的更新列表页和简介页内容的采集，这篇将介绍从简介页采集获得的下一跳章节列表页的信息采集，事例地址：http://book.zongheng.com/showchapter/362857.html
页面分析
通过对页面的分析，我们可以确定下图中的部分就是我们需要采集信息及下一跳的地址。

这里当我们想用鼠标右键--查看网页源代码的时候发现页面已经把鼠标右键这个操作屏蔽了，因此我们只能采用另一种办法来查看源代码，对页面进行分析。在当前页面，按下F12，会出现一个新窗口，也就是之前博客中提到的审查元素出现的窗口，选中Network选项卡，按下 Ctrl + F5，会出现如下画面：

鼠标单机红色选中部分，即可查看网页源代码，效果图如下：

对网页源代码做简单的分析，我们很容易找到章节信息所在的部分，如下图：

每一个章节信息都存储在td标签内，因此对这部分信息我们确定最后的正则表达式为“ <td class="chapterBean" chapterId="\d*" chapterName="(.*?)" chapterLevel="\d*" wordNum="(.*?)" updateTime="(.*?)"><a href="(.*?)" title=".*?"> ”。

代码实现
对于章节列表也信息的采集我们采用和简介页相同的方法，创建一个CrawlBase子类，用它来完成相关信息的采集。对于请求伪装等操作参照更新列表页中的介绍，这里只介绍DoRegex类中的一个方法：

    List<String[]> getListArray(String dealStr, String regexStr, int[] array)  
复制代码

第一个参数是需要查询的字符串，第二个参数是正则表达式，第三个是需要提取的信息在正则表达式中的定位，函数的整体功能是返回字符串中所有满足条件的信息。
运行结果

源代码
查看最新源代码请访问：http://www.llwjy.com/source/com. ... ng.ChapterPage.html

     /**   
     *@Description:   章节列表页 
     */   
    package com.lulei.crawl.novel.zongheng;    
      
    import java.io.IOException;  
    import java.util.HashMap;  
    import java.util.List;  
      
    import com.lulei.crawl.CrawlBase;  
    import com.lulei.util.DoRegex;  
        
    public class ChapterPage extends CrawlBase {  
        private static final String CHAPTER = "<td class="chapterBean" chapterId="\\d*" chapterName="(.*?)" chapterLevel="\\d*" wordNum="(.*?)" updateTime="(.*?)"><a href="(.*?)" title=".*?">";  
        private static final int []ARRAY = {1, 2, 3, 4};  
        private static HashMap<String, String> params;  
        /** 
         * 添加相关头信息，对请求进行伪装 
         */  
        static {  
            params = new HashMap<String, String>();  
            params.put("Referer", "http://book.zongheng.com");  
            params.put("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36");  
        }  
          
        public ChapterPage(String url) throws IOException {  
            readPageByGet(url, "utf-8", params);  
        }  
          
        public List<String[]> getChaptersInfo() {  
            return DoRegex.getListArray(getPageSourceCode(), CHAPTER, ARRAY);  
        }  
          
        public static void main(String[] args) throws IOException {  
            ChapterPage chapterPage = new ChapterPage("http://book.zongheng.com/showchapter/362857.html");  
            for (String []ss : chapterPage.getChaptersInfo()) {  
                for (String s : ss) {  
                    System.out.println(s);  
                }  
                System.out.println("----------------------------------------------------    ");  
            }  
        }  
      
    }  
复制代码

图文精华

基于lucene的案例开发20：纵横小说章节列表采集

推荐 /2