【信息检索】Java简易搜索引擎原理及实现（四）利用布尔模型和向量模型计算权值

上一篇文章：【信息检索】Java简易搜索引擎原理及实现（三）B+树索引和轮排索引结构，我们在倒排索引的基础上，引入了B+树索引和轮排索引，以支持通配符的模糊查询方式。

本篇主要是掌握和测试布尔模型和向量模型在信息检索中应用的基本方法，计算出一些参数值，辅助搜索引擎去对最终各查询结果计算权值，排序。

首先介绍几个概念：
1. df（document frequency）：总文档中包含每个 term 的文档数
2. tf（term frequency）：每个 term 在每个文档中词频数
3. wf（weighting term frequency）：根据 tf 计算 term 的权值
wf 计算公式：

4. tf × idf：综合df 和tf 的值，实际是利用此参数计算出的权值作为term项在一个文档中的权值
其中，idf：inverse document frequency

因此，由tf × idf计算出来的wf如下：

上述是利用tf来计算出的tf × idf值，其实还有一种是利用wf来计算的wf × idf值，它们的公式类似，只是把tf 的部分更换为 wf。wf × idf是归一化后的tf × idf值，wf × idf对于低出现次数和高出现次数的term在一个文档中的权值把控得更好。
5.余弦相似：利用两个向量之间的夹角的余弦值，来表示两个向量间的相似度。

因此，我们可扩展出两个文档j和k之间的相似度计算公式：

其中，wi,j 代表term项 i 在文档 j 中的tf × idf值或wf × idf值。
利用这个公式，我们可以搜索出和一个文档相似的其他文档。

同时，利用余弦相似的概念，也可扩展出查询向量q和文档j之间的相似度计算公式：

有了这个公式，我们就可以根据用户输入的查询词来计算出每个文档与之的相似度，然后根据相似度按从大到小的顺序来对查询出的文档排序了。
需要注意的是，为了提高计算的速度，我们在实际计算中，是不计算分母的值的，因此我们算出的相似度只由分子构成，它不是一个0~1之间的值，但可用其来衡量相似度。

下面我们就进入实验环节：

因为此部分数据量较大，我们算出的数据需存入数据库中，需要在本地连接mysql数据库。

1.统计文档总数 N

统计在总文档中包含每个 term 的文档数 df。如表 1 所示
Table 1:

term	df
car	18165
auto	6723
insurance	19241
best	25235

统计每个 term 在每个文档中词频数 tf。如表 2 所示
Table 2: (3 个文档中的 tf)

term tf	Doc1	Doc2	Doc3
car	27	4	24
auto	3	33	0
insurance	0	23	29
best	14	0	17

统计结果均存入数据库，输出格式按表格1或表格2形式。

统计在总文档中包含每个 term 的文档数 df，并执行插入sql语句（表结构就按上述表格的方式建立，此处假定已建好数据库表）：

//统计在总文档中包含每个 term 的文档数 df，并执行插入sql语句
private void insertDf(LinkedList<Item> dictionary, Connection con) {
    Statement statement = null;
    String sql = "insert into term_df values (";
    try {
        statement = con.createStatement();
        long startTime = System.currentTimeMillis(); //获取开始时间

        for (Item item : dictionary) {
            statement.addBatch(sql + "'" + item.term + "'," + item.docs + ");");
        }
        statement.executeBatch();

        long endTime = System.currentTimeMillis(); //获取结束时间
        System.out.println("df统计及执行sql总时间：" + (double)(endTime - startTime)/1000 + "s"); //输出时间
    } catch (SQLException e) {
        e.printStackTrace();
    } finally {
        try {
            statement.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

//获取数据库连接
private static Connection getConnection() {
    Connection con = null;
    try {
        Class.forName("com.mysql.jdbc.Driver");//加载数据库驱动类
        System.out.println("数据库驱动加载成功");
    } catch(ClassNotFoundException e) {
        e.printStackTrace();
    }
    try {
        con = DriverManager.getConnection("jdbc:mysql:"+"//127.0.0.1:3306/coseir","root","123456");//通过访问数据库的URL获取数据库连接对象
        System.out.println("数据库连接成功");
    } catch(SQLException e) {
        e.printStackTrace();
    }
    return con;//按方法要求返回一个Connection对象
}

统计每个 term 在每个文档中词频数 tf，并执行插入sql语句：

private void insertTf(LinkedList<Item> dictionary, Connection con) {
    Statement statement = null;
    String sql = "insert into term_tf values (";
    try {
        statement = con.createStatement();
        long startTime = System.currentTimeMillis(); //获取开始时间

        for (Item item : dictionary) {
            StringBuilder str = new StringBuilder(sql + "'" + item.term + "'");
            int id = 1;
            for (Item_ori item_ori : item.ori_item_list) {
                while (id < item_ori.docId) {
                    str.append(",0");
                    id++;
                }
                str.append(",").append(item_ori.freq);
                id = item_ori.docId + 1;
            }
            while (id <= N) {
                str.append(",0");
                id++;
            }
            str.append(");");
            statement.addBatch(str.toString());
        }
        statement.executeBatch();

        long endTime = System.currentTimeMillis(); //获取结束时间
        System.out.println("tf统计及执行sql总时间：" + (double)(endTime - startTime)/1000 + "s"); //输出时间
    } catch (SQLException e) {
        e.printStackTrace();
    } finally {
        try {
            statement.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

2.计算每个term项的idf、tf × idf:

每个term的idft值，计算结果存入数据库，输出格式按表格1形式。
每个term在每个文档中的wi,j权值，计算结果存入数据库，输出格式按表格2形式。

idf计算：

//统计在每个term的idf值，并执行插入sql语句
private void insertIdf(LinkedList<Item> dictionary, Connection con) {
    Statement statement = null;
    String sql = "insert into term_idf values (";
    try {
        statement = con.createStatement();
        long startTime = System.currentTimeMillis(); //获取开始时间

        for (Item item : dictionary) {
            statement.addBatch(sql + "'" + item.term + "'," + Math.log(N / item.docs) / Math.log(10) + ");");
        }
        statement.executeBatch();

        long endTime = System.currentTimeMillis(); //获取结束时间
        System.out.println("idf统计及执行sql总时间：" + (double)(endTime - startTime)/1000 + "s"); //输出时间
    } catch (SQLException e) {
        e.printStackTrace();
    } finally {
        try {
            statement.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

tf × idf 计算：

//统计每个term在每个文档中的wi,j权值（利用tf计算），并执行插入sql语句
private void insertWeight_tf(LinkedList<Item> dictionary, Connection con) {
    Statement statement = null;
    String sql = "insert into term_weight_tf values (";
    try {
        statement = con.createStatement();
        long startTime = System.currentTimeMillis(); //获取开始时间

        for (Item item : dictionary) {
            StringBuilder str = new StringBuilder(sql + "'" + item.term + "'");
            int df = item.docs;
            int id = 1;
            for (Item_ori item_ori : item.ori_item_list) {
                while (id < item_ori.docId) {
                    str.append(",0");
                    id++;
                }
                str.append(",").append(item_ori.freq * Math.log(N / df) / Math.log(10));
                id = item_ori.docId + 1;
            }
            while (id <= N) {
                str.append(",0");
                id++;
            }
            str.append(");");
            statement.addBatch(str.toString());
        }
        statement.executeBatch();

        long endTime = System.currentTimeMillis(); //获取结束时间
        System.out.println("Wi,j权值(利用tf)统计及执行sql总时间：" + (double)(endTime - startTime)/1000 + "s"); //输出时间
    } catch (SQLException e) {
        e.printStackTrace();
    } finally {
        try {
            statement.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

3.计算每个term的wf值。注意：wf值是对tf值进行归一化处理的一种方法之一。

利用wf值，重新计算每个term在每个文档中的Wi,j权值。计算结果存入数据库，输出格式按表格2形式。

//统计每个 term 在每个文档中词频数 wf（归一化的tf），并执行插入sql语句
private void insertWf(LinkedList<Item> dictionary, Connection con) {
    Statement statement = null;
    String sql = "insert into term_wf values (";
    try {
        statement = con.createStatement();
        long startTime = System.currentTimeMillis(); //获取开始时间

        for (Item item : dictionary) {
            StringBuilder str = new StringBuilder(sql + "'" + item.term + "'");
            int id = 1;
            for (Item_ori item_ori : item.ori_item_list) {
                while (id < item_ori.docId) {
                    str.append(",1");
                    id++;
                }
                str.append(",").append(1 + Math.log(item_ori.freq) / Math.log(10));
                id = item_ori.docId + 1;
            }
            while (id <= N) {
                str.append(",1");
                id++;
            }
            str.append(");");
            statement.addBatch(str.toString());
        }
        statement.executeBatch();

        long endTime = System.currentTimeMillis(); //获取结束时间
        System.out.println("wf统计及执行sql总时间：" + (double)(endTime - startTime)/1000 + "s"); //输出时间
    } catch (SQLException e) {
        e.printStackTrace();
    } finally {
        try {
            statement.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

//统计每个term在每个文档中的Wi,j权值（利用wf计算），并执行插入sql语句
private void insertWeight_wf(LinkedList<Item> dictionary, Connection con) {
    Statement statement = null;
    String sql = "insert into term_weight_wf values (";
    try {
        statement = con.createStatement();
        long startTime = System.currentTimeMillis(); //获取开始时间

        for (Item item : dictionary) {
            StringBuilder str = new StringBuilder(sql + "'" + item.term + "'");
            int df = item.docs;
            int id = 1;
            for (Item_ori item_ori : item.ori_item_list) {
                while (id < item_ori.docId) {
                    str.append(",1");
                    id++;
                }
                str.append(",").append((1 + Math.log(item_ori.freq) / Math.log(10)) * Math.log(N / df) / Math.log(10));
                id = item_ori.docId + 1;
            }
            while (id <= N) {
                str.append(",1");
                id++;
            }
            str.append(");");
            statement.addBatch(str.toString());
        }
        statement.executeBatch();

        long endTime = System.currentTimeMillis(); //获取结束时间
        System.out.println("Wi,j权值(利用wf)统计及执行sql总时间：" + (double)(endTime - startTime)/1000 + "s"); //输出时间
    } catch (SQLException e) {
        e.printStackTrace();
    } finally {
        try {
            statement.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

4.采用wi,j权值和Wi,j权值，利用余弦相似计算方法，分别计算任意两个文档向量之间的相似度。

注：wi,j是指由 tf 计算出的tf × idf值，Wi,j是由wf计算出的wf × idf值。

//利用余弦相似计算方法，计算任意两个文档向量之间的相似度
//mode==1表示利用wi,j计算，否则表示利用Wi,j计算
public static double calculateSim(int mode, int doc1, int doc2, Connection con) {
    Statement statement = null;
    try {
        statement = con.createStatement();
        String sql_1, sql_2;
        if (mode == 1) {
            sql_1 = "select doc" + doc1 + " from term_weight_tf";
            sql_2 = "select doc" + doc2 + " from term_weight_tf";
        } else {
            sql_1 = "select doc" + doc1 + " from term_weight_wf";
            sql_2 = "select doc" + doc2 + " from term_weight_wf";
        }

        ResultSet resultSet = statement.executeQuery(sql_1);
        ArrayList<Double> list_1 = new ArrayList<>();
        ArrayList<Double> list_2 = new ArrayList<>();
        double d1 = 0, d2 = 0;
        while (resultSet.next()) {
            list_1.add(resultSet.getDouble(1));
            d1 += resultSet.getDouble(1) * resultSet.getDouble(1);
        }
        resultSet = statement.executeQuery(sql_2);
        while (resultSet.next()) {
            list_2.add(resultSet.getDouble(1));
            d2 += resultSet.getDouble(1) * resultSet.getDouble(1);
        }

        d1 = Math.sqrt(d1);
        d2 = Math.sqrt(d2);
        double sum = 0
                        
                        
                            
                            版权声明：本文来源CSDN，感谢博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。

                            原文链接：https://blog.csdn.net/qq_40121502/article/details/90545057

                            站方申明：本站部分内容来自社区用户分享，若涉及侵权，请联系站方删除。
                        
                        
                        
                            
                                
                                    
                                    发表于 2020-06-28 04:07:30
                                
                                阅读 ( 1206 )
                                分类：


                

    
        
            你可能感兴趣的文章
            
                
                
                    通过日志监控并收集 Java 应用程序性能数据
                    1051 浏览
                
                
                
                    研究 研究而已 java和.net的HashSet对比
                    1254 浏览
                
                
                
                    使用Java 8函数式编程生成字母序列
                    669 浏览
                
                
                
                    JavaScript如何正确处理Unicode编码问题
                    1095 浏览
                
                
                
                    2018年阿里巴巴开源的那些超牛的Java项目汇总
                    1133 浏览
                
                
                
                    Java 程序员开发常用的工具推荐
                    1764 浏览
                
                
                
                    谷歌开发团队招募Node.js移植工程师 Fuchsia有望支持JavaScript应用
                    738 浏览
                
                
                
                    Java 8 有多牛？打破一切你对接口的认知！
                    951 浏览
                
                
                
                    干货！测试入门Java必会的27个知识点
                    657 浏览
                
                
            
        
        
            精选的优质文章
            
                
                
                    也许 Go 开发可以更简单！
                    10585 浏览
                
                
                
                    如何使用 Golang 日志监控你的应用程序？
                    12057 浏览
                
                
                
                    从Go语言实现模板设计模式浅谈Go的抽象能力
                    14107 浏览
                
                
                
                    阿里云基于 Go 的微服务架构分享
                    23972 浏览
                
                
                
                    java是否会被取代？Go会否给Java带来冲击？
                    28494 浏览
                
                
                
                    千万级规模高性能、高并发的网络架构经验分享
                    30050 浏览
                
                
                
                    阿里部分面试题汇总,对想进阿里的同学非常实用
                    62347 浏览
                
                
                
                    实用好文：知乎实时数仓架构实践及演进
                    31369 浏览
                
                
                
                    支撑马蜂窝「双11」营销大战背后的技术架构
                    228310 浏览
                
                
                
                    想进大厂？50个多线程面试题，你会多少？（一）
                    23106 浏览
                
                
            
        

    



                
                    0 条评论
                    
                        
                        
                        
                            
                                请先 登录 后评论


            

    
        官方社群
        
            
                
                    
                
                
            

              关注公众号
            
—— 加入社区微信群 ——

                →「Go语言教程」领取

            

                
            
        
    
    

    GO教程
    
    
    
        
        
            
            
                
                1.1 Go语言简介
                
                1.2 Go语言的特性
                
                1.3 Go语言为并发而生
                
                1.4 哪些项目使用Go语言开发？
                
                1.5 哪些大公司正在使用Go语言
                
                1.6 Go语言的性能如何？
                
                1.7 Go语言标准库强大
                
                1.8 Go语言上手简单
                
                1.9 Go语言代码风格清晰、简单
                
                1.10 Go语言工程结构详述
                
                1.11 第一个Go语言程序
                
                1.12 Go语言历史版本
                
            
        
        
        
            
            
                
                2.1 Go语言变量的声明
                
                2.2 Go语言变量的初始化
                
                2.3 Go语言多个变量同时赋值
                
                2.4 Go语言匿名变量
                
                2.5 Go语言变量的作用域
                
                2.6 Go语言整型（整数类型）
                
                2.7 Go语言浮点类型（小数类型）
                
                2.8 Go语言复数
                
                2.9 Go语言bool类型（布尔类型）
                
                2.10 Go语言字符串
                
                2.11 Go语言字符类型（byte和rune）
                
                2.12 Go语言数据类型转换
                
                2.13 Go语言指针
                
                2.14 Go语言变量的生命周期
                
                2.15 Go语言常量
                
                2.16 Go语言类型别名
                
                2.17 Go语言关键字与标识符
                
                2.18 Go语言运算符的优先级
                
            
        
        
        
            
            
                
                3.1 Go语言数组
                
                3.2 Go语言多维数组
                
                3.3  Go语言切片
                
                3.4 使用append()为切片添加元素
                
                3.5 Go语言切片复制
                
                3.6 Go语言从切片中删除元素
                
                3.7 Go语言range关键字
                
                3.8 Go语言多维切片
                
                3.9 Go语言map（映射）
                
                3.10 Go语言遍历map
                
                3.11 map元素的删除和清空
                
                3.12  Go语言sync.Map
                
                3.13 Go语言list（列表）
                
                3.14 Go语言nil：空值/零值
                
            
        
        
        
            
            
                
                4.1 Go语言分支结构
                
                4.2 Go语言循环结构
                
                4.4 Go语言键值循环
                
                4.5 Go语言switch语句
                
                4.6 Go语言goto语句
                
                4.7 Go语言break（跳出循环）
                
                4.8 Go语言continue
                
            
        
        
        
            
            
                
                5.1 Go语言函数声明
                
                5.2 Go语言函数变量
                
                5.3 Go语言匿名函数
                
                5.4 Go语言函数类型实现接口
                
                5.5 Go语言闭包（Closure）
                
                5.6 Go语言可变参数
                
                5.7 Go语言defer（延迟执行语句）
                
                5.8 Go语言递归函数
                
                5.9  Go语言处理运行时错误
                
                5.10 Go语言宕机（panic）
                
                5.11 Go语言宕机恢复（recover）
                
                5.12 Go语言计算函数执行时间
                
                5.13 Go语言Test功能测试函数
                
            
        
        
        
            
            
                
                6.1 Go语言结构体定义
                
                6.2 Go语言实例化结构体
                
                6.3 初始化结构体的成员变量
                
                6.4 Go语言构造函数
                
                6.5 类型内嵌和结构体内嵌
                
                6.6 初始化内嵌结构体
                
                6.7 内嵌结构体成员名字冲突
                
                6.8 Go语言垃圾回收和SetFinalizer
                
                6.9 Go语言链表操作
                
                6.10 Go语言数据I/O对象及操作
                
            
        
        
        
            
            
                
                7.1 Go语言接口声明（定义）
                
                7.2 Go语言实现接口的条件
                
                7.3 Go语言类型与接口的关系
                
                7.4 Go语言类型断言
                
                7.5  Go语言排序
                
                7.6 Go语言接口的嵌套组合
                
                7.9 Go语言接口和类型之间的转换
                
                7.10 Go语言空接口类型
                
                7.11 Go语言类型分支
                
                7.12 Go语言error接口
                
            
        
        
        
            
            
                
                8.1 包的基本概念
                
                8.2 Go语言封装简介及实现细节
                
                8.3 Go语言GOPATH
                
                8.4 Go语言常用内置包
                
                8.5 Go语言自定义包
                
                8.6 Go语言package
                
                8.7 Go语言导出包中的标识符
                
                8.8 Go语言import导入包
                
                8.9 Go语言sync包与锁
                
                8.10 Go语言big包
                
                8.11 Go语言正则表达式：regexp包
                
                8.12 Go语言time包：时间和日期
                
                8.13  Go语言os包用法简述
                
                8.14 Go语言flag包：命令行参数解析
                
                8.15 Go语言go mod包依赖管理工具
                
                8.16 Go语言runtime包:运行时
                
            
        
        
        
            
            
                
                9.1 Go语言并发简述
                
                9.2 Go语言轻量级线程
                
                9.3 Go语言并发通信
                
                9.4 Go语言竞争状态
                
                9.5 Go语言调整并发的运行性能
                
                9.6 并发和并行的区别
                
                9.7 goroutine和coroutine的区别
                
                9.8 Go语言通道（chan）
                
                9.9 示例：并发打印
                
                9.10 Go语言单向通道
                
                9.11 Go语言无缓冲的通道
                
                9.12 Go语言带缓冲的通道
                
                9.13 Go语言channel超时机制
                
                9.14 Go语言多核并行化
                
                9.15 互斥锁和读写互斥锁
                
                9.16 Go语言等待组
                
                9.17 死锁、活锁和饥饿概述
                
                9.18 Go语言CSP：通信顺序进程简述
                
                9.19 示例：聊天服务器
                
            
        
        
        
            
            
                
                10.1 Go语言反射（reflection）
                
                10.2 Go语言反射规则浅析
                
                10.3 通过反射获取类型信息
                
                10.4 通过反射获取指针指向的元素类型
                
                10.5 通过反射获取结构体的成员类型
                
                10.6 Go语言结构体标签
                
                10.7 通过反射获取值信息
                
                10.8 通过反射访问结构体成员的值
                
                10.9 判断反射值的空和有效性
                
                10.10 通过反射修改变量的值
                
                10.11 通过类型信息创建实例
                
                10.12 通过反射调用函数
                
                10.13 Go语言inject库：依赖注入
                
            
        
        
        
            
            
                
                11.1 Go语言自定义数据文件
                
                11.2 Go语言JSON文件的读写操作
                
                11.3 Go语言XML文件的读写操作
                
                11.4 Go语言使用Gob传输数据
                
                11.5 Go语言纯文本文件的读写操作
                
                11.6 Go语言二进制文件的读写操作
                
                11.7 Go语言自定义二进制文件的读写操作
                
                11.8 Go语言zip归档文件的读写操作
                
                11.9 Go语言tar归档文件的读写操作
                
                11.10 Go语言使用buffer读取文件
                
                11.11 Go语言文件的写入、追加、读取、复制操作
                
                11.12 Go语言文件锁操作
                
            
        
        
        
            
            
                
                12.1 go build命令
                
                12.2 go clean命令
                
                12.3 go run命令
                
                12.4 go fmt命令
                
                12.5 go install命令
                
                12.6 go get命令
                
                12.7 go generate命令
                
                12.8 go test命令
                
                12.9 go pprof命令
                
            
        
        
        
            
            
                
                13.1 Go语言的深拷贝和浅拷贝
                
                13.2 Go语言引用传递和值传递
                
                13.3 Go语言的Socket编程
                
            
        
        
        
            
            
                
                14.1 Golang Map底层实现
                
                14.2 go语言触发异常的场景有哪些
                
                14.3 Printf()、Sprintf()、Fprintf()函数的区别用法是什么
                
                14.4 详细说说new和make的区别
                
                14.5 详细说说切片和数组的区别
                
                14.6 Golang的内存模型，为什么小对象多了会造成gc压力
                
                14.7 Data Race问题怎么解决？能不能不加锁解决这个问题
                
                14.8 在 range 迭代 slice 时，你怎么修改值的
                
                14.9 select可以用于什么
                
                14.10 go语言编程的好处是什么
                
                14.11 你是否主动关闭过http连接，为啥要这样做
                
                14.12 recover的执行时机
                
                14.13 说出一个避免Goroutine泄露的措施
                
                14.14 如何跳出for select 循环
                
                14.15 如何初始化带嵌套结构的结构体
                
                14.16 Printf()、Sprintf()、Fprintf()函数的区别用法是什么
                
                14.17 go语言中的引用类型包含哪些
                
                14.18 说说go语言的select机制
                
            
        
        
    



    
        推荐文章
        
            
            
                Java编程内功-数据结构与算法「平衡二叉树」
            
            
            
                Web前端和Java开发哪个薪资更高，发展前景更好？
            
            
            
                如何写出优雅耐看的JavaScript代码
            
            
            
                干货总结：中级前端工程师必须要掌握的27个JavaScript 技巧
            
            
            
                使用Java框架Scipio ERP创建一个在线商店
            
            
            
                JSP+JavaBean+Servlet结构工作原理浅析
            
            
            
                甲骨文发布Java补丁 修正Java 7中的安全漏洞
            
            
            
                Java风云再起：谷歌碰撞甲骨文
            
            
            
                如果你只会Java，那任何事看起来都是类
            
            
            
                在JavaScript中串行化为JSON―使用json2.js
            
            
        
    
    
    

    
    
        猜你喜欢
        



        
    
    
    
    
    
    
        随便看看
        
            
            
                HTTP 交互
                
            
            
            
                HTTP协议简单解释
                
            
            
            
                一行命令快速搭建超简单的http服务
                
            
            
            
                HTTP详解（六）：HTTP Header 讲解
                
            
            
            
                图解HTTP（六）—— HTTP请求头（首部）
                
            
            
            
                HTTP常见面试题
                
            
            
            
                HTTP详解（一）：http简介及特点
                
            
            
            
                使用go自带的http包搭建一个的web服务器
                
            
            
            
                使用Golang 搭建http web服务器
                
            
            
            
                基于moongoose的c++ http服务端