写点什么

Java 基础之 hashcode 剖析

用户头像
愚者
关注
发布于: 6 小时前

1. 前言

散列是计算机科学的一个基本概念。在 Java 中,高效的散列算法支持一些最流行的集合,例如 HashMap 和 HashSet,在本文中,我们将重点介绍 hashCode() 的工作原理、它如何在集合中使用以及如何正确实现它。

hashcode 规则

  • 在 equals 方法没被修改的前提下,多次调用同一对象的 hashcode 方法返回的值必须是相同的整数;

  • 如果两个对象互相 equals,那么这两个对象的 hashcode 值必须相等;

  • 为不同对象生成不同的 hashcode 可以提升哈希表的性能;

目标

  1. 为什么要 重写 hashcode 和 equals 方法

  2. 为什么两个对象相等,Set 、Map 还是打印两个对象引用?

  3. 只重写 equals 方法和只重写 hashcode 方法会出现什么情况?

2. hashcode 原理

2.1 Java equals()和 hashCode()的关系

Object.html#hashCode()

hashcode 的理解

  1. hashCode 的存在主要是用于查找的快捷性,如 Hashtable,HashMap 等,hashCode 是用来在散列存储结构中确定对象的存储地址的;

  2. 如果两个对象相同,就是适用于 equals(java.lang.Object) 方法,那么这两个对象的 hashCode 一定要相同;

  3. 如果对象的 equals 方法被重写,那么对象的 hashCode 也尽量重写,并且产生 hashCode 使用的对象,一定要和 equals 方法中使用的一致,否则就会违反上面提到的第 2 点;

  4. 两个对象的 hashCode 相同,并不一定表示两个对象就相同,也就是不一定适用于 equals(java.lang.Object) 方法,只能够说明这两个对象在散列存储结构中,如 Hashtable,他们 “存放在同一个篮子里”

再归纳一下就是 hashCode 是用于查找使用的,而 equals 是用于比较两个对象的是否相等的。以下这段话是从别人帖子回复拷贝过来的,说的很形象:

(1) hashcode 是用来查找的,如果你学过数据结构就应该知道,在查找和排序说过:假如内存中有这样的位置 [0 1 2 3 4 5 6 7] 而我有个类,这个类有个字段叫 ID,我要把这个类存放在以上 8 个位置之一,如果不用 hashcode 而任意存放,那么当查找时就需要到这八个位置里挨个去找,或者用类似二分法的算法。 但如果用 hashcode 那就会使效率提高很多。

我们这个类中有个字段叫 ID,那么我们就定义我们的 hashcode 为 ID%8,然后把我们的类存放在取得得余 数那个位置。比如我们的 ID 为 9,9 除 8 的余数为 1,那么我们就把该类存在 1 这个位置,如果 ID 是 13,求得 的余数是 5,那么我们就把该类放在 5 这个位置。这样,以后在查找该类时就可以通过 ID 和 8 求余数直接找到 存放的位置了。

(2) 但是如果两个类有相同的 hashcode 该怎么办呢(假设上面的 ID 不是唯一的),假如 9%8=1,17%8=1,那么这是不是合法的呢?回答是:可以这样。

那么如何判断呢?在这个时候就需要定义 equals 了。也就是说,我们先通过 hashcode 来判断两个类是否存放在一个桶里面,但是这个桶里面可以有很多类,那么我们就需要通过 equals 来在这个桶里找到我们要的类。

那么。重写了 equals(),为什么还要重写 hashCode()呢?

想想,你要在一个桶里找东西,你必须先要找到这个桶啊,你不通过重写 hashcode()来找到桶,光重写 equals()有什么用啊

2.2 Object 的 hashcode 分析

package com.wxw.common.hashcode;
import java.util.HashSet;import java.util.Set;
/** * @author 公众号:Java半颗糖 * @desc: * @date: 2021/7/24 */public class DemoHashCode {
private int id;
public void setId(Integer id) { this.id = id; }
public Integer getId() { return id; }
@Override public int hashCode() { return id % 10; }
public static void main(String[] args) { DemoHashCode a = new DemoHashCode(); DemoHashCode b = new DemoHashCode(); a.setId(1); b.setId(1); Set<DemoHashCode> set = new HashSet<>(); set.add(a); set.add(b); System.out.println(a.hashCode() == b.hashCode()); System.out.println(a.equals(b)); System.out.println(set);
/** * ---------- * 运行结果: * true * false * [com.wxw.common.hashcode.DemoHashCode@1, com.wxw.common.hashcode.DemoHashCode@1] */ }
}复制代码
复制代码

以上这个示例,我们只重写了 hashcode() 方法,从上面的结果可以看出,虽然两个对象的 hashcode 相等,但实际上两个对象并不相等。

我们没有重写 equals()方法,那么就会调用 Object 默认的 equals()方法,是比较两个对象的引用是不是相同,实际上两个对象的引用肯定是不等的,这里我们将生成的对象放到了 HashSet 中,而 HashSet 中只能够存放唯一的对象,也就是相同的(适用于 equals 方法)的对象只会存放一个,但是这里实际上是两个对象 a,b 都被放到了 HashSet 中,这样 HashSet 就失去了他本身的意义了。 此时我们把 equals 方法给加上:

​​

package com.wxw.common.hashcode;
import java.util.HashSet;import java.util.Set;
/** * @author 公众号:Java半颗糖 * @desc: * @date: 2021/7/24 */public class DemoHashCode {
private int id;
public void setId(Integer id) { this.id = id; }
public Integer getId() { return id; }
@Override public boolean equals(Object o) { if (this == o) return true; if (o == null || getClass() != o.getClass()) return false; DemoHashCode that = (DemoHashCode) o; return id == that.id; }
@Override public int hashCode() { return id % 10; }
public static void main(String[] args) { DemoHashCode a = new DemoHashCode(); DemoHashCode b = new DemoHashCode(); a.setId(1); b.setId(1); Set<DemoHashCode> set = new HashSet<>(); set.add(a); set.add(b); System.out.println(a.hashCode() == b.hashCode()); System.out.println(a.equals(b)); System.out.println(set);
/** * ---------- * 运行结果: * true * true * [com.wxw.common.hashcode.DemoHashCode@1] */ }
}复制代码
复制代码


从结果我们可以看出,现在两个对象就完全相等了,HashSet 中也只存放了一份对象。

2.3 hashmap 的 hashcode 分析

hashMap 组成结构:hashMap 是由数组和链表组成;

  • hashMap 的存储:一个对象存储到 hashMap 中的位置是由其 key 的 hashcode 值决定的;

  • 查 hashMap 查找 key: 找 key 的时候 hashMap 会先根据 key 值的 hashcode 经过取余算法定位其所在数组的位置,再根据 key 的 equals 方法匹配相同 key 值获取对应相应的对象;

(1)HashMap 存储 key

  • 存值规则: 把 Key 的 hashCode 与 HashMap 的容量 取余得出该 Key 存储在数组所在位置的下标 (源码定位 Key 存储在数组的哪个位置是以 hashCode & (HashMap 容量-1)算法得出)

为了演示方便定义一个容量大小为 3 的 hashMap(其默认为 16)

​​

HashMap map=newHashMap(3); map.put("a",1); 得到key 为“a” 的hashcode 值为97然后根据 该值和hashMap 容量取余97%3得到存储位到数组下标为1; map.put("b",2); 得到key 为“b” 的hashcode 值为98,98%3到存储位到数组下标为2; map.put("c",3); 得到key 为“c” 的hashcode 值为99,99%3到存储位到数组下标为0; map.put("d",4); 得到key 为“d” 的hashcode 值为100,100%3到存储位到数组下标为1; map.put("e",5); 得到key 为“e” 的hashcode 值为101,101%3到存储位到数组下标为2; map.put("f",6); 得到key 为“f” 的hashcode 值为102,102%3到存储位到数组下标为0;复制代码
复制代码



(2) hashmap 查找 key

  • 得到 key 在数组中的位置:根据上图,当我们获取 key 为“a”的对象时,那么我们首先获得 key 的 hashcode97%3 得到存储位到数组下标为 1;

  • 匹配得到对应 key 值对象:得到数组下表为 1 的数据“a”和“c”对象, 然后再根据key.equals()来匹配获取对应 key 的数据对象;

hashcode 对于 HashMap:如果没有 hashcode 就意味着 HashMap 存储的时候是没有规律可寻的,那么每当我们 map.get()方法的时候,就要把 map 里面的对象一一拿出来进行 equals 匹配,这样效率是不是会超级慢;

3. hash 冲突

哈希表的内在行为也带来了相应的问题:即使使用有效的哈希算法,两个或多个对象可能具有相同的哈希码,即使两个对象不相等。因此,即使它们具有不同的散列值,它们的散列码也会指向同一个桶。 这种情况通常被称为散列冲突。

解决 hash 冲突的方法,详细分析可以点此处查看:

  • 链表法

  • 开放寻址法

Java 中的 hashMap 是使用链表法解决 hash 冲突的

当两个或多个对象指向同一个存储桶时,它们只是存储在一个链表中。在这种情况下,哈希表是一个链表数组,每个具有相同哈希值的对象都附加到链表中的桶索引处。

​​

​​


在最坏的情况下,几个桶会绑定一个链表,而对链表中对象的检索将是线性执行的。

处理哈希冲突 简言之,为什么高效地实现 hashCode()如此重要?

Java8 也为 HashMap 的实现进行了增强,如果桶大小超过 8,节点入超过 64,则会转换为红黑树,而不是使用链表,这样当链表太长接近线性查找(复杂度为 O(n))时 用红黑树 O(logN) 代替。

3.1 hashmap 和 hashcode 的联系


User 类中我们重写 hashcode 方法

​​​

@Datapublic class User {    private long userId;    private String userName;    private String email;
@Override public int hashCode() { int hash = 7; hash = 31 * hash + (int) userId; hash = 31 * hash + (userName == null ? 0 : userName.hashCode()); hash = 31 * hash + (email == null ? 0 : email.hashCode()); System.out.println("hashCode() called - Computed hash: " + hash); return hash; }
public User(Long userId, String userName, String email) { this.userId = userId; this.userName = userName; this.email = email; }}复制代码
复制代码


​应用程序的入口:

​​

public class DemoHashMap {
public static void main(String[] args) { Map<User, User> users = new HashMap<>(); User user1 = new User(1L, "John", "john@domain.com"); User user2 = new User(2L, "Jennifer", "jennifer@domain.com"); User user3 = new User(3L, "Mary", "mary@domain.com"); users.put(user1, user1); users.put(user2, user2); users.put(user3, user3);
if (users.containsKey(user1)) { System.out.print("User found in the collection"); } }}复制代码
复制代码


在这里,重要的是要注意,每次将对象存储在哈希映射中并使用 containsKey() 方法检查时,都会调用 hashCode() 并将计算出的哈希码打印到控制台:

​​


4. 总结

我们没有重写父类(Object)的 hashcode 方法,Object 的 hashcode 方法会根据两个对象的地址生成对相应的 hashcode;

person1 和 person2 是分别 new 出来的,那么他们的地址肯定是不一样的,自然 hashcode 值也会不一样。

  • Set 区别对象是不是唯一的标准是,首先判断两个对象 hashcode 是不是一样,再判定两个对象是否 equals;

  • Map 是先根据 Key 值的 hashcode 分配和获取对象保存数组下标的,然后再根据 equals 区分唯一值

​​

用户头像

愚者

关注

还未添加个人签名 2021.07.22 加入

还未添加个人简介

评论

发布
暂无评论
Java基础之hashcode剖析