已拿 offer 热乎乎的蚂蚁金服面经分享,建议收藏 (Java 岗、附答案)(2)
Storm 怎么保证一致性
Storm 是一个分布式的流处理系统,利用 anchor 和 ack 机制保证所有 tuple 都被成功处理。如果 tuple 出错,则可以被重传,但是如何保证出错的 tuple 只被处理一次呢?Storm 提供了一套事务性组件 Transaction Topology,用来解决这个问题。
Transactional Topology 目前已经不再维护,由 Trident 来实现事务性 topology,但是原理相同。
说一下 hashmap 以及它是否线程安全
HashMap 基于哈希表的 Map 接口的实现。HashMap 中,null 可以作为键,这样的键只有一个;可以有一个或多个键所对应的值为 null。HashMap 中 hash 数组的默认大小是 16,而且一定是 2 的指数。Hashtable、HashMap 都使用了 Iterator。而由于历史原因,Hashtable 还使用了 Enumeration 的方式 。HashMap 实现 Iterator,支持 fast-fail。
哈希表是由数组+链表组成的,它是通过把 key 值进行 hash 来定位对象的,这样可以提供比线性存储更好的性能。
HashMap 不是线程安全的。
十亿条淘宝购买记录,怎么获取出现最多的前十个
这是一道典型的有限内存的海量数据处理的题目。一般这类题目的解答无非是以下几种:
分治,hash 映射,堆排序,双层桶划分,Bloom Filter,bitmap,数据库索引,mapreduce 等。
具体情形都有很多不同的方案。这类题目可以到网上搜索一下,了解下套路,后面就基本都会了。
平时有没有用 linux 系统,怎么查看某个进程
ps aux|grep java 查看 java 进程
ps aux 查看所有进程
ps –ef|grep tomcat 查看所有有关 tomcat 的进程
ps -ef|grep --color java 高亮要查询的关键字
kill -9 19979 终止线程号位 19979 的进程
说一下 Innodb 和 MySIAM 的区别
MyISAM 类型不支持事务处理等高级处理,而 InnoDB 类型支持。MyISAM 类型的表强调的是性能,其执行数度比 InnoDB 类型更快,但是不提供事务支持,而 InnoDB 提供事务支持以及外部键等高级数据库功能。
InnoDB 不支持 FULLTEXT 类型的索引。
InnoDB 中不保存表的具体行数,也就是说,执行 select count(*) from table 时,InnoDB 要扫描一遍整个表来计算有多少行,但是 MyISAM 只要简单的读出保存好的行数即可。注意的是,当 count(*)语句包含 where 条件时,两种表的操作是一样的。
对于 AUTO_INCREMENT 类型的字段,InnoDB 中必须包含只有该字段的索引,但是在 MyISAM 表中,可以和其他字段一起建立联合索引。
DELETE FROM table 时,InnoDB 不会重新建立表,而是一行一行的删除。
LOAD TABLE FROM MASTER 操作对 InnoDB 是不起作用的,解决方法是首先把 InnoDB 表改成 MyISAM 表,导入数据后再改成 InnoDB 表,但是对于使用的额外的 InnoDB 特性(例如外键)的表不适用。
说一下 jvm 内存模型,介绍一下你了解的垃圾收集器
其实并没有 jvm 内存模型的概念。应该是 Java 内存模型或者 jvm 内存结构,这里面试者一定要听清楚问的是哪个,再回答。
可以参考:JVM 内存结构 VS Java 内存模型 VS Java 对象模型
你说你是大数据方向的,了解哪些大数据框架
作者回答了一些 zookeeper、storm、HDFS、Hbase 等
其他问题
100 个有序的整型,如何打乱顺序?
如何设计一个可靠的 UDP 协议?
二面大概就是这些,其中 storm 一致性这个问题被面试官怀疑了一下,就有点紧张,其实没答错,所以还是要对知识掌握得更明确才行。
3.准备充足的三面
清明节的时候例外地没有回家扫墓,因为知道自己的弱项是操作系统和海量数据题这块,所以想着恶补这方面的知识,不过之后的面试意外的并没有问到这方面的内容。
介绍项目
项目介绍完之后没问太多
介绍一下 hashmap
HashM
ap 真的是面试高频题,多次面试都问到了,一定要掌握。
介绍一下并发
这里可以把整个并发的体系都说下,包括 volatile、synchronized、lock、乐观悲观锁、锁膨胀、锁降级、线程池等
银行账户读写怎么做
我说了读写锁以及可能出现死锁问题
说一下关系型数据库和非关系型数据库的区别
非关系型数据库的优势:
性能:NOSQL 是基于键值对的,可以想象成表中的主键和值的对应关系,而且不需要经过 SQL 层的解析,所以性能非常高
可扩展性:同样也是因为基于键值对,数据之间没有耦合性,所以非常容易水平扩展。
使用场景:日志、埋点、论坛、博客等
关系型数据库的优势:
复杂查询:可以用 SQL 语句方便的在一个表以及多个表之间做非常复杂的数据查询
事务支持:使得对于安全性能很高的数据访问要求得以实现。
使用场景:所有有逻辑关系的数据存储
如何访问链表中间节点
对于这个问题,我们首先能够想到的就是先遍历一遍整个的链表,然后计算出链表的长度,进而遍历第二遍找出中间位置的数据。这种方式非常简单。
若题目要求只能遍历一次链表,那又当如何解决问题?
可以采取建立两个指针,一个指针一次遍历两个节点,另一个节点一次遍历一个节点,当快指针遍历到空节点时,慢指针指向的位置为链表的中间位置,这种解决问题的方法称为快慢指针方法。
说下进程间通信,以及各自的区别
进程间通信是指在不同进程之间传播或交换信息。方式通常有管道(包括无名管道和命名管道)、消息队列、信号量、共享存储、Socket、Streams 等。
访问淘宝网页的一个具体流程,从获取 ip 地址,到怎么返回相关内容
先通过 DNS 解析到服务器地址,然后反向代理、负载均衡服务器等,寻找集群中的一台机器来真正执行你的请求。还可以介绍 CDN、页面缓存、Cookie 以及 session 等。
这个过程还包括三次握手、HTTP request 中包含哪些内容,状态码等,还有 OSI 七层分层可以介绍。
服务器接到请求后,会执行业务逻辑,执行过程中可以按照 MVC 来分别介绍。
服务处理过程中是否调用其他 RPC 服务或者异步消息,这个过程包含服务发现与注册,消息路由。
最后查询数据库,会不会经过缓存?是不是关系型数据库?是会分库分表还是做哪些操作?
对于数据库,分库分表如果数据量大的话是有必要的,一般业务根据一个分表字段进行取模进行分表,而在做数据库操作的时候,也根据同样的规则,决定数据的读写操作对应哪张表。这种也有开源的实现的,如阿里的 TDDL 就有这种功能。分库分表还涉及到很多技术,比如 sequence 如何设置 ,如何解决热点问题等。
最后再把处理结果封装成 response,返回给客户端。浏览器再进行页面渲染。
4.焦虑的 hr 面
之所以说 hr 面焦虑,是因为面试前我还在看 IG 的半决赛(实在复习不下),接到电话的时候分外紧张,在一些点上答得很差。
遇到什么挫折
这种问题主要考察面试者遇见困难是否能坚持下去,并且可以看出他的解决问题的能力。
可以简单描述挫折,并说明自己如何克服,最终有哪些收获。
职业规划
表明自己决心,首先自己不准备继续求学了,必须招工作了。然后说下自己不会短期内换行业,或者换工作,自己比较喜欢,希望可以坚持几年看自己的兴趣再规划之类的。
对阿里的认识
这个比较简答,夸就行了。
有什么崇拜的人吗
我说了詹姆斯哈登,hr 小姐姐居然笑了。
这个可以说一些 IT 大牛。
希望去哪里就业
这个问题果断回答该公司所在的城市啊。
其他问题
有什么兴趣爱好,能拿得上台表演的有吗
记忆深刻的事情
评论