收藏本站 您好,欢迎来到铸造网 请登录 免费注册 行业导航 产品 求购 企业 动态 展会 招聘
分享到:


武汉大数据开发面试题总结

BAT为代表的很多大小互联网公司都在布局大数据,而目前大数据方面的人才依旧十分紧缺,比如大数据生态Spark需要的Scala工程师等。虽然说是人才稀缺,但技术疑点都不能马虎,该学习的技术一点都不能少,该好好准备的面试也不能少,不然自己拿那么高的薪资也很心虚不是?

千锋老师整理了一些大数据的相关面试题,拿来分享于你们!

1、简单概括安装hadoop的步骤

1)创建 hadoop 帐户。

2setup.IP

3)安装 java,并修改/etc/profile 文件,配置 java 的环境变量。

4)修改 Host 文件域名。

5)安装 SSH,配置无密钥通信。

6)解压 hadoop

7)配置 conf 文件下 hadoop-env.shcore-site.shmapre-site.shhdfs-site.sh

8)配置 hadoop 的环境变量。

9Hadoop namenode -format

10Start-all.sh

2、怎样快速的杀死一个job

1)执行hadoop  job -list  拿到job-id

2Hadoop job kill hadoop-id

3、简单概述hadoopcombinetpartition的区别

combinepartition都是函数,中间的步骤应该只有shuffle combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的,partition是分割map每个节点的结果,按照key分别映射给不同的reduce,也是可以自定义的。这里其实可以理解归类。

4、描述 HBase, zookeeper 搭建过程

Zookeeper 的问题楼上爬爬有步骤,hbase 主要的配置文件有hbase.env.sh 主要配置的是JDK的路径以及是否使用外部的ZKhbase-site.xml 主要配置的是与HDFS的链接的路径以及zk的信息,修改regionservers的链接其他机器的配置。

5hbase宕机了如何处理?

HBaseRegionServer宕机超过一定时间后,HMaster会将其所管理的region重新分布到其他活动的RegionServer上,由于数据和日志都持久在HDFS中,该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。

但是重新分配的region需要根据日志恢复原RegionServer中的内存MemoryStore表,这会导致宕机的region在这段时间内无法对外提供服务。而一旦重分布,宕机的节点重新启动后就相当于一个新的RegionServer加入集群,为了平衡,需要再次将某些region分布到该server 

因此,Region Server的内存表memstore如何在节点间做到更高的可用,是HBase的一个较大的挑战。

6kafka 中怎样储存数据,哟及结构的,data.....目录下有多少个分区,每个分区的存储格式是什么样的?

1topic 是按照“主题名-分区”存储的

2)分区个数由配置文件决定

3)每个分区下最重要的两个文件是 0000000000.log  000000.index0000000.log

以默认 1G 大小回滚。

7、请描述mapreduceshuffer阶段的工作流程,如何优化shuffer阶段的?

Mapreduceshuffer是出在map taskreduce task的这段过程中,首先会进入到copy过程,会通过http方式请求map task所在的task Tracker获取map task 的输出的文件,因此当map task结束,这些文件就会落到磁盘中,merge实在map端的动作,只是在map拷贝过来的数值,会放到内存缓冲区中,给shuffer使用,reduce阶段,不断的merge后终会把文件放到磁盘中。

8、写出你对zookeeper的理解

 随着大数据的快速发展,多机器的协调工作,避免主要机器单点故障的问题,于是就引入管理机器的一个软件,他就是zookeeper来协助机器正常的运行。

 Zookeeper有两个角色分别是leaderfollower ,其中leader是主节点,其他的是副节点,在安装配置上一定要注意配置奇数个的机器上,便于zookeeper快速切换选举其他的机器。

在其他的软件执行任务时在zookeeper注册时会在zookeeper下生成相对应的目录,以便zookeeper去管理机器。

千锋教育:http://www.mobiletrain.org/

千锋武汉校区:http://wh.mobiletrain.org/

武汉金融港校区地址:武汉市东湖高新技术开发区光谷大道77号金融港B18栋3楼

武汉智慧园校区地址:武汉市东湖高新技术开发区光谷大道61号智慧园21栋2楼

培训咨询专线:027-59313371

   QQ  : 1660794050

面授课程:HTML5大前端培训、JavaEE+分布式开发培训、Python全栈+人工智能培训、全链路UI/UE设计培训、物联网+嵌入式培训、360网络安全、大数据+人工智能培训、全栈软件测试培训、PHP全栈+服务器集群培训、云计算+信息安全培训、Unity游戏开发培训、区块链、红帽RHCE认证、好程序员

       武汉大数据开发面试题总结

分享到:
免责声明
1)本信息由“北京千锋互联科技有限公司”发布,由“北京千锋互联科技有限公司”负责信息的合法性;
2)本站平台目的在于分享更多信息,不代表本站的观点和立场;信息仅供参考,不构成投资及交易建议。投资者据此操作,风险自担。
3)本信息如有侵权请将此链接发邮件至517763949@qq.com,本站将及时处理并回复。
4)《新著作权法草案》第六十九条规定:网络服务提供者为网络用户提供存储、搜索或者链接等单纯网络技术服务时,不承担与著作权或相关权有关的信息审查义务。网络用户利用网络服务实施侵犯著作权或者相关权行为的,被侵权人可以书面通知网络服务提供者,要求其采取删除、屏蔽、断开链接等必要措施。