計(jì)算機(jī)四級(jí)網(wǎng)絡(luò)工程師試題結(jié)構(gòu),計(jì)算機(jī)四級(jí)網(wǎng)絡(luò)工程師考試題型
建造師
- 結(jié)構(gòu)工程師
- 2025-03-04
- 63
公司A:
1.講講你做的過(guò)的項(xiàng)目。 項(xiàng)目里有哪些 難點(diǎn)重點(diǎn)注意點(diǎn)呢?
2.講講多線程吧, 要是你,你怎么實(shí)現(xiàn)一個(gè)線程池呢?
3.講一下Mapreduce或者h(yuǎn)dfs的原理和機(jī)制。map讀取數(shù)據(jù)分片。
4.shuffle 是什么? 怎么調(diào)優(yōu)?
5.項(xiàng)目用什么語(yǔ)言寫? Scala? Scala的特點(diǎn)? 和Java的區(qū)別?
6.理論基礎(chǔ)怎么樣,比如數(shù)據(jù)結(jié)構(gòu),里面的快速排序,或者,樹? 講一講你了解的樹的知識(shí)?
7.數(shù)學(xué)怎么樣呢?
8.講一下數(shù)據(jù)庫(kù),SQl ,左外連接, 原理,實(shí)現(xiàn)?
9.還了解過(guò)數(shù)據(jù)的什么知識(shí)? 數(shù)據(jù)庫(kù)引擎?
10.Hadoop的機(jī)架怎么配置的?
11.Hbase的設(shè)計(jì)有什么心得?
12.Hbase的操作是用的什么API還是什么工具?
13.對(duì)調(diào)度怎么理解.? 用什么工具嗎?
14.用kettle 這種工具還是 自己寫程序? 你們公司是怎么做的?
15.你們數(shù)據(jù)中心開發(fā)周期是多長(zhǎng)?
16.你們hbase里面是存一些什么數(shù)據(jù)。
二面。三個(gè)人。
1.講講你做的項(xiàng)目。
2.平時(shí) 對(duì)多線程 這方面是怎么處理呢? 異步 是怎么思考呢? 遇到的一些鎖啊, 是怎么做的呢? 比如兩個(gè)人同時(shí)操作一樣?xùn)|西。怎么做的呢?一些并發(fā)操作設(shè)計(jì)到一些變量怎么做的呢?
3.你們用的最多是 http協(xié)議吧? 有沒有特殊的頭呢? 講講 你對(duì)tcp/ip的理解?
4.有沒有用過(guò)Zookeeper呢? Zookeeper的適用場(chǎng)景是什么? HA 狀態(tài)維護(hù) 分布式鎖 全局配置文件管理 操作Zookeeper是用的什么?
Spark方面:
5.spark開發(fā)分兩個(gè)方面?哪兩個(gè)方面呢?
6.比如 一個(gè)讀取hdfs上的文件,然后count有多少行的操作,你可以說(shuō)說(shuō)過(guò)程嗎。那這個(gè)count是在內(nèi)存中,還是磁盤中計(jì)算的呢?磁盤中。
7.spark和Mapreduce快? 為什么快呢? 快在哪里呢? 1.內(nèi)存迭代。2.RDD設(shè)計(jì)。 3,算子的設(shè)計(jì)。
8.spark sql又為什么比hive快呢?
10.RDD的數(shù)據(jù)結(jié)構(gòu)是怎么樣的? Partition數(shù)組。 dependence
11.hadoop的生態(tài)呢。說(shuō)說(shuō)你的認(rèn)識(shí)。 hdfs底層存儲(chǔ) hbase 數(shù)據(jù)庫(kù) hive數(shù)據(jù)倉(cāng)庫(kù) Zookeeper分布式鎖 spark大數(shù)據(jù)分析
公司B:
1.Spark工作的一個(gè)流程。
提交任務(wù)。
QQ圖片20161019131411.png
用戶提交一個(gè)任務(wù)。 入口是從sc開始的。 sc會(huì)去創(chuàng)建一個(gè)taskScheduler。根據(jù)不同的提交模式, 會(huì)根據(jù)相應(yīng)的taskchedulerImpl進(jìn)行任務(wù)調(diào)度。
同時(shí)會(huì)去創(chuàng)建Scheduler和DAGScheduler。DAGScheduler 會(huì)根據(jù)RDD的寬依賴或者窄依賴,進(jìn)行階段的劃分。劃分好后放入taskset中,交給taskscheduler 。
appclient會(huì)到master上注冊(cè)。首先會(huì)去判斷數(shù)據(jù)本地化,盡量選最好的本地化模式去執(zhí)行。
打散 Executor選擇相應(yīng)的Executor去執(zhí)行。ExecutorRunner會(huì)去創(chuàng)建CoarseGrainerExecutorBackend進(jìn)程。 通過(guò)線程池的方式去執(zhí)行任務(wù)。
反向:
Executor向 SchedulerBackend反向注冊(cè)
Spark On Yarn模式下。 driver負(fù)責(zé)計(jì)算調(diào)度。appmaster 負(fù)責(zé)資源的申請(qǐng)。
2.Hbase的PUT的一個(gè)過(guò)程。
3.RDD算子里操作一個(gè)外部map比如往里面put數(shù)據(jù)。然后算子外再遍歷map。有什么問(wèn)題嗎。
4.shuffle的過(guò)程。調(diào)優(yōu)。
5.5個(gè)partition里面分布有12345678910.用算子求最大值或者和。不能用廣播變量和累加器。或者sortbykey.
6.大表和小表join.
7.知道spark怎么讀hbase嗎?spark on hbase.。華為的。
8.做過(guò)hbase的二級(jí)索引嗎?
9.sort shuffle的優(yōu)點(diǎn)?
10.stage怎么劃分的? 寬依賴窄依賴是什么?
公司W(wǎng):
1.講講你做過(guò)的項(xiàng)目(一個(gè)整體思路)
2.問(wèn)問(wèn)大概情況。公司里集群規(guī)模。hbase數(shù)據(jù)量。數(shù)據(jù)規(guī)模。
3.然后挑選數(shù)據(jù)工廠開始詳細(xì)問(wèn)。問(wèn)hbase.。加閑聊。
4.問(wèn)二次排序是什么。topn是什么。二次排序要繼承什么接口?
5.計(jì)算的數(shù)據(jù)怎么來(lái)的。
6.kakfadirect是什么,。為什么要用這個(gè),有什么優(yōu)點(diǎn)?。和其他的有什么區(qū)別。
/**
* Create an input stream that directly pulls messages from Kafka Brokers
* without using any receiver. This stream can guarantee that each message
* from Kafka is included in transformations exactly once (see points below).
*
* Points to note:
* - No receivers: This stream does not use any receiver. It directly queries Kafka
* - Offsets: This does not use Zookeeper to store offsets. The consumed offsets are tracked
* by the stream itself. For interoperability with Kafka monitoring tools that depend on
* Zookeeper, you have to update Kafka/Zookeeper yourself from the streaming application.
* You can access the offsets used in each batch from the generated RDDs (see
* [[org.apache.spark.streaming.kafka.HasOffsetRanges]]).
* - Failure Recovery: To recover from driver failures, you have to enable checkpointing
* in the [[StreamingContext]]. The information on consumed offset can be
* recovered from the checkpoint. See the programming guide for details (constraints, etc.).
* - End-to-end semantics: This stream ensures that every records is effectively received and
* transformed exactly once, but gives no guarantees on whether the transformed data are
* outputted exactly once. For end-to-end exactly-once semantics, you have to either ensure
* that the output operation is idempotent, or use transactions to output records atomically.
* See the programming guide for more details.
*
* @param ssc StreamingContext object
* @param kafkaParams Kafka * configuration parameters. Requires "metadata.broker.list" or "bootstrap.servers"
* to be set with Kafka broker(s) (NOT zookeeper servers) specified in
* host1:port1,host2:port2 form.
* @param fromOffsets Per-topic/partition Kafka offsets defining the (inclusive)
* starting point of the stream
* @param messageHandler Function for translating each message and metadata into the desired type
*/
7.問(wèn)了shuffle過(guò)程。
8.怎么調(diào)優(yōu)的,jvm怎么調(diào)優(yōu)的?
9.jvm結(jié)構(gòu)?堆里面幾個(gè)區(qū)?
10.數(shù)據(jù)清洗怎么做的?
11.怎么用spark做數(shù)據(jù)清洗
12.跟我聊了spark的應(yīng)用,商場(chǎng)里廣告投放,以及黃牛檢測(cè)
13.spark讀取 數(shù)據(jù),是幾個(gè)Partition呢? hdfs幾個(gè)block 就有幾個(gè) Partition?
14.spark on yarn的兩種模式? client 模式? 和cluster模式?
15.jdbc?mysql的驅(qū)動(dòng)包名字叫什么?
16.region多大會(huì)分區(qū)?
公司Q
1.說(shuō)說(shuō)Mapreduce?一整個(gè)過(guò)程的理解。講一下。
2.hbase存數(shù)據(jù)用什么rowkey?加時(shí)間戳的話,會(huì)不會(huì)出現(xiàn)時(shí)間戳重復(fù)的問(wèn)題,怎么做的呢?
3.Spring的兩大模塊? AOP,IOC在你們項(xiàng)目中分別是怎么用的呢?
4.你們集群的規(guī)模, 數(shù)據(jù)量?
公司M
1.畫圖,畫Spark的工作模式,部署分布架構(gòu)圖
2.畫圖,畫圖講解spark工作流程。以及在集群上和各個(gè)角色的對(duì)應(yīng)關(guān)系。
3.java自帶有哪幾種線程池。
4.數(shù)據(jù)是怎么收集的。 kafka收集數(shù)據(jù)的原理?
5.畫圖,講講shuffle的過(guò)程。那你怎么在編程的時(shí)候注意避免這些性能問(wèn)題。
6.講講列式存儲(chǔ)的 parquet文件底層格式。
7.dataset和dataframe?
8.通過(guò)什么方式學(xué)習(xí)spark的?
9.有哪些數(shù)據(jù)傾斜,怎么解決?
10.寬依賴窄依賴?
11.yarn的原理?
12.BlockManager怎么管理硬盤和內(nèi)存的。
13.哪些算子操作涉及到shuffle
14.看過(guò)源碼? 你熟悉哪幾個(gè)部分的源碼?
15.集群上 nodemanager和ResourceManager的數(shù)量關(guān)系?
16.spark怎么整合hive? 大概這樣。 spark on hive 。 hive還是hive 執(zhí)行引擎是spark。
其他人的:
1.Spark如何處理結(jié)構(gòu)化數(shù)據(jù),Spark如何處理非結(jié)構(gòu)話數(shù)據(jù)?
2.Spark性能優(yōu)化主要有哪些手段?
3.簡(jiǎn)要描述Spark分布式集群搭建的步驟
4.對(duì)于Spark你覺得他對(duì)于現(xiàn)有大數(shù)據(jù)的現(xiàn)狀的優(yōu)勢(shì)和劣勢(shì)在哪里?
5.對(duì)于算法是否進(jìn)行過(guò)自主的研究設(shè)計(jì)?
6.簡(jiǎn)要描述你了解的一些數(shù)據(jù)挖掘算法與內(nèi)容 基本我有印象的就這幾個(gè)問(wèn)題,聊了2個(gè)多小時(shí),腦子都差點(diǎn)被問(wèn)干了
圖文來(lái)自網(wǎng)絡(luò)、如涉及版權(quán)問(wèn)題,請(qǐng)聯(lián)系我們以便處理。文章內(nèi)容純屬作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)。
免責(zé)聲明: 本站提供的任何內(nèi)容版權(quán)均屬于相關(guān)版權(quán)人和權(quán)利人,如有侵犯你的版權(quán)。 請(qǐng)來(lái)信指出,我們將于第一時(shí)間刪除! 所有資源均由免費(fèi)公共網(wǎng)絡(luò)整理而來(lái),僅供學(xué)習(xí)和研究使用。請(qǐng)勿公開發(fā)表或 用于商業(yè)用途和盈利用途。
本文鏈接:http://www.586858.cn/jiegou/31294.html
發(fā)表評(píng)論