當(dāng)前位置：首頁(yè) > 結(jié)構(gòu)工程師 > 正文

計(jì)算機(jī)四級(jí)網(wǎng)絡(luò)工程師試題結(jié)構(gòu),計(jì)算機(jī)四級(jí)網(wǎng)絡(luò)工程師考試題型

　　公司A：

　　1.講講你做的過(guò)的項(xiàng)目。項(xiàng)目里有哪些難點(diǎn)重點(diǎn)注意點(diǎn)呢？

　　2.講講多線程吧，要是你，你怎么實(shí)現(xiàn)一個(gè)線程池呢？

　　3.講一下Mapreduce或者h(yuǎn)dfs的原理和機(jī)制。map讀取數(shù)據(jù)分片。

　　4.shuffle 是什么？怎么調(diào)優(yōu)？

　　5.項(xiàng)目用什么語(yǔ)言寫？ Scala？ Scala的特點(diǎn)？和Java的區(qū)別？

　　6.理論基礎(chǔ)怎么樣，比如數(shù)據(jù)結(jié)構(gòu)，里面的快速排序，或者，樹？講一講你了解的樹的知識(shí)？

　　7.數(shù)學(xué)怎么樣呢？

　　8.講一下數(shù)據(jù)庫(kù)，SQl ，左外連接，原理，實(shí)現(xiàn)？

　　9.還了解過(guò)數(shù)據(jù)的什么知識(shí)？數(shù)據(jù)庫(kù)引擎？

　　10.Hadoop的機(jī)架怎么配置的？

　　11.Hbase的設(shè)計(jì)有什么心得？

　　12.Hbase的操作是用的什么API還是什么工具？

　　13.對(duì)調(diào)度怎么理解.? 用什么工具嗎？

　　14.用kettle 這種工具還是自己寫程序？你們公司是怎么做的？

　　15.你們數(shù)據(jù)中心開發(fā)周期是多長(zhǎng)？

　　16.你們hbase里面是存一些什么數(shù)據(jù)。

　　二面。三個(gè)人。

　　1.講講你做的項(xiàng)目。

　　2.平時(shí) 對(duì)多線程這方面是怎么處理呢？異步是怎么思考呢？遇到的一些鎖啊，是怎么做的呢？比如兩個(gè)人同時(shí)操作一樣?xùn)|西。怎么做的呢？一些并發(fā)操作設(shè)計(jì)到一些變量怎么做的呢？

　　3.你們用的最多是 http協(xié)議吧？有沒有特殊的頭呢？講講你對(duì)tcp/ip的理解？

計(jì)算機(jī)四級(jí)網(wǎng)絡(luò)工程師試題結(jié)構(gòu),計(jì)算機(jī)四級(jí)網(wǎng)絡(luò)工程師考試題型第1張

　　4.有沒有用過(guò)Zookeeper呢？ Zookeeper的適用場(chǎng)景是什么？ HA 狀態(tài)維護(hù) 分布式鎖全局配置文件管理操作Zookeeper是用的什么？

　　Spark方面：

　　5.spark開發(fā)分兩個(gè)方面？哪兩個(gè)方面呢？

　　6.比如一個(gè)讀取hdfs上的文件，然后count有多少行的操作，你可以說(shuō)說(shuō)過(guò)程嗎。那這個(gè)count是在內(nèi)存中，還是磁盤中計(jì)算的呢？磁盤中。

　　7.spark和Mapreduce快？為什么快呢？快在哪里呢？ 1.內(nèi)存迭代。2.RDD設(shè)計(jì)。 3,算子的設(shè)計(jì)。

　　8.spark sql又為什么比hive快呢？

　　10.RDD的數(shù)據(jù)結(jié)構(gòu)是怎么樣的？ Partition數(shù)組。 dependence

　　11.hadoop的生態(tài)呢。說(shuō)說(shuō)你的認(rèn)識(shí)。 hdfs底層存儲(chǔ) hbase 數(shù)據(jù)庫(kù) hive數(shù)據(jù)倉(cāng)庫(kù) Zookeeper分布式鎖 spark大數(shù)據(jù)分析

　　公司B：

　　1.Spark工作的一個(gè)流程。

　　提交任務(wù)。

　　QQ圖片20161019131411.png

　　用戶提交一個(gè)任務(wù)。入口是從sc開始的。 sc會(huì)去創(chuàng)建一個(gè)taskScheduler。根據(jù)不同的提交模式，會(huì)根據(jù)相應(yīng)的taskchedulerImpl進(jìn)行任務(wù)調(diào)度。

　　同時(shí)會(huì)去創(chuàng)建Scheduler和DAGScheduler。DAGScheduler 會(huì)根據(jù)RDD的寬依賴或者窄依賴，進(jìn)行階段的劃分。劃分好后放入taskset中，交給taskscheduler 。

　　appclient會(huì)到master上注冊(cè)。首先會(huì)去判斷數(shù)據(jù)本地化，盡量選最好的本地化模式去執(zhí)行。

　　打散 Executor選擇相應(yīng)的Executor去執(zhí)行。ExecutorRunner會(huì)去創(chuàng)建CoarseGrainerExecutorBackend進(jìn)程。通過(guò)線程池的方式去執(zhí)行任務(wù)。

　　反向：

　　Executor向 SchedulerBackend反向注冊(cè)

　　Spark On Yarn模式下。 driver負(fù)責(zé)計(jì)算調(diào)度。appmaster 負(fù)責(zé)資源的申請(qǐng)。

　　2.Hbase的PUT的一個(gè)過(guò)程。

　　3.RDD算子里操作一個(gè)外部map比如往里面put數(shù)據(jù)。然后算子外再遍歷map。有什么問(wèn)題嗎。

　　4.shuffle的過(guò)程。調(diào)優(yōu)。

　　5.5個(gè)partition里面分布有12345678910.用算子求最大值或者和。不能用廣播變量和累加器。或者sortbykey.

　　6.大表和小表join.

　　7.知道spark怎么讀hbase嗎？spark on hbase.。華為的。

　　8.做過(guò)hbase的二級(jí)索引嗎？

　　9.sort shuffle的優(yōu)點(diǎn)？

　　10.stage怎么劃分的？寬依賴窄依賴是什么？

　　公司W(wǎng)：

　　1.講講你做過(guò)的項(xiàng)目(一個(gè)整體思路)

　　2.問(wèn)問(wèn)大概情況。公司里集群規(guī)模。hbase數(shù)據(jù)量。數(shù)據(jù)規(guī)模。

　　3.然后挑選數(shù)據(jù)工廠開始詳細(xì)問(wèn)。問(wèn)hbase.。加閑聊。

　　4.問(wèn)二次排序是什么。topn是什么。二次排序要繼承什么接口？

　　5.計(jì)算的數(shù)據(jù)怎么來(lái)的。

　　6.kakfadirect是什么，。為什么要用這個(gè)，有什么優(yōu)點(diǎn)？。和其他的有什么區(qū)別。

計(jì)算機(jī)四級(jí)網(wǎng)絡(luò)工程師試題結(jié)構(gòu),計(jì)算機(jī)四級(jí)網(wǎng)絡(luò)工程師考試題型第2張

　　/**

　　* Create an input stream that directly pulls messages from Kafka Brokers

　　* without using any receiver. This stream can guarantee that each message

　　* from Kafka is included in transformations exactly once (see points below).

　　* Points to note:

　　* - No receivers: This stream does not use any receiver. It directly queries Kafka

　　* - Offsets: This does not use Zookeeper to store offsets. The consumed offsets are tracked

　　* by the stream itself. For interoperability with Kafka monitoring tools that depend on

　　* Zookeeper, you have to update Kafka/Zookeeper yourself from the streaming application.

　　* You can access the offsets used in each batch from the generated RDDs (see

　　* [[org.apache.spark.streaming.kafka.HasOffsetRanges]]).

　　* - Failure Recovery: To recover from driver failures, you have to enable checkpointing

　　* in the [[StreamingContext]]. The information on consumed offset can be

　　* recovered from the checkpoint. See the programming guide for details (constraints, etc.).

　　* - End-to-end semantics: This stream ensures that every records is effectively received and

　　* transformed exactly once, but gives no guarantees on whether the transformed data are

　　* outputted exactly once. For end-to-end exactly-once semantics, you have to either ensure

　　* that the output operation is idempotent, or use transactions to output records atomically.

　　* See the programming guide for more details.

　　* @param ssc StreamingContext object

　　* @param kafkaParams Kafka * configuration parameters. Requires "metadata.broker.list" or "bootstrap.servers"

　　* to be set with Kafka broker(s) (NOT zookeeper servers) specified in

　　* host1:port1,host2:port2 form.

　　* @param fromOffsets Per-topic/partition Kafka offsets defining the (inclusive)

　　* starting point of the stream

　　* @param messageHandler Function for translating each message and metadata into the desired type

　　7.問(wèn)了shuffle過(guò)程。

　　8.怎么調(diào)優(yōu)的，jvm怎么調(diào)優(yōu)的？

　　9.jvm結(jié)構(gòu)？堆里面幾個(gè)區(qū)？

　　10.數(shù)據(jù)清洗怎么做的？

　　11.怎么用spark做數(shù)據(jù)清洗

　　12.跟我聊了spark的應(yīng)用，商場(chǎng)里廣告投放，以及黃牛檢測(cè)

　　13.spark讀取數(shù)據(jù)，是幾個(gè)Partition呢？ hdfs幾個(gè)block 就有幾個(gè) Partition？

　　14.spark on yarn的兩種模式? client 模式？和cluster模式？

　　15.jdbc？mysql的驅(qū)動(dòng)包名字叫什么？

　　16.region多大會(huì)分區(qū)？

　　公司Q

　　1.說(shuō)說(shuō)Mapreduce？一整個(gè)過(guò)程的理解。講一下。

　　2.hbase存數(shù)據(jù)用什么rowkey？加時(shí)間戳的話，會(huì)不會(huì)出現(xiàn)時(shí)間戳重復(fù)的問(wèn)題，怎么做的呢？

　　3.Spring的兩大模塊？ AOP，IOC在你們項(xiàng)目中分別是怎么用的呢？

　　4.你們集群的規(guī)模，數(shù)據(jù)量？

　　公司M

　　1.畫圖，畫Spark的工作模式，部署分布架構(gòu)圖

　　2.畫圖，畫圖講解spark工作流程。以及在集群上和各個(gè)角色的對(duì)應(yīng)關(guān)系。

　　3.java自帶有哪幾種線程池。

　　4.數(shù)據(jù)是怎么收集的。 kafka收集數(shù)據(jù)的原理？

　　5.畫圖，講講shuffle的過(guò)程。那你怎么在編程的時(shí)候注意避免這些性能問(wèn)題。

　　6.講講列式存儲(chǔ)的 parquet文件底層格式。

　　7.dataset和dataframe？

　　8.通過(guò)什么方式學(xué)習(xí)spark的？

　　9.有哪些數(shù)據(jù)傾斜，怎么解決？

　　10.寬依賴窄依賴？

　　11.yarn的原理？

　　12.BlockManager怎么管理硬盤和內(nèi)存的。

　　13.哪些算子操作涉及到shuffle

　　14.看過(guò)源碼？你熟悉哪幾個(gè)部分的源碼？

　　15.集群上 nodemanager和ResourceManager的數(shù)量關(guān)系？

　　16.spark怎么整合hive？大概這樣。 spark on hive 。 hive還是hive 執(zhí)行引擎是spark。

　　其他人的：

　　1.Spark如何處理結(jié)構(gòu)化數(shù)據(jù)，Spark如何處理非結(jié)構(gòu)話數(shù)據(jù)？

　　2.Spark性能優(yōu)化主要有哪些手段？

　　3.簡(jiǎn)要描述Spark分布式集群搭建的步驟

　　4.對(duì)于Spark你覺得他對(duì)于現(xiàn)有大數(shù)據(jù)的現(xiàn)狀的優(yōu)勢(shì)和劣勢(shì)在哪里？

　　5.對(duì)于算法是否進(jìn)行過(guò)自主的研究設(shè)計(jì)？

　　6.簡(jiǎn)要描述你了解的一些數(shù)據(jù)挖掘算法與內(nèi)容基本我有印象的就這幾個(gè)問(wèn)題，聊了2個(gè)多小時(shí)，腦子都差點(diǎn)被問(wèn)干了

　　圖文來(lái)自網(wǎng)絡(luò)、如涉及版權(quán)問(wèn)題，請(qǐng)聯(lián)系我們以便處理。文章內(nèi)容純屬作者個(gè)人觀點(diǎn)，不代表本網(wǎng)觀點(diǎn)。

免責(zé)聲明：本站提供的任何內(nèi)容版權(quán)均屬于相關(guān)版權(quán)人和權(quán)利人，如有侵犯你的版權(quán)。請(qǐng)來(lái)信指出，我們將于第一時(shí)間刪除！所有資源均由免費(fèi)公共網(wǎng)絡(luò)整理而來(lái)，僅供學(xué)習(xí)和研究使用。請(qǐng)勿公開發(fā)表或用于商業(yè)用途和盈利用途。
本文鏈接：http://www.586858.cn/jiegou/31294.html