Mekanisme pembersihan data Spark Streaming
(I) DStream lan RDD
Kaya sing dingerteni, komputasi Spark Streaming adhedhasar Spark Core, lan inti saka Spark Core yaiku RDD, mula Spark Streaming uga kudu ana gandhengane karo RDD.Nanging, Spark Streaming ora ngidini pangguna nggunakake RDD langsung, nanging abstrak sakumpulan konsep DStream, DStream lan RDD minangka hubungan inklusif, sampeyan bisa ngerti minangka pola dekorasi ing Jawa, yaiku, DStream minangka paningkatan RDD, nanging prilaku padha RDD.
DStream lan RDD loro-lorone duwe sawetara kahanan.
(1) duwe tumindak tranformasi sing padha, kayata peta, reduceByKey, lsp, nanging uga sawetara unik, kayata Window, mapWithStated, lsp.
(2) kabeh duwe tumindak Tindakan, kayata foreachRDD, count, etc.
Model pemrograman konsisten.
(B) Pambuka DStream ing Spark Streaming
DStream ngemot sawetara kelas.
(1) Kelas sumber data, kayata InputDStream, spesifik minangka DirectKafkaInputStream, lsp.
(2) Kelas konversi, biasane MappedDStream, ShuffledDStream
(3) kelas output, biasane kayata ForEachDStream
Saka ndhuwur, data saka wiwitan (input) nganti pungkasan (output) ditindakake dening sistem DStream, tegese pangguna biasane ora bisa langsung ngasilake lan ngapusi RDD, tegese DStream duwe kesempatan lan kewajiban kanggo dadi. tanggung jawab kanggo siklus urip RDDs.
Ing tembung liyane, Spark Streaming duwengresiki otomatisfungsi.
(iii) Proses generasi RDD ing Spark Streaming
Aliran urip RDD ing Spark Streaming kasar kaya ing ngisor iki.
(1) Ing InputDStream, data sing ditampa diowahi dadi RDD, kayata DirectKafkaInputStream, sing ngasilake KafkaRDD.
(2) banjur liwat MappedDStream lan konversi data liyane, wektu iki langsung disebut RDD cocog karo cara peta kanggo konversi
(3) Ing operasi kelas output, mung nalika RDD kapapar, sampeyan bisa ngidini pangguna nindakake panyimpenan sing cocog, petungan liyane, lan operasi liyane.