You are here

Bagaimana Map/Reduce InputSplit menangani record boundaries dengan benar?

Penanganannya dilakukan oleh InputSplit dari RecordReader, dengan menjalankan dan menghentikan (start dan stop) di batas record. Tanda sinkronisasi ini memungkinkan RecordReader untuk melakukan seek ke awal InputSplit, yang menyimpan file, offset dan panjang, kemudian mencari tanda sync pertama sesudah awal split. RecordReader melanjutkan pemrosesan record sampai mencapai sync mark pertama sesudah end split. Split pertama dari setiap file dimulai tepat pada sync mark pertama, bukan sesudahnya. Hal ini memastikan bahwa setiap record akan diproses oleh tepat satu mapper. File teks diproses dengan cara yang sama, namun menggunakan newlines sebagai ganti sync marks.