Mapreduce là gì

     

MapReduce vào Hadoop là gì?

MapReduce là 1 trong những khuôn khổ ứng dụng và quy mô lập trình được áp dụng để cách xử lý một lượng phệ dữ liệu. Công tác MapReduce vận động trong nhì giai đoạn, kia là map và reduce. Các tác vụ Map giải quyết việc chia nhỏ dại và ánh xạ dữ liệu trong lúc reduce tác vụ xáo trộn và reduce dữ liệu.

Bạn đang xem: Mapreduce là gì

Hadoop có tác dụng chạy những chương trình MapReduce được viết bởi nhiều ngữ điệu khác nhau: Java, Ruby, Python và C ++. Những chương trình của bản đồ Reduce trong điện toán đám mây bao gồm tính chất song song, vì vậy rất có ích để triển khai phân tích tài liệu quy mô lớn sử dụng nhiều vật dụng trong cụm.

Đầu vào cho mỗi pha là các cặp key-value . Ngoài ra, đầy đủ lập trình viên cần xác định hai chức năng: map function với reduce function

Giải thích cụ thể về phong cách thiết kế MapReduce trong tài liệu lớn

Toàn bộ quá trình trải qua bốn giai đoạn thực hiện là phân tách tách, ánh xạ, xáo trộn cùng reduce bớt.

Bây giờ đồng hồ trong lí giải MapReduce này, họ hãy phát âm với một ví dụ như về MapReduce–

Hãy coi xét chúng ta có tài liệu đầu vào sau cho Chương trình MapReduce vào Big Data

Chào mừng chúng ta đến với Hadoop Lớp

Hadoop tốt

Hadoop xấu

*

Kiến trúc MapReduce

Kết quả ở đầu cuối của tác vụ MapReduce là

bad1
Class1
good1
Hadoop3
is2
to1
Welcome1

Dữ liệu trải qua những giai đoạn sau của MapReduce trong tài liệu lớn

Tách đầu vào:

Đầu vào đến một quá trình MapReduce trong dữ liệu lớn được tạo thành các phần gồm kích thước cố định và thắt chặt được hotline là phần bóc tách đầu vào Phần phân tách đầu vào là 1 phần của nguồn vào được áp dụng bởi một Map

Lập Map

Đây là giai đoạn thứ nhất trong quy trình thực hiện chương trình thu nhỏ dại Map. Trong tiến trình này, dữ liệu trong những lần bóc tách được chuyển cho một hàm ánh xạ để tạo nên các quý giá đầu ra. Trong ví dụ của chúng tôi, quá trình của quy trình tiến độ ánh xạ là đếm một số trong những lần lộ diện của từng từ từ những phần bóc tách đầu vào (chi tiết hơn về phần tách bóc đầu vào được gửi ra bên dưới) và chuẩn bị một danh sách ở dạng

Xáo trộn

Giai đoạn này tiêu thụ cổng output của tiến trình Ánh xạ. Trách nhiệm của nó là hợp duy nhất các bạn dạng ghi tất cả liên quan từ trên đầu ra của giai đoạn Lập Map. Trong lấy ví dụ của bọn chúng tôi, các từ giống nhau được ghép lại với nhau cùng với gia tốc tương ứng của chúng.

Xem thêm: Top 6 Điện Thoại Nắp Gập Đẹp Nhất, Điện Thoại Nắp Gập Mới Nhất

reduce

Trong quy trình tiến độ này, những giá trị cổng output từ quá trình Ngẫu nhiên được tổng hợp. Quy trình tiến độ này phối hợp các quý hiếm từ quy trình tiến độ xáo trộn với trả về một giá trị cổng output duy nhất. Tóm lại, quy trình tiến độ này tóm tắt tổng thể tập dữ liệu.

Trong lấy một ví dụ của bọn chúng tôi, quy trình tiến độ này tổng hợp những giá trị từ tiến trình Xáo trộn, tức là, đo lường và tính toán tổng số lần mở ra của mỗi từ.

MapReduce Architecture phân tích và lý giải chi tiết

Một tác vụ bản đồ được tạo cho mỗi phần tách, tiếp nối thực thi tính năng Map cho mỗi bản ghi trong phần tách.Luôn luôn hữu dụng khi có nhiều phần tách bóc vì thời hạn cần để xử lý 1 phần nhỏ hơn so với thời gian thực hiện để xử lý cục bộ đầu vào. Khi những phần tách nhỏ tuổi hơn, quá trình xử lý sẽ xuất sắc hơn để cân đối tải vì công ty chúng tôi đang xử lý các phần tách song song.Tuy nhiên, cũng tránh việc mong mong mỏi có các vết chia có kích cỡ quá nhỏ. Khi những phần tách quá nhỏ, sự quá thiết lập của việc làm chủ các phần tách và sinh sản tác vụ Map ban đầu chi phối tổng thời gian thực hiện công việc.Đối với phần đông các công việc, tốt hơn đề xuất tạo size chia nhỏ dại bằng size của khối HDFS (theo khoác định là 64 MB).Việc thực thi các tác vụ bản đồ dẫn tới việc ghi áp sạc ra vào đĩa cục bộ trên nút tương ứng chứ chưa hẳn HDFS.Lý bởi vì chọn đĩa tổng thể trên HDFS là để tránh xào luộc diễn ra vào trường hợp hoạt động của cửa sản phẩm HDFS.Đầu ra maps là đầu ra output trung gian được xử lý bằng các tác vụ reduce để tạo thành đầu ra cuối cùng.Khi các bước hoàn thành, áp sạc ra Map hoàn toàn có thể bị vứt bỏ. Bởi vì vậy, tàng trữ nó trong HDFS cùng với sự xào luộc trở nên trên mức cho phép cần thiết.Trong trường hòa hợp nút bị lỗi, trước lúc tác vụ thu gọn sử dụng đầu ra Map, Hadoop sẽ chạy lại nhiệm vụ bản đồ trên một nút khác và chế tạo lại cổng đầu ra Map.Tác vụ reduce không chuyển động trên có mang địa phương dữ liệu. Đầu ra của đông đảo tác vụ bản đồ được cấp cho cho tác vụ thu gọn. Đầu ra bản đồ được chuyển mang lại máy khu vực tác vụ reduce sẽ chạy.Trên thiết bị này, đầu ra output được hợp tốt nhất và tiếp nối được chuyển cho hàm reduce do người tiêu dùng xác định.Không giống như đầu ra Map, áp sạc ra reduce được tàng trữ trong HDFS (bản sao đầu tiên được lưu trữ trên nút toàn cục và các bạn dạng sao không giống được lưu trữ trên các nút ngoài giá đỡ). Vày vậy, viết reduce sản lượng

MapReduce tổ chức chuyển động như chũm nào?

Bây giờ đồng hồ trong trả lời MapReduce này, chúng ta sẽ khám phá cách buổi giao lưu của MapReduce

Hadoop chia các bước thành các nhiệm vụ. Tất cả hai loại nhiệm vụ:

Map (Tách và Lập Map)reduce (xáo trộn, reduce)

như sẽ đề cập sống trên.

Xem thêm: Những Loại Kính Cường Lực Loại Nào Tốt Nhất Hiện Nay? Lựa Chọn Loại Kính Đẹp Và Tiện Lợi

Quá trình thực thi hoàn chỉnh (thực hiện những tác vụ bản đồ và Rút gọn, cả hai) được kiểm soát điều hành bởi hai một số loại thực thể được điện thoại tư vấn là

Jobtracker : hoạt động như một master (chịu trách nhiệm triển khai hoàn chỉnh các bước đã nộp)Nhiều Trình quan sát và theo dõi Nhiệm vụ : hành vi như slave, mọi cá nhân trong số chúng ta thực hiện quá trình

Đối với mỗi các bước được nhờ cất hộ để xúc tiến trong hệ thống, tất cả một Trình quan sát và theo dõi công việc nằm bên trên Namenode và bao gồm nhiều trình theo dõi tác vụ nằm ở Datanode .

*

Cách buổi giao lưu của Hadoop MapReduce

Một quá trình được phân thành nhiều nhiệm vụ tiếp nối được chạy trên các nút dữ liệu trong một cụm.Người theo dõi quá trình có nhiệm vụ điều phối hoạt động bằng phương pháp lên lịch cho các tác vụ chạy trên những nút dữ liệu khác nhau.Việc thực thi nhiệm vụ riêng lẻ tiếp đến được theo dõi vày trình theo dõi tác vụ, ở trên hầu hết nút dữ liệu đang thực thi một phần của công việc.Trách nhiệm của trình theo dõi công việc là gửi báo cáo tiến độ mang lại trình quan sát và theo dõi công việc.Ngoài ra, trình theo dõi trách nhiệm định kỳ gửi dấu hiệu heartbea cho Trình theo dõi quá trình để thông tin cho anh ta về trạng thái bây giờ của hệ thống.Do đó, trình theo dõi các bước theo dõi tiến độ toàn diện của từng công việc. Trong trường hợp trọng trách bị lỗi, trình theo dõi quá trình có thể lên lịch lại trên một trình theo dõi nhiệm vụ khác.