← Quay lại đề gốc NC17
Phòng thi THPT Tin học - Mã đề NC17
Thời gian còn lại
50:00
Tiến độ trả lời
0/40
Phần I
Câu 1
Kỹ thuật “Reinforcement Learning from Human Feedback” (RLHF) thường được dùng trong huấn luyện mô hình nào?
Kỹ thuật “Reinforcement Learning from Human Feedback” (RLHF) thường được dùng trong huấn luyện mô hình nào?