← Quay lại đề gốc NC17

Phòng thi THPT Tin học - Mã đề NC17

Thời gian còn lại
50:00
Tiến độ trả lời
0/40
Phần I
Câu 1

Kỹ thuật “Reinforcement Learning from Human Feedback” (RLHF) thường được dùng trong huấn luyện mô hình nào?

TechBoost - Học lập trình 1:1 online với giảng viên chuyên môn