Chat GPT được đào tạo như thế nào?

cách chat GPT được đào tạo-768x435-718x.jpg

Nếu bạn quen thuộc với ChatGPT, bạn có thể đã nghe nói rằng nó được đào tạo trên một tập dữ liệu rộng lớn. Nhưng điều gì chính xác là điều này? Trong bài viết này, chúng tôi sẽ khám phá chi tiết về cách ChatGPT được đào tạo."

ChatGPT là một mô hình ngôn ngữ được tiền huấn luyện đã qua điều chỉnh thông qua sự kết hợp của các kỹ thuật học có giám sát và tăng cường. Quá trình đào tạo của ChatGPT bao gồm đưa vào mô hình một lượng lớn dữ liệu văn bản và điều chỉnh các tham số để nó có thể tạo ra văn bản tương tự với văn bản trong tập dữ liệu đào tạo.

Cách tiếp cận học không giám sát được sử dụng cho quá trình này, nghĩa là mô hình không được nhận phản hồi rõ ràng về việc văn bản được tạo ra có đúng hay không. Thay vào đó, mô hình điều chỉnh các thông số của mình dựa trên khả năng của văn bản được tạo ra tương tự với văn bản trong ngữ liệu đào tạo.

GPT-3, mô hình cha của  ChatGPT-3, là một trong những mô hình ngôn ngữ lớn nhất từng được tạo ra, với 175 tỉ tham số và ngữ cảnh dài 2048 mã thông báo. Nó được đào tạo trên hàng trăm tỉ từ từ Common Crawl, WebText2, Books1/2, Wikipedia bằng tiếng Anh và các ví dụ về mã trong CSS, JSX, Python và các ngôn ngữ lập trình khác.

Phương pháp huấn luyện được sử dụng cho GPT-3 là tiền huấn luyện sinh, có nghĩa là nó được đào tạo để dự đoán mã thông báo hoặc từ tiếp theo trong câu đầu vào.

Tốt nhất Chat GPT thay thế

Học có giám sát

Mô hình ChatGPT đã được điều chỉnh tinh chỉnh thông qua một quá trình học giám sát bởi các huấn luyện viên con người. Những người huấn luyện này đã tham gia vào các cuộc trò chuyện, đảm nhận cả vai trò của người dùng và trợ lý trí tuệ nhân tạo.

Họ đã nhận được các gợi ý từ mô hình để hướng dẫn họ trong việc soạn thảo câu trả lời của mình, sau đó được kết hợp với bộ dữ liệu InstructGPT đã được chuyển đổi thành định dạng đối thoại.

Học tăng cường

Mô hình được cải thiện thông qua học tăng cường bằng cách sử dụng Phương pháp tối ưu chính sách gần (PPO). Các huấn luyện viên con người đánh giá các phản hồi được tạo ra bởi mô hình từ cuộc trò chuyện trước đó và sử dụng các đánh giá đó để phát triển các mô hình thưởng. Sau đó, mô hình được điều chỉnh lại dựa trên các mô hình thưởng này.

Quá trình điều chỉnh tinh chỉnh đã được thực hiện nhiều lần để đạt được hiệu suất tốt hơn. Thuật toán PPO hiệu quả về chi phí so với các thuật toán khác và có hiệu suất nhanh hơn, làm cho chúng lý tưởng cho quá trình này.

OpenAI tiếp tục thu thập thông tin từ người dùng tương tác với ChatGPT, sau đó có thể được sử dụng để cải thiện và tinh chỉnh mô hình thêm nữa.

Người dùng có thể bình chọn cho các phản hồi của ChatGPT bằng cách upvote hoặc downvote, và họ cũng có cơ hội để cung cấp phản hồi thêm. Dữ liệu này được sử dụng để cải thiện hiệu suất của mô hình hơn nữa và làm cho nó tốt hơn trong việc tạo ra văn bản giống như con người.

Dữ liệu được sử dụng để huấn luyện mô hình

ChatGPT-3 là một mô hình ngôn ngữ được tinh chỉnh từ loạt GPT-3.5, được đào tạo bằng cơ sở hạ tầng siêu tính toán AI Azure. Nó được đào tạo trên một lượng lớn văn bản được thu thập từ internet, bao gồm sách, diễn đàn trò chuyện, bài báo, trang web, những báo cáo học thuật, mã và các nguồn khác.

Đối với việc đào tạo ChatGPT-3, nguồn dữ liệu văn bản được sử dụng là hơn 45 Terabyte, đây là một kích thước cực lớn và ảnh hưởng đến khả năng sinh văn bản tương tự như những gì mà một nhà báo hoặc tác giả có thể sản xuất ra.

Bài viết liên quan

Xem thêm >>