Cách tiếp cận mới trong việc huấn luyện mô hình ngôn ngữ lớn mà không vi phạm bản quyền

Ngày nay, việc huấn luyện mô hình ngôn ngữ lớn mà không sử dụng tài liệu bản quyền đã trở thành một vấn đề nổi lên trong ngành trí tuệ nhân tạo. Tuy nhiên, những tiến bộ gần đây cho thấy điều ngược lại. Một nhóm các nhà nghiên cứu người Pháp, được chính phủ hỗ trợ, đã phát hành một tập dữ liệu đột phá về huấn luyện trí tuệ nhân tạo, bao gồm toàn bộ văn bản trong miền công cộng. Thêm vào đó, tổ chức phi lợi nhuận Fairly Trained đã trao chứng chỉ đầu tiên của mình cho một mô hình ngôn ngữ lớn được xây dựng mà không vi phạm bản quyền. Những tiến bộ này đặt ra thách thức cho quy ước gây tranh cãi của ngành trí tuệ nhân tạo trong việc sử dụng tài liệu bản quyền mà không có sự cho phép.

Fairly Trained, do CEO Ed Newton-Rex thành lập vào năm 2024, cung cấp chứng chỉ cho các công ty có thể chứng minh mô hình trí tuệ nhân tạo của họ đã được huấn luyện bằng dữ liệu mà họ sở hữu, được cấp phép hoặc thuộc miền công cộng. Hôm nay, tổ chức này đã thông báo về mô hình ngôn ngữ đạt chứng chỉ đầu tiên của mình, tên là KL3M, do công ty khởi nghiệp 273 Ventures có trụ sở tại Chicago phát triển. KL3M được huấn luyện bằng bộ dữ liệu được tạo ra từ các tài liệu pháp lý, tài chính và quy định. Phương pháp này được triển khai bởi 273 Ventures để phù hợp với sự thận trọng của các khách hàng đối với nguy cơ bị kiện cáo liên quan đến quyền sở hữu trí tuệ.

Theo Jillian Bommarito, cộng sự sáng lập của 273 Ventures, KL3M đã hoạt động tốt hơn dự kiến nhờ quy trình xem xét kỹ lưỡng được áp dụng cho tập dữ liệu huấn luyện. Mặc dù tập dữ liệu này nhỏ hơn đáng kể so với những bộ dữ liệu được biên soạn bởi các tổ chức như OpenAI, tuy nhiên chất lượng và đặc thù của nó đã mang lại lợi thế.

Song song với điều này, nhóm các nhà nghiên cứu đã phát hành bộ dữ liệu “Common Corpus”, một bộ dữ liệu rộng lớn cho mô hình ngôn ngữ trí tuệ nhân tạo, bao gồm toàn bộ nội dung thuộc miền công cộng. Bộ dữ liệu này có kích thước tương đương với dữ liệu được sử dụng để huấn luyện mô hình GPT-3 của OpenAI và nhằm cung cấp một tập dữ liệu huấn luyện đã qua xem xét mà không phải lo lắng về việc vi phạm bản quyền. Mặc dù nó có thể không bao gồm các sự kiện và ngôn ngữ hiện đại, nhưng đây là một nguồn tài nguyên quý giá để huấn luyện các mô hình ngôn ngữ lớn một cách đạo đức.

Các cách tiếp cận mới này, mặc dù chưa phổ biến, có tiềm năng thay đổi ngành trí tuệ nhân tạo bằng cách khuyến khích việc sử dụng dữ liệu một cách đạo đức và công bằng hơn. Các sáng kiến như Fairly Trained và Common Corpus phản ánh sự hoài nghi ngày càng tăng trong cộng đồng nghiên cứu và chuyên gia trí tuệ nhân tạo liên quan đến việc giải thích sự hợp lý cho việc thu thập dữ liệu rộng rãi mà không có sự cho phép. Bằng cách khuyến khích các phương pháp thay thế, ngành trí tuệ nhân tạo có thể tiến triển một cách tôn trọng luật bản quyền và đảm bảo sự công bằng đối với các nghệ sĩ và nhà sản xuất nội dung.

FAQ:

Q: What is Fairly Trained?
A: Fairly Trained is an organization that offers certification to companies with AI models trained on data they own, have licensed, or is in the public domain.

Q: What is KL3M?
A: KL3M is a language model developed by 273 Ventures, a Chicago-based startup, and it is the first certified model by Fairly Trained.

Q: What is the Common Corpus?
A: The Common Corpus is an extensive AI dataset for language models that consists entirely of public domain content. It provides a vetted training set without copyright infringement concerns.

Q: How do these new approaches benefit the AI industry?
A: These new approaches promote an ethical and fair use of data, ensuring compliance with copyright laws and fair compensation for artists and content creators.

Sources:
– Fairly Trained: fairlytrained.com
– 273 Ventures: 273ventures.com

Trả lời Hủy