Trí tuệ nhân tạo và nỗi lo diệt vong của những ngôn ngữ thiểu số
Theo trang chủ của OpenAI, công ty chủ quản của ChatGPT, mỗi tháng có tới 180 triệu người trên thế giới đang sử dụng ChatGPT. Mỗi ngày, hàng tỷ cuộc hội thoại giữa người và máy đang được tạo ra. Nhưng trong hàng tỷ cuộc hội thoại đó, chúng ta thấy vắng bóng những ngôn ngữ thiểu số. Mỗi ngôn ngữ là niềm tự hào của một dân tộc. Nó không chỉ là phương tiện giao tiếp mà còn là kho báu văn hóa, chứa đựng những trí tuệ, tri thức và cảm xúc riêng biệt của mỗi cộng đồng. Nhưng, trong cuộc chơi của trí tuệ nhân tạo tạo sinh, nhiều ngôn ngữ đang đứng trước nguy cơ bị bỏ quên. Máy móc học cách "nói" và "nghe" qua những ngôn ngữ phổ thông. Trong khi đó, tiếng nói của những cộng đồng nhỏ bé, với những ngôn ngữ độc đáo lại chìm vào im lặng và có thể bị diệt vong.
Những mô hình ngôn ngữ lớn (LLM)
Trong rất nhiều nhánh nghiên cứu về trí tuệ nhân tạo, có một nhánh gọi là AI tạo sinh, và trong nhiều nhánh AI tạo sinh có một nhánh rất được thị trường quan tâm đó là các mô hình ngôn ngữ lớn (Large language model - LLM). Có thể giải thích ngắn gọn, mỗi mô hình ngôn ngữ lớn là một cỗ máy được sinh ra để đoán từ tiếp theo. Giống như kiểu bạn chơi gameshow Chiếc nón kì diệu vậy. MC sẽ đưa ra câu đố và số lượng chữ cái có trong đáp án, việc của bạn là đoán xem đáp án là gì.
Các cỗ máy rất thạo trò chơi ngôn ngữ này. Chúng sẽ sử dụng xác suất thống kê kết hợp với ngữ cảnh để đoán xem chữ cái nào có khả năng cao nhất trùng với đáp án. Ở cấp độ cao cấp thì sẽ là câu nào, đoạn văn nào, ý nào là hợp lý nhất để trả lời câu hỏi. Cũng giống như con người, các cỗ máy này sẽ cần có vốn từ, vốn kiến thức để có thể trả lời được các câu hỏi. Trong khoa học máy tính, người ta gọi đấy là dữ liệu (data).
Theo BBC Science Focus, cỗ máy GPT3 được đào tạo dựa trên 570 Gb dữ liệu văn bản đã được lọc sạch. Số văn bản này chứa khoảng 300 tỷ từ, tương đương khoảng 850 triệu trang văn bản in trên giấy A4, font chữ Arial cỡ chữ 12pt.
Những con số rất ấn tượng, tuy nhiên nguồn dữ liệu này vẫn chỉ là một phần rất nhỏ lấy ra từ kho thông tin của nhân loại. Chất lượng của kho thông tin này cũng không thể so sánh với các thư viện lớn trên thế giới, thậm chí có thể nói là vẫn lẫn lộn vô vàn những thứ tạp nham bên trong. Điều đáng nói, hơn 9/10 kho dữ liệu này đến từ các ngữ liệu tiếng Anh. Các ngôn ngữ khác như: tiếng Pháp, Đức, Tây Ban Nha và Ý chiếm hầu hết miếng bánh còn lại. Toàn bộ các ngôn ngữ khác trên thế giới chiếm một lát mỏng như lá lúa, gọi là cho có.
Những nguồn cấp dữ liệu chính cho ChatGPT
Điều này thể hiện ngay trong chất lượng của ChatGPT. Mô hình GPT 3.5 và 4 có thể trả lời rất trôi chảy bằng tiếng Anh, nhưng gặp nhiều lỗi rất ngô nghê khi dùng từ tiếng Việt, thường hay tạo ra những đoạn văn sáo rỗng và diễn đạt ngữ pháp lủng củng.
Tóm lại, càng nhiều dữ liệu chất lượng, các mô hình ngôn ngữ lớn sẽ càng đoán chuẩn hơn. Và ngược lại, càng ít dữ liệu, dữ liệu không tốt sẽ tạo ra những mô hình ngôn ngữ chất lượng thấp. Như dân công nghệ vẫn hay nói: đầu vào là rác thì đầu ra cũng là rác.
Chính vì vậy, dù cho có những công nghệ tối tân nhất chống lưng, các mô hình ngôn ngữ lớn vẫn chưa thể chạm tới sự phong phú của ngôn ngữ và văn hóa nhân loại.
Những ngôn ngữ “thoi thóp”
Theo chương trình Thập kỷ Quốc tế về ngôn ngữ bản địa của Unesco, trên thế giới có khoảng 7000 ngôn ngữ đang được sử dụng. Nhưng cứ mỗi hai tuần, nhân loại lại mất đi một ngôn ngữ. Tức là người cuối cùng sử dụng thành thạo ngôn ngữ đó đã chết hoặc mất khả năng giao tiếp. Theo dự đoán, đến cuối thế kỷ 21, chúng ta sẽ chứng kiến sự biến mất của khoảng 3000 ngôn ngữ.
Những ngôn ngữ còn thoi thóp sống hầu hết thuộc các dân tộc thiểu số bản địa. Muốn dành được những cơ hội phát triển, nhiều cộng đồng phải đánh đổi từ bỏ dần ngôn ngữ truyền thống để hòa vào các ngôn ngữ khác. Những ngôn ngữ phổ thông của các dân tộc giàu có hơn đã chiếm vai trò quá lớn trong kinh tế, chính trị, giáo dục và công nghệ.
Nếu bạn là một người thổ dân nói tiếng Naati trên một hòn đảo tại Nam Thái Bình Dương, bạn sẽ nói tiếng Trung Quốc cả ngày với khách du lịch, đọc báo bằng tiếng Anh, điền giấy kết hôn bằng tiếng Pháp, trao đổi với đồng nghiệp bằng tiếng Bilasma. Khi nào bạn nói tiếng Naati? Có lẽ là trong giấc mơ. Vì bạn là người cuối cùng còn nói thạo tiếng Naati.
Trong những trường hợp cực đoan hơn, giống như thổ dân Châu Mỹ cuối thế kỷ 19, chính quyền sở tại đã áp bức bằng bạo lực để bắt người dân từ bỏ ngôn ngữ của mình.
Các dân tộc bị mất ngôn ngữ sẽ mất đi cơ hội học hỏi từ tổ tiên. Họ phiêu dạt trong tâm lý thiếu đi bản sắc và nguồn gốc. Khi không nhận ra mình là ai, họ cũng không thể kết nối tới cộng đồng của mình. Cô độc trong thế giới ồn ào, những người này sẽ chịu cảm giác bất lực, buồn bã, mất mát và các nguy cơ vong bản (mất gốc).
Mỗi một ngôn ngữ mất đi, sự đa dạng về văn hóa, tri thức và sáng tạo của loài người lại khuyết đi một mảnh. Thiếu đi một ngôn ngữ, những góc nhìn của loài người sẽ đơn điệu hơn. Thiếu đi nhiều ngôn ngữ, góc nhìn của loài người sẽ trở nên thiên kiến và lệch lạc. Một vài dòng tư tưởng chính phổ biến trong các ngôn ngữ mạnh sẽ lên ngôi mà không gặp những phản biện xác đáng và cần thiết.
Những dữ liệu đã từng phổ biến bằng các thứ tiếng này sẽ càng được phổ biến hơn. Trong khi những dữ liệu khác, được thể hiện bằng các ngôn ngữ ít thấy sẽ biến mất dần, cho dù chúng cũng rất quý giá.
AI: sự mở rộng của những thiên kiến
Năm 2017, một cuộc điều tra nội bộ của tạp chí nổi tiếng National Geographic cho thấy, trước năm 1970 cách đưa tin của họ tràn ngập sự kỳ thị người da màu. Ra đời trong thời kì đỉnh cao của chủ nghĩa thực dân, tờ tạp chí này chịu ảnh hưởng nặng nề của tư tưởng phân biệt chủng tộc.
Những người da màu luôn được thể hiện trong trang phục thiếu vải, đặc biệt là phụ nữ. Họ được khắc họa theo góc nhìn kỳ quái, hoang dã, lạc hậu và thường trong trạng thái hào hứng, choáng ngợp trước những máy móc hiện đại của phương tây.
Nhà sử học nhiếp ảnh John Edwin Mason, người đã tham gia vào cuộc điều tra, đưa ra nhận định rằng: Người Mỹ đã lấy ý tưởng từ các bộ phim ăn khách như Tarzan và những bức tranh biếm họa thô thiển về phân biệt chủng tộc để phản ánh thế giới. Chúng ta cũng có thể nhận thấy những thiên kiến tương tự như vậy trong các bức ảnh người Pháp chụp Việt Nam đầu thế kỷ 20.
Tưởng rằng quá khứ đã khép lại, nhưng năm 2015, một bức ảnh có tên là Come up for air được đăng trên tạp chí lại thổi bùng lên tranh cãi. Bức ảnh đã thể hiện góc nhìn từ trên cao xuống một nóc nhà ở thành phố Varanasi của Ấn Độ. Trên nóc nhà đó là cả một gia đình hơn chục người bao gồm cả phụ nữ và trẻ em đang nằm ngủ. Có em bé hoàn toàn trần truồng.
Những người phản đối cho rằng, National Geographic đang sử dụng tiêu chuẩn kép. Nếu bức ảnh chụp một gia đình da trắng ở phương Tây, tờ tạp chí này sẽ không đăng tải. Họ sẽ bị kiện vì tội xâm phạm đời tư. Thế nhưng đây là Ấn Độ, khả năng kiện cáo xảy ra thấp hơn nhiều và không có gì phải ngại.
Trong “đại dương hoang dã Internet”, những dữ liệu thiên kiến như vậy nhiều như rác thải nhựa. Được "dạy dỗ" bằng hàng triệu văn bản thu thập từ trên mạng, các LLM không chỉ học được cách sử dụng ngôn ngữ mà còn hấp thụ cả những thiên kiến và thông tin không chính xác. Học gì thì nói nấy, AI có thể phát sinh ra những đáp án thiên vị, phân biệt đối xử nhất là khi nói về các vấn đề nhạy cảm như chủng tộc, tôn giáo, giới tính và chính trị.
Open AI cho biết họ luôn quan tâm đến những nhóm yếu thế và làm mọi cách ngăn chặn những tư tưởng độc hại, cố gắng tạo nên những trí tuệ nhân tạo không bị thiên lệch và phản ánh thế giới một cách có đạo đức. Nếu đây là sự thật thì sẽ là một nỗ lực đáng trân trọng và có ý nghĩa lớn đối với nhân loại trong giai đoạn hiện nay.
Nhưng những dịch vụ internet lớn cũng đều đã nói như vậy. Youtube, Tiktok, Instagram, Facebook... đều cho biết đã cố gắng để tạo ra môi trường lành mạnh. Kết quả thế nào thì người dùng cũng đã thấy. Như ca sĩ Đen Vâu nói trong ca khúc Trời hôm nay nhiều mây cực: “Ở trong rừng an toàn hơn ở trên mạng.”
Một cuộc khảo sát thực hiện tháng 1/2024 đăng trên arxiv.org có tên là Thousands of AI Authors on the Future of AI, đã đưa nhiều dự đoán thú vị về tương lai của AI. Ví dụ ít nhất 50% cơ hội là vào năm 2028, AI có thể tạo ra những bài hát y hệt các nghệ sĩ lớn, hoặc tự động xây dựng một trang web thanh toán từ a tới z. Đây là cuộc thăm dò ý kiến tiến hành trên 2778 nhà nghiên cứu về trí tuệ nhân tạo hàng đầu thế giới. Đây là một cuộc khảo sát tiến hành hằng năm. Và mỗi năm các nhà nghiên cứu lại đưa ra tiên đoán mới, sớm hơn và mạnh mẽ hơn về dấu mốc tương lai của AI. Tức là mọi việc phát triển còn nhanh hơn dự đoán của các chuyên gia.
Nếu dự đoán này đúng thì bất kì ai biết dùng AI cũng có thể là nhạc sĩ và nhà văn. Điều đó cũng có nghĩa là nếu một thiên kiến hoặc sai lệch lọt qua được bộ lọc của các AI, nó có thể được nhân rộng lên gấp nhiều lần. Trong một môi trường đầy những thiên kiến và sai lệch như vậy thì sự kỳ thị và bất đồng giữa các cộng đồng, các nền văn hóa sẽ càng ngày càng lớn. Cuối cùng quyền lợi của những người yếu thế sẽ bị tổn hại nghiêm trọng.
Những thách thức với các ngôn ngữ ít phổ biến
Việc tạo ra các LLM dành cho 99% còn lại gặp phải rất nhiều rào cản. Đầu tiên, nhiều ngôn ngữ thiểu số không có đủ dữ liệu văn bản hoặc lời nói cần thiết để đào tạo mô hình ngôn ngữ. Điều này bao gồm cả dữ liệu chất lượng cao, đa dạng và đại diện cho ngôn ngữ đó.
Thứ hai, kể cả nguồn ngữ liệu còn dồi dào, thì việc thu thập chúng cũng không đơn giản như đi siêu thị. Chúng ta sẽ cần đến một lực lượng các nhà ngôn ngữ học, dân tộc học, nhà nghiên cứu lịch sử, văn hóa… hùng hậu để thu thập, đánh giá, kiểm chứng dữ liệu một cách cẩn trọng và chuyên nghiệp. Tìm đâu ra một lượng lớn các nhà khoa học xã hội và nhân văn đủ để số hóa 7000 ngôn ngữ còn lại?
Thứ ba, nhiều cộng đồng thiểu số cũng không có điều kiện tiếp cận internet, lượng dữ liệu do chính họ tạo ra về dân tộc mình là không đáng kể.
Thứ tư, các ngôn ngữ thiểu số thường có cấu trúc ngữ và từ vựng rất khác biệt so với các ngôn ngữ lớn. Chúng ta sẽ cần những mô hình ngôn ngữ mới phù hợp với những ngôn ngữ độc đáo.
Và cuối cùng là TIỀN. Ai sẽ trả tiền cho một việc khó khăn như vậy? Các mô hình ngôn ngữ lớn hiện nay do các công ty tư nhân xây dựng. Những công ty này hiển nhiên phải tạo ra lợi nhuận trong khi khả năng sinh lời từ những ngôn ngữ ít người nói là rất mơ hồ.
Dù vậy, chúng ta vẫn có cơ sở để hi vọng. Các mô hình ngôn ngữ lớn như ChatGPT ngày càng thông minh hơn, cần lượng dữ liệu ít hơn nhưng cho hiệu quả chính xác. Từ chiều ngược lại, AI có thể giúp sức cho các nhà ngôn ngữ học phục hồi các ngôn ngữ đang trên bờ vực biến mất.
Theo trang Web Statistica, kích thước thị trường AI toàn cầu vào năm 2023 là vào khoảng 207.9 tỷ đô la Mỹ. Đến năm 2030 con số này được các công ty tư vấn dự đoán sẽ tăng từ 3 đến 7 lần. Với một lượng tiền lớn như vậy đổ vào thị trường, hi vọng rằng nhân loại sẽ có đủ nguồn lực để tạo ra các LLM dành cho các ngôn ngữ ít được biết đến. Ngay lúc này, những cá nhân có tâm huyết cũng đang tìm cách kết nối với nhau thông qua mạng xã hội để cùng xây dựng những LLM riêng. Mặc dù đây mới chỉ là những nỗ lực nhỏ nhoi, song nó mang lại hy vọng cho tương lai, các cộng đồng sẽ tự xây dựng được LLM của mình khi AI phổ cập.
Chúng ta hãy hy vọng những người đang phát triển AI, đặc biệt là lĩnh vực LLM sẽ có dành chỗ cho các ngôn ngữ thiểu số sinh tồn. Bởi đó là văn hóa, là cốt lõi văn minh của loài người. Và khác với những thuật toán, những cỗ máy vô tình, người làm ra AI có trái tim người.
Những cảnh báo về mối nguy AI có thể bị "vũ khí hóa" "Mọi công nghệ ra đời đều có thể trở thành công cụ giúp ích cho con người, nhưng cũng là vũ khí. Chúng ta cần đảm bảo AI chịu sự kiểm soát của con người để có thể làm chậm hoặc tắt mọi thứ khi cần". |
Chuyên gia Việt Nam tại Anh: Sẽ đến lúc phải có những bộ luật về AI EU đang sắp công bố luật về AI trong khi Anh cho rằng với tốc độ phát triển hiện tại của AI, các luật đưa ra ngày nay có thể lỗi thời nhưng thừa nhận rồi sẽ đến lúc phải có một bộ luật về AI. |