Không chỉ con người, AI cũng biết thiên vị



    Sự thiên vị có trong nhiều giai đoạn học sâu của trí tuệ nhân tạo, trong khi ngành khoa học máy tính vẫn chưa có khả năng phát hiện ra các lỗ hổng này.
    Sự phát triển bùng nổ các thuật toán trí tuệ nhân tạo như học sâu “deep learning” đã biến AI (trí tuệ nhân tạo) thành công cụ đắc lực phục vụ cho chọn lọc dữ liệu, tìm kiếm thông tin, đối tượng tiềm năng…
    Người ta đã sử dụng A.I trong nhiều lĩnh vực như tuyển dụng, bán lẻ, gợi ý hàng tiêu dùng… Tuy nhiên, trí tuệ nhân tạo cũng bộc lộ điểm yếu khó chấp nhận: Chúng khá thiên vị.
    Thiên vị có thể là hành vi của riêng con người, và “máy móc không biết nói dối". Nhưng AI, với nguồn gốc từ một cỗ máy lại có thể thiên vị, tức chúng ưu tiên người da trắng hơn da màu trong việc tuyển dụng chẳng hạn. Chính “lỗ hổng” này làm cho các nhà khoa học rất đau đầu và quyết tìm ra nguyên nhân hòng khắc phục triệt để. Tuy nhiên mọi việc không hề đơn giản.

    Thiên vị xuất phát từ đâu?

    Chúng ta thường đơn giản hóa vấn đề bằng cách đổ lỗi. Trong trường hợp này, có thể cho rằng A.I cũng chỉ là máy, máy móc thiên vị do dữ liệu nhận được bị sai lệch. Nói cách khác dữ liệu mang tính thiên vị.
    Tuy nhiên sự thật, dữ liệu chỉ là bước gần cuối cùng của quá trình AI suy nghĩ và giải quyết vấn đề. Nói cách khác, sự thiên vị đã bám rễ rất lâu trước khi các dữ liệu được đưa vào máy tính xử lý. Bản thân các thuật toán xử lý đã có tính thiên vị từ lâu.
     Ngay từ khi các nhà khoa học máy tính tạo ra mô hình học sâu, họ đã phải quyết định xem rốt cuộc cái họ muốn đạt được là gì. Ví dụ xử lý dữ liệu khách hàng tiềm năng cho một công ty tín dụng. Công ty muốn trí tuệ nhân tạo tìm ra những khách hàng tiềm năng nhất cho họ. Nhưng “tiềm năng nhất” là gì? Là có nhiều tiền hay nhiều khả năng mang lại lợi nhuận cho công ty thông qua vay tín dụng?
    Bởi máy tính cần phải số hóa được các tiêu chí đưa ra, chúng chỉ xử lý và phân tích xem các con số của người dùng là lớn hay nhỏ để có thể xem đó là “tiềm năng”.
    Như vậy, nếu khách hàng có nhiều tiền nhưng họ không vay tín dụng thì công ty tín dụng sẽ ít lợi nhuận, nhưng ngược lại những người hay vay tiền lại là đối tượng mang lại lợi nhuận lớn hơn, đổi lại tỷ lệ trả tiền của họ có thể thấp hơn, dẫn tới rủi ro cao hơn.
    “Từ thuở khai sinh, các thuật toán ra đời để giải quyết mục tiêu số hóa khác nhau của người dùng, chứ không phải để đánh giá công bằng bản chất của họ”, Solon Barocas, trợ lý giáo sư tại đại học Cornell cho biết. Anh là chuyên gia trong lĩnh vực kiểm soát "yếu tố công bằng” của AI.
    Như vậy, nếu thuật toán phát hiện ra đối tượng người dùng thích vay tiền và vay nhiều tiền trong quá khứ, nó sẽ kết luận họ là đối tượng “tiềm năng” cho công ty tín dụng. Tuy nhiên, trên thực tế các đối tượng này lại là đối tượng cần tránh xa do rủi ro mà họ mang lại.
    Do các vấn đề trên mang tính lựa chọn và cả triết học (đâu là lựa chọn đúng, đâu là sai), xử lý dữ liệu đầu vào tốt có vẻ vẫn là cách khả thi hơn để giải quyết sự thiên vị của máy tính.
    Dữ liệu cung cấp bị thiên vị
    Có hai cách mà sự thiên vị thể hiện trong dữ liệu cần xử lý: Hoặc dữ liệu bạn thu thập không thể hiện đúng thực tế, hoặc nó phản ánh những định kiến hiện có.
    Trường hợp đầu tiên có nhiều khả năng xảy ra. Ví dụ, nếu một thuật toán học sâu được cung cấp nhiều hình ảnh về khuôn mặt có màu da sáng hơn so với khuôn mặt có màu da tối, hệ thống nhận diện khuôn mặt chắc chắn sẽ cho rằng gương mặt tối là “không tốt bằng”.
    Trường hợp thứ hai đã xảy ra khi Amazon phát hiện ra công cụ tuyển dụng nội bộ của họ liên tục sa thải các ứng cử viên nữ. Bởi nó được học về các quyết định tuyển dụng trong lịch sử công ty, vốn ưa thích đàn ông hơn phụ nữ, nên nó đã chọn cách làm tương tự.
    Sự thiên vị có thể xuất hiện trong giai đoạn chuẩn bị dữ liệu, tức việc chọn thuộc tính của đối tượng cho thuật toán xem xét. Ví dụ như trong việc đưa ra các tiêu chí cho “khách hàng tiềm năng” của công ty tín dụng trên, các thông số có thể là tuổi tác, thu nhập, số lần đã trả nợ. Trong trường hợp của Amazon, các thông số có thể là giới tính, trình độ học vấn, số năm kinh nghiệm.
    Chính vì các thông số đó dễ bị nhầm lẫn và không hoàn toàn đánh giá đúng đối tượng là con người, việc chọn ra bộ thông số phù hợp với nhu cầu người dùng và đưa cho máy tính xử lý sao cho kết quả ra công bằng là không thể đạt được.
    AI có thể đưa ra đúng đối tượng mà bạn mong muốn, nhưng nó chắc chắn sẽ mang tính thiên vị khi loại ra những đối tượng khác.

    Rất khó khắc phục sự thiên vị của AI

    Ngay cả chúng ta, những con người tạo ra máy móc cũng mang tính thiên vị rất cao. Do đó, có những nguyên nhân căn bản bên trong mang tính triết học mà ngay cả con người còn chưa vượt qua được, huống hồ máy móc.
    Đầu tiên là việc không lường trước cái chưa biết. Khi thả bom nguyên tử xuống Nhật Bản, người Mỹ chưa nghĩ tới bụi phóng xạ sẽ còn tồn tại và gây ung thư cho rất nhiều người sau này. Hoặc khi tìm ra xăng dầu vào đầu thế kỉ XX, chưa ai từng nghĩ đến vấn đề nóng lên toàn cầu mà ngày nay chúng ta phải đối mặt.
    Mọi vật đều có liên quan ít nhiều đến nhau, các thông số đặc trưng của đối tượng này sớm muộn cũng sẽ bị ảnh hưởng bởi thông số đặc trưng của đối tượng khác.
    Các kĩ sư của Amazon không ngốc tới mức không lường trước sự thiên vị của AI mà họ xây dựng. Họ đã lập trình để nó bỏ qua các cụm từ về giới tính như “dành cho nam giới”, “của phụ nữ”.
    Tuy nhiên người ta sớm phát hiện rằng hệ thống ngôn ngữ của nhân loại hết sức đáng sợ. Các cụm từ khác ám chỉ về giới tính đã được cỗ máy đưa vào dữ liệu cần học như “đao thủ” (100% các đao thủ trong lịch sử là nam giới) hoặc “nội trợ” đã biến khối dữ liệu đầu vào trở nên thiên vị.

    Đâu là công bằng?

    Chắc chắn rất khó để định nghĩa “sự công bằng” trong xã hội, ngay cả trong triết học cũng không có khái niệm thuyết phục về "tính công bằng”. Đó là lý do các hệ thống pháp luật luôn có kẽ hở và suốt chiều dài lịch sử, loài người luôn tìm kiếm một tầng lớp, một vật thể nào đó gánh hết “bất công” của xã hội như nô lệ, súc vật, máy móc.
    Đối với khoa học, “công bằng” chỉ đơn giản là sự cân bằng các đại lượng. Chính sự khác nhau rất lớn giữa 2 khái niệm “công bằng” trong toán học và thực tế xã hội, mà A.I còn lâu mới có thể trở nên công bằng như cái cách mà người ta mong muốn, vì suy cho cùng, con người còn chưa xác định rõ cái “công bằng” mà họ muốn ở đây là gì.
    Như trong bài toán của Amazon, đôi khi đúng là các nhân viên nam giới mạnh hơn nhân viên nữ và sẽ phù hợp hơn cho công việc. Tôi mạnh khỏe hơn, tôi được tuyển dụng, chân lý đó chẳng phải đã có từ thuở chúng ta còn ăn lông ở lỗ hay sao? Như vậy, việc máy tính loại ra các nhân viên nữ tuy sai về mặt đạo đức công bằng xã hội , nhưng về mặt lợi ích kinh tế thì hoàn toàn đúng.

    Post a Comment

    0 Comments