Sử dụng trí tuệ nhân tạo và dữ liệu mở vì sự cách tân và trách nhiệm giải trình

Thứ năm - 01/02/2018 07:04

Using artificial intelligence and open data for innovation and accountability
2017-12-20 by Olivier Thereaux

Theo: https://theodi.org/blog/using-artificial-intelligence-and-open-data-for-innovation-and-accountability
Bài được đưa lên Internet ngày: 20/12/2017
Xem thêm: Dữ liệu Mở Liên kết - LOD (Linked Open Data)
Phù hợp với chiến lược công nghiệp mới và ngân sách của Vương quốc Anh, cũng như sự tham gia gần đây của ODI trong phiên bằng chứng của Hạ viện xung quanh cách AI và dữ liệu cá nhân cần phải được sở hữu, quản lý, định giá và sử dụng vì lợi ích của xã hội, Giám đốc Công nghệ của ODI Olivier Thereaux xem xét công việc của chúng ta trong lĩnh vực này.

Hình ảnh: Ford ở Cologne của GillyBerlin, (CC By 2.0)
Trí tuệ nhân tạo - AI (Artificial Intelligence) hiện đang hưởng sự phục hưng trong nền công nghiệp và khả năng sáng tạo phổ biến, và trong ngân sách chính phủ Vương quốc Anh gần đây nhất. Sự phổ biến của AI có thể một phần được giải thích bằng sự việc là, lần đầu tiên, chúng ta có đủ dữ liệu phạm vi rộng để huấn luyện các hệ thống AI. Có các tập hợp dữ liệu của nhà nước dành cho sự nhìn của máy tính, ngôn ngữ tự nhiên, năng lực nói và nhiều tập hợp dữ liệu không của nhà nước trong các doanh nghiệp và chính phủ. Những cải tiến gần đây về phần cứng cũng làm cho nó có hiệu quả hơn về chi phí để huấn luyện và chạy các mô hình máy học.
Sự phục hưng này vừa khích lệ vừa đáng lo ngại. AI đang được sử dụng rồi để tiết kiệm thời gian, tiền bạc, và thậm chí mạng sống (với các bác sỹ sử dụng nó để giúp chuẩn đoán ý học). Mặt khác, sự cường điệu này có thể nuôi dưỡng tiềm năng Ai sẽ bị sử dụng sai, và gây ra các độc quyền bóp nghẹt sự cách tân.
Ngân sách gần đây của chính phủ Vương quốc Anh gồm khoản đầu tư 75 triệu £ vào cả phát triển Ai và quản lý các thách thức xung quanh nó. Khoản đầu tư này sẽ thiết lập Trung tâm mới về Đạo đức Dữ liệu và Cách tân để hỗ trợ cách tân an toàn và có đạo đức với AI, và tạo thuận lợi cho truy cập dữ liệu thông qua ‘sự tin cậy của dữ liệu’. Các sáng kiến tương tự đang được triển khai ở các quốc gia khác, bao gồm cả Úc, Pháp, Trung Quốc và Mỹ.
Ở ODI, chúng tôi tin tưởng rằng việc nuôi dưỡng cách tân AI đòi hỏi một tiếp cận mở gồm dữ liệu mở, mã nguồn mở và văn hóa mở. Điều này là cơ bản vì các thuật toán trong các hệ thống máy học và tự động hóa cần số lượng lớn dữ liệu chất lượng cao để thực hiện tốt. Chúng tôi phải tập trung vào việc làm cho dữ liệu sẵn sàng mở ở bất cứ đâu có thể, và ở các định dạng máy đọc được. Việc gia tăng truy cập tới dữ liệu là chìa khóa để tạo ra thị trường AI có tính cạnh tranh và công bằng, nơi mà sự cách tân có thể nở rộ, như Giám đốc về Chính sách của chúng tôi, Peter Wells, đã viết đầu năm nay.
Hiện hành, hầu hết các cách tân hướng Ai đều dựa vào mô hình kinh doanh nơi mà dữ liệu huấn luyện được coi là sở hữu trí tuệ được bảo vệ, và các hệ thống Ai thường được cung cấp như 'các hộp đen' bí hiểm không có sự hiểu biết về cách làm việc của chúng bên trong. Đây là vấn đề: tính thuần nhất của mô hình kinh doanh như vậy có thể có hiệu ứng ớn lạnh lên sự cách tân và cản trở sự phát triển của lĩnh vực AI.
Như Peter nói trong bài viết trên blog của ông:
Điều này mang trong mình rủi ro rằng lĩnh vực mới thú vị này sẽ được các nền tảng số lớn áp đảo, những người hiện áp đảo Internet. Điều này sẽ làm giảm sự cạnh tranh và cách tân. Nó sẽ làm giảm sự đa dạng của các vấn đề theo đo các giải pháp Ai được áp dụng. Nó sẽ bóp nghẹt năng lượng và những ý tưởng mới mà các công ty khởi nghiệp và các doanh nghiệp vừa và nhỏ (SME) mang lại. Nó sẽ làm giảm kích cỡ tổng thể của thị trường AI và những lợi ích mà AI có thể mang lại cho tất cả chúng ta.
Truy cập tốt hơn tới dữ liệu sẽ tối đa hóa sử dụng và giá trị của nó; tuy nhiên, chúng ta cũng phải triển khai các kiểm soát để bảo vệ tính riêng tư, các lợi ích và an toàn của mọi người, các tổ chức và các quốc gia.
Lo ngại khác là khả năng AI có thể bị sử dụng sai khi ra các quyết định ảnh hưởng tới cuộc sống của con người. Hầu hết các hệ thống AI đều không chịu sự xét hỏi; thậm chí với sự truy cập tới mã nguồn các thuật toán máy học và khả năng kiểm tra kiến trúc và sức nặng của mạng thần kinh, hầu như không có khả năng xác định cách thức mạng thần kinh dò tìm các mẫu hoặc đi với bất kỳ dạng quyết định hay kết quả nào để hiểu bất kỳ khuynh hướng nào có thể tồn tại, ảnh hưởng của nó lên các nhóm người khác nhau, và cách nó có thể được giảm nhẹ. Trong khi có những nỗ lực thú vị để thiết kế các hệ thống AI có khả năng “giải thích” sự làm việc bên trong của chúng - theo cách y hệt như con người có khả năng giải thích các quyết định của mình mà không cần tri thức đầy đủ của các quy trình của bộ não - các nỗ lực đó sẽ mất nhiều năm để kết luận, nếu có. Luật pháo mới như GDPR và Dự luật Bảo vệ Dữ liệu của Vương quốc Anh đề xuất có thể giúp bằng việc thúc đẩy “quyền phải giải thích” mạnh hơn. Tuy nhiên, cho tới nay ảnh hưởng của chúng lên vấn đề này vẫn còn rất hạn chế.
Chìa khóa về sự làm việc bên trong của AI nằm trong dữ liệu huấn luyện, nó gồm hầu hết các khuynh hướng được/bị mã hóa. Khuynh hướng gồm cái gì (và cái gì không gồm) đang được chuyển thành các hệ thống nhận diện hình ảnh người phân biệt chủng tộc, cũng như - ngụ ý các kỹ sư mã hóa dữ liệu lịch sử và hiện nay trong các thuật toán bí hiểm tạo ra tình trạng ban đầu không thể nghi ngờ, phản ánh các nền kinh tế và các xã hội hiện hành của chúng ta. Tỷ lệ tội phạm cao trong mã bưu điện được đưa ra có thể chấm dứt việc kết tội mọi người, những ai sống ở đó với chuỗi bất tận các chối bỏ tự động - cả sự hiểu sai quá đáng các số liệu thống kê, và trường hợp gây sợ hãi khi “máy tính nới không”.
Đây là những gì nhà công nghệ học Maciej Ceglowski gọi là “việc rửa tiền vì khuynh hướng”: rủi ro niềm tin mù quáng vào sự ưu việt và hiệu quả của AI sẽ chấm dứt việc kết tinh dữ liệu về quá khứ và hiện tại vào sự không công bằng có hệ thống trong tương lai theo cách các ngụy biện trắng trợn.
Điều này không phải là kịch bản giả định: vài phòng cảnh sát của Mỹ từng nhiệt tình về các hệ thống AI hứa dò tìm ra tội phạm hoặc kết án có hiệu quả hơn. Không thiết kế cẩn thận điều này có thể dẫn tới áp dụng các hệ thống có lỗi, thường không hiệu quả và đôi khi không công bằng.
Vì thế, làm thế nào chúng ta có thể nắm bắt được những lợi ích của AI trong khi giảm nhẹ được các rủi ro? Chúng tôi có 2 gợi ý:
1. Truy cập tốt hơn tới dữ liệu sẽ mở khóa tiềm năng của các hệ thống máy học đói dữ liệu, còn là cách để đảm bảo rằng các hệ thống chúng ta tạo ra là an toàn.
Chúng tôi muốn khuyến khích chính phủ và rà soát lại để tham gia với cộng đồng AI để xác định các lĩnh vực hữu dụng để phát triển dịch vụ; nhận diện nơi nào truy cập tới các tập hợp dữ liệu công hoặc tư có thể giúp tạo ra thị trường Ai công bằng và hợp lý và đưa ra những khuyến khích để giúp các tổ chức xuất bản dữ liệu. Dữ liệu này có thể được xuất bản mở sao cho bất kỳ ai cũng có thể sử dụng nó, hoặc được chia sẻ theo các điều kiện có kiểm soát để quản lý các rủi ro thương mại và riêng tư.
Sự rà soát lại gần đây của chính phủ Vương quốc Anh về “Phát triển công nghiệp AI ở Vương quốc Anh” đã động chạm tới câu hỏi này với ý tưởng “sự tin tưởng của dữ liệu”. Ý tưởng này cần phải được khai thác và chúng tôi sẽ làm việc về nó vào năm sau. Trong khi chờ đợi, có quá nhiều điều có thể phải làm để đảm bảo rằng dữ liệu được khu vực tư nhân nắm giữ là sẵn sàng một cách an toàn và công bằng.
Điều này giải thích vì sao chúng tôi gần đây đã bắt đầu tiến hành nghiên cứu về các mô hình kinh doanh của AI. Nghiên cứu này sẽ khai thác liệu “mô hình hộp đen” có phải là cách tốt nhất để xây dựng dịch vụ AI hay không, và liệu có các lựa chọn thay thế có thể sống được nào mà tương thích hơn với các hy vọng của chúng tôi vì một tương lai “càng mở có thể càng tốt” hay không.
2. Chúng tôi muốn tạo ra một nền kinh tế dữ liệu nơi mà các quyền và trách nhiệm được phân bổ công bằng, và nơi mà kiểm soát nhiều hơn việc sử dụng và chia sẻ dữ liệu được đưa ra cho cá nhân.
Điều này là đặc biệt quan trọng để nuôi dưỡng và sử dụng AI: các thuật toán đó thường có xu hướng sử dụng dữ liệu cá nhân như là các tập hợp huấn luyện. Khả năng của các thuật toán AI nắm bắt các mẫu cũng làm cho chúng rất hiệu quả trong việc tái nhận diện dữ liệu cá nhân trong các tập hợp dữ liệu “được nặc danh hóa”, gây ra những lo ngại đáng kể về tính riêng tư của các cá nhân và nhóm người.
Với điều này trong đầu, và việc xây dựng dựa vào công việc hiện hành của chúng tôi về các giao diện lập trình ứng dụng (API) dữ liệu cá nhân trong các lĩnh vực như ngân hàng và bán lẻ, chúng tôi bây giờ cộng tác với các dự án IF (Projects by IF) để hiểu dạng các mẫu thiết kế nào có thể xúc tác cho sự truy cập an toàn và hiệu quả tới các dữ liệu cá nhân trong lĩnh vực tiện ích. Chúng tôi cũng lên kế hoạch tập trung vào một số hoạt động nghiên cứu và phát triển trong tương lai về sự Tin cậy của Dữ liệu (Data Trusts) và về các chủ đề nặc danh hóa quan trọng, bỏ nhận diện (de-identification) và tái nhận diện (re-identification) các tập hợp dữ liệu. Điều này sẽ giúp cho các tổ chức cả khu vực tư nhân và nhà nước làm cho dữ liệu tái nhận diện và dữ liệu cá nhân tiềm tàng truy cập được nhiều hơn theo cách thức bảo vệ được tính riêng tư trong khi tạo ra được thị trường công bằng.
Tương lai của AI còn chưa được xác định trước: nó phụ thuộc vào chúng ta để tạo ra và định hình tương lai chúng ta muốn. Chúng tôi hy vọng các nỗ lực của chúng tôi sẽ giúp tạo ra tương lai càng mở càng tốt và có lợi cho tất cả mọi người.
Nếu bạn có các ý tưởng hoặc kinh nghiệm về dữ liệu mở mà bạn muốn chia sẻ, hãy gửi thư điện tử cho chúng tôi hoặc tweet cho chúng tôi tại @ODIHQ.
In the light of the UK’s new industrial strategy and budget, as well as the ODI’s recent participation in a House of Lords evidence session around how AI and personal data should be owned, managed, valued and used for the benefit of society, the ODI’s Head of Technology Olivier Thereaux examines our work in this area.
Image: Ford in Cologne by GillyBerlin, (CC By 2.0)
Artificial intelligence (AI) is currently enjoying a renaissance in industry and popular imagination, and in the most recent UK government budget. AI’s popularity can be partly explained by the fact that, for the first time, we have enough large-scale data for training AI systems. There are public datasets for computer vision, natural language, speech and many more non-public datasets within businesses and governments. Recent improvements in hardware are also making it more cost-effective to train and run machine-learning models.
This renaissance is both exciting and worrying. AI is already being used to save time, money, and even lives (with doctors using it to help medical diagnosis). On the other hand, this hype may fuel the potential for AI to be misused, and result in monopolies that stifle innovation.
The UK government’s recent budget included a £75 million investment in both developing AI and managing the challenges around it. This investment will establish a new Centre for Data Ethics and Innovation to support safe and ethical innovation with AI, and facilitate data access through ‘data trusts’. Similar initiatives are being implemented in other countries, including Australia, France, China and the United States.
At the ODI, we believe that fostering AI innovation requires an open approach that includes open data, open source code and open culture. This is essential because algorithms in autonomous and machine learning systems need large quantities of high-quality data to perform well. We must focus on making data openly available where possible, and in formats that are machine-readable. Increasing access to data is key to creating a competitive and equitable AI market, where innovation can flourish, as our Head of Policy Peter Wells wrote earlier this year.
Currently, most AI-centred innovation is based on a business model where training data is considered protected Intellectual Property, and AI systems are generally provided as inscrutable 'black boxes' with no knowledge of their internal workings. This is problematic: such business model homogeneity can have a chilling effect on innovation and stall a thriving AI sector.
As Peter says in his blog post:
This brings with it the risk that this exciting new sector will be dominated by the large digital platforms who currently dominate the internet. This will reduce competition and innovation. It will reduce the diversity of the problems to which AI solutions are applied. It will stifle the energy and fresh ideas that startups and SMEs bring. It will reduce the overall size of the AI market and the benefits that AI could bring to all of us.
Better access to data maximises its use and value; however, we must also implement controls that protect the privacy, interests and security of people, organisations and states.
Another concern is the possibility that AI could be misused when making decisions that affect people’s lives. Most AI systems are impervious to inquiry; even with access to the source code of a machine learning algorithm and the ability to audit the architecture and weights of a neural network, it is almost impossible to determine how that neural network detects patterns or comes to any kind of decision or result to understand any bias that may exist, the impact of it on different groups of people, and how it could be mitigated. While there are interesting efforts to design AI systems that are able to "explain" their inner working – in the same way as humans are able to explain their decisions without full knowledge of the brain’s processes – these efforts will take years to conclude, if ever. New legislation such as the GDPR and the proposed UK Data Protection Bill may help by pushing for a stronger “right to explanation”. However, for now their impact on this issue will remain limited.
The key to the AI's inner-working resides in the training data, which contains most of the encoded bias. The bias in what is included (and what is not) is being translated into racist image recognition systems, as well-meaning engineers encode historic and current data into inscrutable algorithms that create an unquestionable status quo that reflects our current economies and societies. High crime rate in a given post code may end up condemning people who live there to an endless string of automated rejections - both a egregious misunderstanding of statistics, and a terrifying case of “computer says no”.
This is what technologist Maciej Ceglowski calls “money laundering for bias”: the risk that blind faith in the superiority and efficiency of AI will end up crystallising data about the past and the present into future systemic unfairness by way of blatant logical fallacies.
This is not a hypothetical scenario: some US police departments have been enthusiastic about AI systems that promise crime detection or more efficient sentencing. Without careful design this can lead to the adoption of flawed, often ineffective and sometimes unfair systems.
So, how can we capture the benefits of AI while mitigating the risks? We have two suggestions.
1. Better access to data will unlock the potential of data-hungry machine learning systems, but is also a way to ensure that the systems we create are safe.
It is important that this focus on opening data is not just limited to government and scientific research data. At the ODI, we have been ramping up our efforts to make data held by the private sector more broadly available, making it as open as possible while protecting people’s privacy, commercial confidentiality and national security.
As we wrote in our joint response to the UK Government’s green paper on industrial strategy earlier this year:
We would encourage government and the review to engage with the AI community to determine useful areas for service development; identify where access to public or private datasets can help to create a fair and equitable AI market and provide incentives to help organisations publish the data. This data might be published openly so that anyone can use it, or shared under controlled conditions to manage commercial and privacy risks.
The recent review for the UK government on "Growing the artificial intelligence industry in the UK" touched upon this question with the idea of "data trusts". This idea needs to be explored and we will be working on that next year. In the meantime, there is so much more that can be done to ensure that data held by the private sector is safely and equitably available.
This is why we have recently started to conduct research on AI business models. This research will explore whether the "black-box model" is the best way to build an AI service, and whether there are viable alternatives which are more compatible with our hopes for an "as open as possible" future.
2. We want to create a data economy where rights and responsibilities are adequately distributed, and where more control over the usage and sharing of data is given to the individual.
This is particularly important for fueling the uptake of AI: these algorithms often tend to use personal data as training sets. The ability of AI algorithms to spot patterns also makes them very effective at re-identifying personal data in “anonymised” data sets, causing significant concerns about individual and group privacy.
With this in mind, and building on our existing work on personal data APIs in sectors like banking and retail, we are now collaborating with Projects by IF to understand what kind of design patterns could enable safe and effective access to personal data in the utility sector. We also plan to focus some of our upcoming research and development activities on Data Trusts and on the important topics of anonymisation, de-identification and re-identification of data sets. This will help both public and private sector organisations make potentially personal and re-identifiable data more accessible in a way that protects privacy while creating a fair market.
The future for AI is not pre-determined: it is up to us to create and shape the future we want. We hope our efforts will help create a future which is as open as possible and benefits everyone.
If you have ideas or experience in open data that you'd like to share, pitch us a blog or tweet us at @ODIHQ.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com