Các máy tính đang nghe - NSA chuyển các lời nói thành văn bản có thể tìm được như thế nào

Thứ sáu - 08/05/2015 06:10

The Computers are Listening - How the NSA Converts Spoken Words Into Searchable Text

By Dan Froomkin @froomkin, 05/05/2015

Theo: https://firstlook.org/theintercept/2015/05/05/nsa-speech-recognition-snowden-searchable-text/

Bài được đưa lên Internet ngày: 05/05/2015

Lời người dịch: Trích đoạn: “Các tài liệu tuyệt mật từ kho lưu trữ của cựu nhà thầu NSA Edward Snowden cho thấy Cơ quan An ninh Quốc gia Mỹ (NSA) bây giờ có thể tự động nhận ra nội dung bên trong các cuộc gọi điện thoại bằng cách tạo ra các bản bóc băng thô và các thể hiện ngữ âm mà có thể dễ dàng được tìm kiếm và được lưu trữ. Các tài liệu chỉ ra các nhà phân tích của NSA đang ăn mừng sự phát triển của những gì họ gọi là “Google cho tiếng nói” gần một thập niên trước”. Xem thêm: Chương trình gián điệp của NSA trên không gian mạng.

Hầu hết mọi người nhận thức được rằng các thư điện tử và các giao tiếp truyền thông số khác mà chúng từng được coi là riêng tư thì bây giờ có thể trở thành một phần hồ sơ thường trực của họ.

Nhưng thậm chí khi họ ngày càng sử dụng nhiều ứng dụng hiểu được những gì họ nói, thì hầu hết mọi người còn chưa nhận thức được rằng lời nói của họ không còn là riêng tư nữa, cũng vậy.

Các tài liệu tuyệt mật từ kho lưu trữ của cựu nhà thầu NSA Edward Snowden cho thấy Cơ quan An ninh Quốc gia Mỹ (NSA) bây giờ có thể tự động nhận ra nội dung bên trong các cuộc gọi điện thoại bằng cách tạo ra các bản bóc băng thô và các thể hiện ngữ âm mà có thể dễ dàng được tìm kiếm và được lưu trữ.

Các tài liệu chỉ ra các nhà phân tích của NSA đang ăn mừng sự phát triển của những gì họ gọi là “Google cho tiếng nói” gần một thập niên trước.

Dù sự bóc băng tuyệt vời các hội thoại tự nhiên hình như còn là “chén thánh” của Cộng đồng Tình báo, thì các tài liệu của Snowden mô tả sử dụng tích cực tìm kiếm từ khóa cũng như các chương trình máy tính được thiết kế để phân tích và “trích xuất” nội dung các hội thoại tiếng nói, và thậm chí sử dụng các thuật toán phức tạp để đánh dấu các cuộc hội thoại có quan tâm.

Các tài liệu bao gồm các ví dụ sống động sử dụng nhận dạng tiếng nói trong các vùng chiến sự như Iraq và Afghanistan, cũng như ở Mỹ Latin. Nhưng vẫn còn chính xác chưa rõ cơ quan tình báo đó sử dụng rộng rãi tới đâu khả năng này, đặc biệt trong các chương trình mà nhặt ra lượng đáng kể các cuộc hội thoại bao gồm những người sống hoặc là các công dân Mỹ.

Việc gián điệp các cuộc gọi điện thoại quốc tế luông là một vật liệu chính trong giám sát của NSA, nhưng yêu cầu một người thực sự tiến hành việc nghe ngụ ý nó bị hạn chế về hiệu quả tới số phần trăm nhỏ bé tổng giao thông. Bằng việc lợi dụng các ưu thế trong nhận dạng tiếng nói tự động, NSA đã đi vào kỷ nguyên nghe theo đống.

Và điều này đã xảy ra hình như không có sự giám sát của công chúng, các cuộc điều trần hay hành động pháp lý, Quốc hội đã không có dấu hiệu nào thậm chí biết về việc nó đang diễn ra.

Luật Tự do của Mỹ (USA Freedom Act) - dự luật cải cách giám sát mà Quốc hội hiện đang tranh luận - không đề cập tới chủ đề này hoàn toàn. Dự luật có thể chấm dứt một chương trình của NSA mà không thu thập nội dung tiếng nói: sự thu thập theo đống của chính phủ các dữ liệu gọi nội địa, chỉ ra ai đã gọi cho ai và trong bao lâu.

Thậm chí nếu trở thành luật, thì dự luật có thể để lại vô số chỗ trong các cơ chế được Snowden phát hiện mà xúc lượng khổng lồ các giao tiếp truyền thông văn bản và tiếng nói của những người dân thường ở Mỹ và khắp trên thế giới.

Các chuyên gia tự do dân sự mà tờ The Intercept liên lạc được nói các khả năng chuyển từ lời nói sang văn bản của NSA là một ví dụ đáng lo ngại về những vi phạm tính riêng tư mà đang trở nên có khả năng như là các biến đổi thế giới tương tự của chúng ta sang một thế giới số.

“Tôi nghĩ mọi người không hiểu rằng nền kinh tế giám sát đã hoàn toàn thay đổi”, Jennifer Granick, giám đốc về tự do dân sự ở Trung tâm Stanford về Internet và Xã hội, đã nói cho The Intercept.

“Một khi bạn có được khả năng này, thì câu hỏi là: nó sẽ được triển khai như thế nào? Bạn có thể tạm thời lưu được tất cả các cuộc gọi điện thoại của người Mỹ hay không, bóc băng tất cả các cuộc gọi điện thoại, và tìm kiếm văn bản nội dung các cuộc gọi được không?”, bà nói. “Có lẽ không là những gì họ đang làm bây giờ, nhưng họ sẽ có khả năng làm được nó”.

Và, bà đã hỏi: “Làm thế nào chúng ta có thể biết nếu họ thay đổi chính sách nhỉ?”

Quả thực, các quan chức NSA từng bí mật về khả năng của họ để chuyển đổi tiếng nói sang văn bản, và họ sử dụng nó như thế nào, vẫn còn là mở cho nhiều khả năng.

Sự bí mật đó là chìa khóa, Granick nói. “Chúng ta không biết có bao nhiêu người dân thường đang bị ảnh hưởng, hoặc có bao nhiều người dân thường cũng là những người Mỹ”.

Tôi có thể tìm nó một lần nữa

Người thổi còi của NSA Thomas Drake, người đã được huấn luyện như một nhà ngôn ngữ học mật mã xử lý tiếng nói và đã làm việc cho cơ quan này cho tới năm 2008, đã nói với tờ The Intercept rằng ông đã thấy sự thúc đẩy khổng lồ sau các cuộc tấn công khủng bố ngày 11/09/2001 để biến một lượng khổng lồ các giao tiếp truyền thông tiếng nói đang được thu thập thành thứ gì đó hữu dụng hơn.

Việc nghe của con người từng rõ ràng không phải là một giải pháp. “Không đủ người ngồi nghe”, ông nói.

Bóc băng đã nổi lên từ các hệ thống mới từng không là hoàn hảo, ông nói. “Nhưng thậm chí nếu nó không phải là 100%, thì tôi vẫn có thể có được nhiều thông tin. Nó truy cập được nhiều hơn nhiều, tôi có thể tìm kiếm lại nó”.

Việc biến đổi tiếng nói thành văn bản làm cho dễ dàng hơn đối với NSA để thấy những gì nó đã thu thập và lưu trữ, theo Drake. “Sự đột phá từng có khả năng làm điều này ở mức độ khổng lồ”, ông nói.

Most people realize that emails and other digital communications they once considered private can now become part of their permanent record.

But even as they increasingly use apps that understand what they say, most people don’t realize that the words they speak are not so private anymore, either.

Top-secret documents from the archive of former NSA contractor Edward Snowden show the National Security Agency can now automatically recognize the content within phone calls by creating rough transcripts and phonetic representations that can be easily searched and stored.

The documents show NSA analysts celebrating the development of what they called “Google for Voice” nearly a decade ago.

Though perfect transcription of natural conversation apparently remains the Intelligence Community’s “holy grail,” the Snowden documents describe extensive use of keyword searching as well as computer programs designed to analyze and “extract” the content of voice conversations, and even use sophisticated algorithms to flag conversations of interest.

The documents include vivid examples of the use of speech recognition in war zones like Iraq and Afghanistan, as well as in Latin America. But they leave unclear exactly how widely the spy agency uses this ability, particularly in programs that pick up considerable amounts of conversations that include people who live in or are citizens of the United States.

Spying on international telephone calls has always been a staple of NSA surveillance, but the requirement that an actual person do the listening meant it was effectively limited to a tiny percentage of the total traffic. By leveraging advances in automated speech recognition, the NSA has entered the era of bulk listening.

And this has happened with no apparent public oversight, hearings or legislative action. Congress hasn’t shown signs of even knowing that it’s going on.

The USA Freedom Act — the surveillance reform bill that Congress is currently debating — doesn’t address the topic at all. The bill would end an NSA program that does not collect voice content: the government’s bulk collection of domestic calling data, showing who called who and for how long.

Even if becomes law, the bill would leave in place a multitude of mechanisms exposed by Snowden that scoop up vast amounts of innocent people’s text and voice communications in the U.S. and across the globe.

Civil liberty experts contacted by The Intercept said the NSA’s speech-to-text capabilities are a disturbing example of the privacy invasions that are becoming possible as our analog world transitions to a digital one.

“I think people don’t understand that the economics of surveillance have totally changed,” Jennifer Granick, civil liberties director at the Stanford Center for Internet and Society, told The Intercept.

“Once you have this capability, then the question is: How will it be deployed? Can you temporarily cache all American phone calls, transcribe all the phone calls, and do text searching of the content of the calls?” she said. “It may not be what they are doing right now, but they’ll be able to do it.”

And, she asked: “How would we ever know if they change the policy?”

Indeed, NSA officials have been secretive about their ability to convert speech to text, and how widely they use it, leaving open any number of possibilities.

That secrecy is the key, Granick said. “We don’t have any idea how many innocent people are being affected, or how many of those innocent people are also Americans.”

I Can Search Against It

NSA whistleblower Thomas Drake, who was trained as a voice processing crypto-linguist and worked at the agency until 2008, told The Intercept that he saw a huge push after the September 11, 2001 terror attacks to turn the massive amounts of voice communications being collected into something more useful.

Human listening was clearly not going to be the solution. “There weren’t enough ears,” he said.

The transcripts that emerged from the new systems weren’t perfect, he said. “But even if it’s not 100 percent, I can still get a lot more information. It’s far more accessible. I can search against it.”

Converting speech to text makes it easier for the NSA to see what it has collected and stored, according to Drake. “The breakthrough was being able to do it on a vast scale,” he said.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com