Bài ViếT Phổ BiếN

Editor Choice - 2024

Câu hỏi cho chuyên gia: Có thật là các mạng xã hội đang theo dõi chúng tôi

Dmitry Kurkin

TRÁCH NHIỆM ĐỐI VỚI CHỦ YẾU CỦA CÂU HỎI Hoa Kỳ chúng tôi đã sử dụng để tìm kiếm trực tuyến. Trong loạt tài liệu mới, chúng tôi đặt ra những câu hỏi như: đốt cháy, bất ngờ hoặc phổ biến - cho các chuyên gia trong các lĩnh vực khác nhau.

Flash mob Thử thách 10 năm, được tung ra trên mạng xã hội vào đầu năm, không chỉ đưa ra giả thuyết về âm mưu mà mục tiêu của chiến dịch là thu thập ảnh của người dùng và huấn luyện họ nhận ra hệ thống nhận diện khuôn mặt, mà còn một lần nữa khiến họ nghĩ về họ biết nhiều về chúng ta. mạng xã hội và các bên thứ ba làm việc với họ (từ các công ty thương mại đến các cơ quan chính phủ).

Việc những gã khổng lồ công nghệ đang thu thập và phân tích cái gọi là dấu chân kỹ thuật số mà hàng tỷ người dùng để lại hàng ngày không phải là bí mật đối với bất kỳ ai. Và nhận thức về điều này làm nảy sinh một nỗi sợ hãi mới đối với người anh lớn của người Bỉ: mạng xã hội biết rất nhiều về chúng ta, nhưng nếu họ biết quá nhiều về chúng ta thì sao? Dữ liệu lớn có thể được sử dụng để tìm ra tất cả các kết nối, thị hiếu, thói quen của một người, quá khứ và hiện tại của anh ấy? Và nếu vậy, mong muốn của chúng ta có thể gây hại cho xã hội trực tuyến, vì lợi ích mà chúng ta tự nguyện chia sẻ thông tin về bản thân, gây ra cho chúng ta?

Chúng tôi đã hỏi các chuyên gia về cách dữ liệu người dùng được xử lý bởi các công ty lớn và mức độ nguy hiểm khi kế thừa trên mạng xã hội.

Liliya Zemnukhova

Nhà nghiên cứu tại Trung tâm Nghiên cứu Khoa học và Công nghệ tại Đại học Châu Âu tại St.

Dấu chân kỹ thuật số chứa tất cả các loại dữ liệu có thể - văn bản, hình ảnh, bản ghi âm thanh và video, định vị địa lý và rất nhiều siêu dữ liệu (ví dụ: mô hình tiện ích, nhà điều hành di động, hệ điều hành, động lực và thời gian truy cập, v.v.). Và nó không chỉ là chúng tôi bổ sung dấu chân kỹ thuật số của chúng tôi. Mạng xã hội hình thành chúng tôi với tư cách là người dùng với sự trợ giúp của ba nguồn dữ liệu: thực tế là chính chúng tôi báo cáo về bản thân; rằng những người khác báo cáo về chúng tôi; và những gì sẽ xảy ra thường xuyên nhất mà không có kiến ​​thức của chúng tôi. Đặc biệt mờ đục cuối cùng. Chúng tôi, theo quy định, không đọc các thỏa thuận và chính sách của người dùng cho việc thu thập và sử dụng dữ liệu cá nhân. Chúng tôi chỉ lưu ý rằng hộp đen này, một phần nào đó ảnh hưởng đến trải nghiệm người dùng của chúng tôi: quảng cáo được nhắm mục tiêu, đề xuất từ ​​bạn bè, đề xuất cho âm nhạc, quy trình đưa ra tin tức ... thực hiện các chức năng được nhúng trong các cấu hình mặc định. Đó là lý do tại sao chúng tôi sẽ không bao giờ thoát khỏi quảng cáo theo ngữ cảnh hoặc đề xuất xâm nhập của các nhóm hoặc (không) bạn bè. Mạng xã hội khi các tập đoàn sử dụng dữ liệu về người dùng của họ cho mục đích thương mại, cung cấp nền tảng của họ để bán nội dung được nhắm mục tiêu. Và trên đường đi, họ tiếp tục thu thập dữ liệu về chúng tôi: ví dụ: nếu bạn đã trả tiền cho quảng cáo ít nhất một lần, thì thẻ ngân hàng và dữ liệu giao dịch cũng vẫn thuộc về công ty. Dữ liệu cũng có thể được cung cấp cho các cơ quan chính phủ khi có nhu cầu lớn: ví dụ: Facebook thường xuyên cộng tác với các cơ quan chính phủ Hoa Kỳ, theo chính sách minh bạch.

Ngoài chính sách nội bộ của các mạng xã hội, còn có một chi tiết quan trọng hơn: tài khoản có thể được liên kết với hàng trăm ngàn ứng dụng và chức năng khác. Ví dụ, đây là lý do cho các cuộc thảo luận lớn vào năm ngoái về quyền truy cập của bên thứ ba vào dữ liệu người dùng. Một nỗ lực quan trọng để điều chỉnh quyền tự do của các nhà phát triển đã được thực hiện tại Liên minh châu Âu - Quy định bảo vệ dữ liệu chung (GDPR) có hiệu lực vào năm ngoái. Ông quyết định không chuyển vấn đề dữ liệu, nhưng đã thu hút sự chú ý của người dùng cho câu hỏi này. Điều này không bắt buộc chúng tôi phải đọc tất cả các thỏa thuận của người dùng, nhưng nó khiến chúng tôi phải suy nghĩ và ít nhất có trách nhiệm hơn đối với dấu chân kỹ thuật số của mình và tuân theo các quy tắc cơ bản về vệ sinh kỹ thuật số.

Valeria Karavaeva

nhà khoa học dữ liệu tại Spiking

Đôi khi chúng tôi không nghĩ về việc chúng tôi để lại bao nhiêu bài hát trên Web và sau đó nó giúp ích cho các công ty, không chỉ các mạng xã hội - mặc dù các mạng xã hội cũng vậy. Mạng xã hội thu thập dữ liệu không chỉ cho bản thân họ, họ có thể bán chúng - tôi biết về điều đó, bởi vì tôi đã làm việc tại một công ty quảng cáo và chúng tôi đã mua dữ liệu từ Facebook. Và hầu hết chúng tôi, người dùng, đồng ý với điều này mà không nhận thấy nó. Mọi người dành một nửa cuộc sống của họ trên mạng xã hội và cung cấp rất nhiều thông tin về bản thân họ.

Nhưng trước đây có thể thu thập dữ liệu - vậy tại sao bạn chỉ bắt đầu nói về dữ liệu lớn gần đây? Trước hết, vì sức mạnh tính toán tăng lên và theo đó, trở nên rẻ hơn. Vấn đề chính của dữ liệu lớn không phải là làm thế nào để thu thập dữ liệu - về nguyên tắc, mỗi chúng ta ngày nay có thể thu thập và lưu trữ hàng terabyte thông tin - mà là cách làm việc với chúng. Hầu hết dữ liệu thu được từ các mạng xã hội (văn bản, giọng nói, hình ảnh, video) không được cấu trúc theo bất kỳ cách nào, do đó, không có máy học dữ liệu lớn là vô ích. Bây giờ, do thực tế là sức mạnh và bộ nhớ đã trở nên rẻ hơn, nhu cầu về mạng lưới thần kinh và học tập sâu đã tăng lên - cuối cùng chúng tôi đã học được cách xử lý các mảng dữ liệu lớn.

Lấy ví dụ như hình ảnh - và đây thực sự là dữ liệu lớn, chúng có thể cung cấp rất nhiều thông tin. Có hàng triệu bức ảnh, nhưng phải làm gì với chúng? Những lợi ích có thể được trích xuất từ ​​họ? Những mô hình nào họ cho bạn biết? Máy học, trên thực tế, không phải là quá xa. Đây không phải là một quá trình đơn giản như nó có vẻ như: không có gì mà bạn nhấn một nút và trong một tuần nhận được các tính toán đầy đủ.

Học máy trực tiếp được đi trước bởi các nhiệm vụ phức tạp hơn. Các bức ảnh tương tự trước tiên phải được xử lý đúng cách (ví dụ: ảnh được cắt, ảnh chính giữa; điều này rất quan trọng đối với việc học) - đây là giai đoạn đầu tiên, thường mất nhiều thời gian. Giai đoạn thứ hai là chọn một kiến ​​trúc mạng phù hợp để giải quyết vấn đề. Nói một cách đơn giản, bạn xây dựng mười mạng lưới thần kinh khác nhau và chúng cho mười kết quả khác nhau. Sau đó, bạn cần phải bằng cách nào đó đánh giá kết quả. Và sau đó, bạn, với xác suất cao, trở lại giai đoạn đầu tiên. Không thể xây dựng một mạng phổ quát cho bất kỳ nhiệm vụ nào: bạn có thể xây dựng nó từ đầu hoặc sửa đổi mạng hiện có. Nhận dạng khuôn mặt là một nhiệm vụ, công nhận mèo là một việc khác.

Trong quá trình học máy, chúng tôi cũng tham gia, mà không biết. Ví dụ: giới thiệu captcha trên các trang web: sử dụng captcha, các mạng thần kinh được đào tạo của Google để số hóa sách.

Chúng tôi phải hiểu rằng các công ty thu thập dữ liệu lớn không quan tâm đến hồ sơ cá nhân của chúng tôi. Họ cần dữ liệu về rất nhiều người khác nhau, những người quan tâm đến một cái gì đó cụ thể. Đối với các dịch vụ đặc biệt, tôi nghĩ họ có thể thu thập dữ liệu mà không cần dùng đến mạng xã hội. Tôi nghĩ rằng nỗi sợ hãi của chúng ta rằng chúng ta đang bị theo dõi sẽ sớm vượt qua. Đây là thế giới mới: có thể không theo dõi trang web, nhưng rất khó. Thật dễ dàng hơn để không xuất hiện trên Web.

ẢNH: antonsov85 - stock.adobe.com

Để LạI Bình LuậN CủA BạN