社科文論選摘 理論研究

用戶數據的使用與隱私保護:認知誤區與規則界限

——從近日TikTok的辟謠事件說開去

楊秦霞

2020年08月14日 03:31

喻國明
光明網

近日,“TikTok背后是7億中國用戶數據隱私”的視頻在某網站上發布,8月9日,字節跳動官方賬號發表聲明,澄清稱“TikTok”是字節跳動旗下一款面向海外市場的短視頻應用,在產品運營過程中不會涉及國內用戶數據。此后,盡管原視頻已被發布者刪除,但其引發的輿論熱議并未在短時間內平息。眾所周知,智能時代是建立在大數據基礎上的,這其中當然也包括對于用戶數據的使用。站在國家和時代發展大格局的角度看,這一問題顯然并不僅限于一家互聯網公司發展的市場安全和輿論環境,而是關涉所有國內的或出海企業的數據使用與智能化處理的現實運作和未來發展,所以值得我們本著科學嚴謹的方式,以及對個人、對企業、對社會和對未來負責任的態度加以理性探討。

從目前看來,這一問題可以通過如下三個層面來觀察和分析:

一、個人數據使用的必要性和可能性

以這次事件為例,面向海外用戶群體的TikTok是否需要并且可以獲取字節跳動在中國的用戶隱私數據?從字節跳動的公開回復和技術邏輯的角度看,答案是否定的。

1. 數據使用的閉環邏輯是“一把鑰匙開一把鎖”

傳播學的研究表明,不同性別、年齡、教育程度,特別是居住地的政治、經濟、文化、社會背景等因素,都會對于用戶的媒介產品使用行為產生重要影響。因此,不同傳播市場的用戶洞察需要與其自身的用戶數據相對應才是適配的。顯然,世界各地的用戶都有自己獨特的傳統、行為特點與興趣偏好。對于國內用戶使用抖音數據集進行訓練所生成的模型,其推薦算法并不能實質性地讓使用TikTok的海外用戶產生更好的使用體驗、提高用戶粘性,甚至會對于模型的準確性造成干擾。因此,使用國內數據實際上并無必要和價值。

2.智能算法中“遷移學習”的建模與運營需要全面的數據打通

根據字節跳動的公開信息,TikTok所有數據均為海外用戶,訓練數據集與中國區的抖音分屬兩個不同的產品,并且由兩個互不交叉的團隊獨立運營,其用戶數據是嚴格隔離的。TikTok使用的是國外當地用戶數據來進行建模。在這個前提下,所謂“遷移學習”就不成立了,因為推薦系統主要依賴協同過濾,而協同過濾的核心是基于人(指用戶)和物(指視頻)兩個維度進行推薦。由于TiKTok與國內的產品內容和用戶數據是彼此隔離的,不但遷移學習的收益非常小,而且跨越數據隔離的成本收益也是完全不匹配的。因此,從底層技術邏輯上,兩個產品共享用戶數據或模型既無必要,也無可能。TikTok不但無法獲取字節跳動在中國的用戶隱私數據,而且其價值動因也不成立。

二、用戶數據與智能算法上的創新

以TikTok為例,TikTok基于海外用戶數據,做了哪些算法上的創新應用?我們可以看到,TikTok以及字節跳動的算法優勢在于其“推薦”系統,即TikTok上的“For You”。

根據2020年TikTok就推薦算法所公開發表的文章,推薦系統會根據用戶與應用程序互動過程中表現出來的偏好,例如發布的評論或關注的賬號等,來為用戶推薦內容。從新用戶表現出的興趣“冷啟動”開始,推送系統根據推薦算法對相關視頻進行排序,以確定用戶對某條視頻所產生興趣的概率,最終形成個性化的“推薦”頁。

“推薦”基于多個因素,包括用戶互動,例如用戶點贊或分享的視頻,關注的賬號,發布的評論和自己創作的內容等;視頻信息,可能包括文字說明、聲音和標簽等詳細信息;設備和賬戶設置,比如語言偏好、國家設置和設備類型等。推薦系統對這些因素進行處理,并根據它們對于用戶的價值進行加權計算,權重賦予的最為重要的指標是興趣指標,比如用戶是否從頭到尾看完了一條長視頻等。

因此,開發和維護TiKTok的推薦系統是一個連續的過程。算法的關鍵是采自服務對象的數據,有了當地產品算法的基礎框架后,持續增長的當地數據會不斷訓練優化算法。字節跳動基于海外用戶信息,將根據用戶、研究和數據的反饋來改進準確性,調整模型并重新評估有助于推薦的因素和權重,這也有助于做好各區域市場的在地化,更好地服務當地用戶,進一步提升用戶體驗,幫助用戶發現APP使用的樂趣,這樣的產品才可能受到所在地用戶的歡迎。

三、智能化服務的商業公司使用用戶數據的合法的、可持續的前提是對于相關法律要求的合規化

伴隨著技術的迅猛發展,人工智能領域的數據隱私問題,逐漸成為專家學者和普通網民用戶共同關心的領域。特別是“臉書泄密門”發生之后,個人數據隱私、算法“黑箱”等信息倫理問題的相關探討與研究日益增多。

人工智能自動化決策的過程,成為個人數據隱私的最大隱患。因為人工智能程序并不像傳統分析一樣,對數據進行線性分析,而是學習數據、調整算法、智能回應新數據,來作出新的決策,這使得信息的處理過程往往成為一個算法黑箱,很難為一般人所理解,甚至也很難為專業人士所理解。

全國人大常委會《關于加強網絡信息保護的決定》指出,國家保護能夠識別公民個人身份和涉及公民個人隱私的電子信息。那么,在國內用戶使用抖音短視頻產品時,我們的搜索、瀏覽、播放、互動等相關信息是否能夠受到保護呢?答案是肯定的。

1.任何一家想要做大做強、且可持續發展的智能化商業公司都會對于相關用戶數據實行嚴格存儲與保護,防止隱私泄露和信息外流,這是合規的起碼要求

在字節跳動公司所發布的《“抖音”隱私政策》(2020年2月20日)中明確了信息共享的原則,包括授權同意原則,“未經您的同意,我們不會共享您的個人信息,除非共享的個人信息是去標識化處理后的信息,且共享第三方無法重新識別此類信息的自然人主體”;合法正當與最小必要原則,即“共享的數據必須具有合法正當目的,且共享的數據以達成目的必要為限”。關于數據存儲地點,則明確規定了信息不能傳輸至境外,“依照法律法規的規定,將在境內運營過程中收集和產生的您的個人信息存儲于中華人民共和國境內。目前,我們不會將上述信息傳輸至境外”。

2.智能化技術在數據的使用上是采用“去標識化”的處理,用以保護用戶隱私

有學者提出,從數據生命周期來看,數據發布階段的匿名發布技術,數據存儲階段的加密存儲技術和審計技術,數據使用階段的加密訪問控制技術等不斷完善。在技術上,通過隱私保護技術完成數據流通和數據處理,避免數據直接流通導致泄露用戶隱私。近兩年來,聯邦學習技術(Federated Learning)作為一種新的分布式學習方法,共享模型參數更新,而不是客戶端設備中的原始數據,也展現了強大的用戶隱私保護能力。在《“抖音”隱私政策》中,關于隱私信息管理技術也規定,“使用不低于行業同行的加密技術、匿名化處理及相關合理可行的手段保護您的個人信息……采取嚴格的數據使用和訪問制度,確保只有授權人員才可訪問您的個人信息,并適時對數據和技術進行安全審計”。

3.從算法上看,智能算法模型是不可逆,因此是無法反推用戶隱私信息的

根據匿名網民的評論,分布式機器學習不是傳輸數據,而是傳輸一個訓練好的模型?!奥摪顚W習的出現就是為了公司希望獲得數據來訓練模型,但是又不能泄露用戶隱私,所以會在用戶本地設備上進行一次學習,將學習好的簡單模型上傳至公司端,再對參數進行聚合等操作之后再來訓練,得到一個較好的模型之后將模型參數傳回去,對每個設備進行一次模型優化,以此迭代?!比欢?,也有網民提出,這也有可能涉及隱私問題,“通過訓練完成的神經網絡模型反推出訓練數據中的敏感信息”,他者有可能利用模型的輸出結果,通過參數、權重,來倒推某些訓練數據中的敏感信息的可能性與結果。

然而,從總體來反向推斷樣本,所謂“AI的逆向推理和特征解碼”,其實現的可能性有多大,可信度與效果究竟如何,依然未經過大量科學研究的正式檢驗。正如網友“琉璃”所說,“機器學習模型本質是一個統計信息的集合,這種推介算法模型只能提供群體的興趣傾向性的統計信息。從模型反推原始數據極難,而且沒多少意義”。

四、簡要的結論

必須指出,個人隱私保護是必須的,但個人信息的合法使用也是智能化發展中所必須的。其中是否合理合法的界限是:個人信息的采集和使用必須履行知情同意的原則,并且不因個人信息的采集和使用而對相關個人的利益、形象及社會關系產生明確和實質性的負面影響。在此界限下,我們應以開放的態度迎接智能化時代的到來,并且提升我們對于智能化技術的理解,為中國互聯網企業的發展營造良好輿論氛圍和社會支持。

作者:教育部長江學者特聘教授、北京師范大學新聞傳播學院執行院長、中國新聞史學會傳媒經濟與管理專業委員會會長 


]]>

2020年08月14日 11:30
520
正確面對人工智能新聞業的崛起 香蕉视频在线观看-亚洲精品国产在线观看-日本午夜成年在线网站