軟體使用方法非常簡單:用戶上傳一個文本文件,或粘貼一段不少於 50 詞的段落到軟體裡,文字輸入幾分鐘過後,該程序即做出性別判斷:男性、女性或是中性。判斷為中性說明文本中有些文字已經過濾掉可以顯示性別的部分。研究人員表示,這種現像在科技文本中尤為常見。
為了編寫這套性別識別程序,研究小組查閱了海量路透社新聞檔案的署名新聞稿,並參考了已破產的安然( Enron)能源公司的大量電子郵件數據,在這些文件中蒐集『心理語言( psycho-linguistic)』因素,包括某些特定詞語、標點符號的使用風格等。先前的研究已經確認了這些因素。研究人員總共發現了 545 個『心理語言』因素,從中選出 157 個具有顯著性別特徵的因素,包括男性和女性使用標點符號的風格、文章段落長度之間的差異等等。
其他有顯著性別特徵的語言因素,還包括使用可以表明作者情緒或情感的文字,以及帶有強烈感情色彩的副詞和形容詞的使用頻率,如:女性最常用『真的』、『迷人』、『可愛』等詞,男性則會更頻繁用『我』這個字,而女性經常用問號。最後,軟體運用貝葉斯算法(Bayesian algorithm)將所有因素結合起來,綜合考慮後得出作者性別的可能結果。
不過軟體的測定結果並非總是正確,目前在軟體中輸入一段文字後,性別判斷準確率只有 85%,但是隨著使用人數增加,資料庫數據日趨完善,準確率相對也會有所提高。因為軟體判斷錯誤,用戶會向系統指出錯誤,這有助於算法提高準確性。下一個版本的軟體將對 Twitter 和 Facebook 上更新的內容進行分析。
英國牛津互聯網學院(Oxford Internet Institute )的社交網路技術專家伯尼·霍根(Bernie Hogan)認為性別鑑定技術十分有用。他表示能夠提供一些額外的關於作者性別的線索總歸是件好事,有益無害。霍根還表示,判斷結果為『中性』時,也可能表明有人正在試圖用刻意使用違背本人性別的方式發表言論,而軟體也許能就此提供強有力的證據。
筆者在此深深認為,隨著網路犯罪、詐欺(金錢、感情等)日趨嚴重的時間點,無疑對家長及執法單位來說是個福音!
===============================================
★數位夢想★ 由 Redwolf 製作以 創用CC 姓名標示-相同方式分享 3.0 台灣 授權條款 釋出
沒有留言:
張貼留言
1、本留言處歡迎多加留言交流,但不歡迎垃圾留言及廣告留言
2、留言時可以使用部份 HTML 標記
3、對於教學文章介紹或軟體使用有問題歡迎提出,若站長沒回應表示不清楚該問題的解決方案
4、留言時請勿留下電子郵件,以免因搜尋引擎爬文而造成您的困擾,且站長不會寄相關郵件給您,僅會在留言區提供解決方案
5.站長保留不當刪除留言的權力,若造成不便尚請見諒