搜尋本站文章

2011年6月26日 星期日

網路留言者是男?是女?軟體告訴你!

美國新澤西州霍波肯(Hoboken)史蒂文斯理工學院(Stevens Institute of Technology )的程娜(Na Cheng)及同事合作開發了一款在線性別測定軟體,可以通過分析文本判斷作者的性別。該軟體目前還在不斷升級完善,相信不久的將來,我們也許可以用這款軟體測出在網上給自己曖昧留言的人到底是男還是女了!開發小組表示,該軟體有助於保護兒童,使他們遠離網路上掩蓋性別的掠食者的引誘。

軟體使用方法非常簡單:用戶上傳一個文本文件,或粘貼一段不少於 50 詞的段落到軟體裡,文字輸入幾分鐘過後,該程序即做出性別判斷:男性、女性或是中性。判斷為中性說明文本中有些文字已經過濾掉可以顯示性別的部分。研究人員表示,這種現像在科技文本中尤為常見。


為了編寫這套性別識別程序,研究小組查閱了海量路透社新聞檔案的署名新聞稿,並參考了已​​破產的安然( Enron)能源公司的大量電子郵件數據,在這些文件中蒐集『心理語言( psycho-linguistic)』因素,包括某些特定詞語、標點符號的使用風格等。先前的研究已經確認了這些因素。研究人員總共發現了 545 個『心理語言』因素,從中選出 157 個具有顯著性別特徵的因素,包括男性和女性使用標點符號的風格、文章段落長度之間的差異等等。

其他有顯著性別特徵的語言因素,還包括使用可以表明作者情緒或情感的文字,以及帶有強烈感情色彩的副詞和形容詞的使用頻率,如:女性最常用『真的』、『迷人』、『可愛』等詞,男性則會更頻繁用『我』這個字,而女性經常用問號。最後,軟體運用貝葉斯算法(Bayesian algorithm)將所有因素結合起來,綜合考慮後得出作者性別的可能結果。

不過軟體的測定結果並非總是正確,目前在軟體中輸入一段文字後,性別判斷準確率只有 85%,但是隨著使用人數增加,資料庫數據日趨完善,準確率相對也會有所提高。因為軟體判斷錯誤,用戶會向系統指出錯誤,這有助於算法提高準確性。下一個版本的軟體將對 Twitter 和 Facebook 上更新的內容進行分析。

英國牛津互聯網學院(Oxford Internet Institute )的​​社交網路技術專家伯尼·霍根(Bernie Hogan)認為性別鑑定技術十分有用。他表示能夠提供一些額外的關於作者性別的線索總歸是件好事,有益無害。霍根還表示,判斷結果為『中性』時,也可能表明有人正在試圖用刻意使用違背本人性別的方式發表言論,而軟體也許能就此提供強有力的證據。

筆者在此深深認為,隨著網路犯罪、詐欺(金錢、感情等)日趨嚴重的時間點,無疑對家長及執法單位來說是個福音!

===============================================

創用 CC 授權條款
Related Posts Plugin for WordPress, Blogger...

沒有留言:

張貼留言

1、本留言處歡迎多加留言交流,但不歡迎垃圾留言及廣告留言
2、留言時可以使用部份 HTML 標記
3、對於教學文章介紹或軟體使用有問題歡迎提出,若站長沒回應表示不清楚該問題的解決方案
4、留言時請勿留下電子郵件,以免因搜尋引擎爬文而造成您的困擾,且站長不會寄相關郵件給您,僅會在留言區提供解決方案
5.站長保留不當刪除留言的權力,若造成不便尚請見諒