研究人员用一个叫Winnow的软件分析了566份出版的文档,这些文档主要为英式英语。该软件首先经过了“调教”,收录了一批已经标明作者为“男性”或是“女性”的文章。从中,研究人员从词性特点进行统计,特别是一些在英语句子里不表示意义的虚词;或是一些短语,如“above the table”这样的用法。
然后,研究人员开始用未注明性别的文章来测试,涵盖了多种体裁。据称,准确程度达到了98%。
在研究中,研究者发现出自男性之手的小说多会出现以下词语:“a”、“the”和“as”;而更能证明作者是女性的词语是:“she”、“for”、“with”和“not”。而在非小说的文章里,男性更喜欢用“that”、“one”,而女性更常用“for”、“with”、“not”还有“in”等词。
虽然这样的研究还比较粗浅,但对于信息匿名的网络世界而言,这可以为“偷情成功”提供必要的性别判断依据(微笑脸)。
via nytimes