澎湃Logo
下载客户端

登录

  • +1

标题党的终极形态是怎样的?我们用AI做了个实验

澎湃新闻 舒怡尔 王亚赛 实习生 许佩 王羽翔
2022-08-05 12:05
来源:澎湃新闻
美数课 >
字号

天下苦“标题党”久矣。

“刚刚!”“震惊!”“原因竟是……”总是一惊一乍,故弄玄虚,像张牙舞爪的食人花,铆足了劲想把读者叼进去。

这些或长或短的标题,可能就无意间影响了你,和你的行为。正如社会学家曼纽尔·卡斯特(Manuel Castells)所说:“我们感受和思考的方式决定了我们行动的方式。”

但要人客观衡量一篇文章“标题党”的程度,又好像有些为难。我们请来三个AI作裁判。第一个AI能根据文章的内容生成标题;第二个AI可以算出标题的情绪化程度;第三个AI能“公正”地给标题打分:它有多吸引人点进来?

这就像我们借着AI做了一个思想实验:如果放手让数据做主,标题会定格成什么样的形状?

实验一:称一称情感的重量

多少人受过标题的骗?标题十万火急,点进去,它却告诉你“没事了。”

根据新榜的六月榜单,我们选取了14个不同领域的头部微信公众号,想看看最受欢迎的账号是如何取标题的。

我们把对应的文章内容喂给“标题生成AI”,试图来一场标题巅峰对决。

AI取的标题一般都比原标题简短,直来直去,有时候会拆原标题的台。不过,如果文章的插图过多而文字太少,或者用词太晦涩,AI就卡壳了。

但总体来说,AI生成的标题能大致概括文章的意思。

于是,我们请来“情绪倾向分析AI”,来帮我们算算文章标题和内容的激动值。数值越高,表示越情绪化。

像陈列在货架上的不同款式的喇叭,头部公众号的标题的情绪化程度都颇高。其中超半数的公众号的标题情绪都激动过正文内容。有时点进标题,会有种坠崖般的失重感。

大号的标题一直这么激动吗?

我们选择前文所述的标题比内容激动的8个公众号,查看两年前它们在一个月内发表的文章,看看情况如何。

我们发现,有些公众号的激动值比起2020年甚至是下降的,比如“虎嗅APP”。

但头部公众号在标题比正文激动的路上越走越远,是一个比较明显的趋势。如果把标题和内容放在天平的两端,那标题这一端,越变越沉了。

实验二:偏见会收敛至何处?

世界上最难隐瞒的有两件事:咳嗽和爱。现在加上第三件,新闻里出事的是女司机这件事。这是标题党百试不爽的套路。

那有没有什么方法,可以拆解受欢迎的标题的“套路”,并衡量这些“套路”的效果?

标题评分AI或许可以做到。“壹伴”的创始人杨慧杰在2019年接受《PingWest品玩》采访时介绍,这个AI由1800万个标题,结合文章的阅读数、点赞数和留言数训练而成,准确率达到87%。

训练过程虽然犹如黑箱,但这个AI可以简单看作一个面面俱到的统计模型,它总结出了过往文章标题的传播规律,化为内功。它给标题打出的分数,可以理解为这个标题的“潜在传播指数”,也就是标题对读者的吸引力高低。

不是错觉,标题在越变越长。

公众号“英国那些事儿”6月26日发表文章《21岁女星被79岁丈夫当众枪杀。丈夫仗着权势作恶多端,前两任妻子也死得离奇...》,标题一共有36个字符。AI给这个长标题打出了95.6的高分。

文章主要讲了一起凶杀案:女星被丈夫当众枪杀了。随着文章的展开,丈夫的累累前科被逐渐揭露,而且,他的前两任妻子也都是非自然死亡。当你花了几分钟读完这篇文章,你会发现,原来标题早就已经把内容说完了。

标题里还有一个信息,21岁女星与79岁丈夫的年龄差,好像这很重要似的。尽管女星是一个毋庸置疑的受害者,仍有读者留言道:“21-79这女的也好评价吗”。

标签是个很好用的“提分”法子。正如偏见不是简单的叠加,标签带来的效果也不是。

随着标签的增加,标题的分数并非直线上升,而是浮浮沉沉,直到“上海、女、博士、优越感”的组合拳,打出了最高分。

标题越长越好,信息越多越好,身份越具体越好。AI暗示道。

那么,什么是容易被用作制造偏见的标签?

我们请三个人各自从这近三千条标题中挑出他们认为存在偏见的标题,并标出有问题的关键词,合在一起,一共195条。

“中年”出现了3次。“年轻人”出现了6次。“00后”出现了9次。具体的年龄被强调了26次。

“男”出现了19次。“女”出现了43次。

如果是不必要强调的标签,我们把标签去掉,看潜在传播指数的波动情况,认为波动超过5分的,是在传播度上有区别的标题。

比起年龄、地域,性别是最有效的武器。

招人烦的女明星、不要脸的女网红、出差只有一间房时让人为难的男领导……这时性别为什么被拎出来强调?偏见就是对一个群体的特定的想象,而高分标题在一次次重复这种想象。

具体的年龄对提高AI对标题的评价不常起效果。但分门别类后的年龄有效,无论是按世代划分,还是按人生阶段划分。我们发现,曾经备受关注的90后已经全面失宠了,如今是00后和中年人霸屏的时代。

或许得等到90后变成中年人,让这些游离的人,钻进下一个标签里,才能重新收获关注。

鸡生蛋,还是蛋生鸡?AI给标题打分的依据是公号标题的历史表现。也就是说,分数越高,人们就越爱读。人们越爱读,公众号就越去制造这样的标题。

《算法的力量》一书中写道:“在未来,我们如何感知世界将越来越多地由数字系统向我们揭示或隐藏的东西所决定。当我们只体验到世界的一小部分时,呈现在我们面前的那一部分将起到重大作用。”

如今,互联网产生的信息就好像一条湍急又阔大的河流,人在其中,就好像一个小点,只能感受一股水流的方向。保持对整条河流的好奇心,也许是不被“标题党”左右的最好办法。

标题激动值计算方法:百度情绪倾向分析AI对每个标题都会返回标题是积极的可能性(记为pp),消极的可能性(记为pn),有pp+pn=1,pp和pn中哪个更大决定了标题的情绪属于哪个类别。我们取(pp, pn)中的最大值(记为pm),则pm就在0.5~1之间,令x=(pm-0.5)*200,则x就在0到100之间,即x就是文中标题的激动值。

    责任编辑:吕妍
    校对:丁晓
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈