澎湃Logo
下载客户端

登录

  • +1

数说两会|1978年到2023年政府工作报告关键词盘点

澎湃新闻记者 舒怡尔 王亦赟
2023-03-05 15:35
来源:澎湃新闻
美数课 >
字号

2023年3月5日上午,第十四届全国人民代表大会第一次会议在北京人民大会堂开幕,国务院总理李克强作政府工作报告。澎湃新闻(www.thepaper.cn)从中国政府网上,整理了中国政府网上1978年至2023年共计46份《政府工作报告》中的常青词汇。结果显示,“发展”、“建设”以及“经济”等词语在过去46年中一直高频出现。

还有部分词语愈发频繁地出现在《政府工作报告》中。“创新”,1997年后开始被频频提起,因其增长趋势,澎湃新闻将此类词语称为“喇叭形词语”,类似的词语还有“就业”、“脱贫”等。

值得注意的是,2023年《政府工作报告》指出,要通过市场化机制激励企业创新,不断提高企业研发费用加计扣除比例,将制造业企业、科技型中小企业分别从50%、75%提高至100%。同时,疫情成为近几年不可忽视的大背景,《政府工作报告》指出,当前我国疫情防控已进入“乙类乙管”常态化防控阶段,要更加科学、精准、高效做好防控工作,围绕保健康、防重症,重点做好老年人、儿童、患基础性疾病群体的疫情防控和医疗救治,推进疫苗迭代升级和新药研制,切实保障群众就医用药需求,守护好人民生命安全和身体健康。从46年的《政府工作报告》来看,“小微企业”、“创业”、“高质量发展”等词语近年来也频频被提起。

澎湃新闻还对比了几组关键词在这46年间的趋势变化,“农业”与“工业”相比,在近四十年里被提及状况相对稳定,但两者被提及程度近几年来趋于一致。2000年以来,“制造业”与“服务业”几乎同时开始被提及,但是“服务业”的被提及率几乎都高于“制造业”,直到近五年“制造业”的被提及率超过“服务业”。

有些词虽然在《政府工作报告》里出现频率相对较少,但是它们首次出现的时间点都反映了当年中国人关注的热点问题。

分析方法:

1.本文所有原始文本材料来自中国政府网1978年至2023年政府工作报告。

2.本文使用jieba分词(https://github.com/fxsjy/jieba/)。采用精确分词模式,避免重复分词和歧义。分词结果均去掉数字、单字、标点符号。

3.为增加分词正确率,在jieba分词的基础上加入自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。

4.在分词基础上,采用TF-IDF加权技术。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文使用的语料库即1978年至2023年政府工作报告文本。

5.涉及合并的词语:自贸包括了自贸区、自贸试验区,城镇包括了城市、城镇。

    责任编辑:吕妍
    校对:张亮亮
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈