- +1
基于决策树的新能源汽车事故关联出行特征分析研究
原创 《道路交通管理》 道路交通管理杂志社
导读
本文基于新能源汽车出行轨迹,构建了出行起始时间、出行终止时间、出行总时长、出行总里程、出行时间重复率、出行空间重复率等时空特征,通过新能源汽车出行信息增益值计算,确定了新能源汽车出行特征对交通事故的影响程度。经实例验证表明,新能源汽车出行总里程指标与交通事故关联程度最高,新能源汽车出行时间重复率和出行空间重复率都与交通事故有较强的相关性,这对于新能源汽车事故的精准防范具有现实指导意义。
据国家相关部门统计,截至2022年3月底,全国新能源汽车保有量达891.5万辆,占汽车总量的2.90%。其中纯电动汽车保有量724.5万辆,占新能源汽车总量的81.27%。一季度新注册登记新能源汽车111万辆,占新注册登记汽车总量的16.91%,与去年同期相比增加64.4万辆,增长138.20%,呈高速增长态势。新能源汽车产业发展之快,已经大大超出了人们的预期。相较于传统燃油汽车,新能源汽车具有用车成本低、不限行等优势,成为越来越多城镇家庭用车的首选车型。但受制于新能源汽车电池、电机、电控等技术,新能源汽车运行安全形势不容乐观。2022年4月,国家工业和信息化部、公安部、交通运输部、应急管理部、国家市场监督管理总局联合下发了《关于进一步加强新能源汽车企业安全体系建设的指导意见》(工信厅联通装〔2022〕10号)文件,进一步明确并要求压实新能源汽车安全保障措施。针对现有的新能源汽车事故分析及预测模型往往使用现有交通事故统计的静态数据现状,而新能源汽车出行轨迹是动态的时空序列,既能反映车辆的出行偏好,又能部分体现交通事故发生的时空规律,本文为此以新能源汽车事故出行动态特征为突破口,深入分析新能源汽车事故发生的时空特征,初步构建了新能源汽车出行轨迹与交通事故之间的内在属性,以便客观、准确地解析新能源汽车事故发生及演化规律,为新能源汽车事故的精准防范提供参考依据。
一、出行特征
新能源汽车泛指以车载电源为动力和用电机驱动车轮,且符合道路交通、安全法规各项要求的的电动汽车,包括纯电动汽车、混合动力汽车和燃料电池汽车。从国家相关部门统计看,纯电动汽车占新能源汽车总量的80%以上,且受供电能力局限而大多在城镇道路或城市群之间公路上行驶,新能源汽车的出行特征相对固定,可以从国家新能源汽车监控信息共享平台中获取新能源汽车出行起始时间、出行终止时间、出行时长和出行里程等数据,同时,城镇道路或城市群之间公路上普遍建有车辆监测记录系统(俗称卡口系统),可以用于新能源汽车轨迹核查。为此,为了对比发生交通事故的新能源汽车和未发生交通事故的新能源汽车在出行特征上的时空分布,以及定性分析并理清此两类新能源汽车的出行特征差异,本文选用2020年百余辆有交通事故记录的新能源汽车在当年第四季度的卡口过车轨迹,将其作为发生交通事故的新能源汽车出行数据集;同时,随机选择的2020年没有交通事故记录的约150辆新能源汽车在第四季度的卡口过车轨迹,将其作为未发生交通事故的新能源汽车出行数据集。
如图1所示,以概率密度曲线和累积分布曲线,全面展示新能源汽车出行起始和终止时间上的两类新能源汽车出行特征。图中蓝色部分为发生交通事故的新能源汽车出行起始和终止时间的概率密度曲线和累积分布曲线;红色部分为未发生交通事故的新能源汽车出行起始和终止时间的概率密度曲线和累积分布曲线。从图中可知:一是从两类新能源汽车的概率密度曲线和累积分布曲线的总体趋势看,出行起始时间呈右偏分布,出行终止时间呈左偏分布,可理解为两类新能源汽车的出行起始时间主要集中在上午、出行结束时间主要集中在晚上,符合当前新能源汽车拥有者的正常出行逻辑。二是从两类新能源汽车的概率密度曲线和累积分布曲线的时序特性看,发生交通事故的新能源汽车分别有两次出行起始高峰和出行终止高峰,即出行起始时间集中在5~12时和15~19时、出行终止时间集中在6~8时和15~22时;而未发生交通事故的新能源汽车主要有一次出行起始高峰和出行结束高峰,即出行起始时间集中在5~12时、出行终止时间集中在15~22时。三是从两类新能源汽车的概率密度曲线和累积分布曲线的峰值分布看,发生交通事故的新能源汽车出行时间较为不固定,且开夜车的比例大于未发生交通事故的新能源汽车。
(a)出行起始时间
(b)出行终止时间图1 概率密度曲线和累积分布曲线
图2为新能源汽车出行时长和出行里程箱形图。其中,浅蓝色部分为发生交通事故的新能源汽车出行时长和出行里程分布箱形图;绿色部分为未发生交通事故的新能源汽车出行时长和出行里程分布箱形图。从图中可知:一是对比两类新能源汽车的箱形分布,发生交通事故的新能源汽车出行时长和行驶里程的总体水平要高于未发生交通事故的新能源汽车。二是对比两类新能源汽车的箱形峰值,发生交通事故的新能源汽车的极端值数量明显大于未发生交通事故的新能源汽车。从上述图1和图2可知,发生交通事故的新能源汽车与未发生交通事故的新能源汽车出行特征差异性十分明显,这有助于构建基于车辆轨迹的新能源汽车出行时空特征,以及进一步定量分析新能源汽车出行轨迹与其交通事故之间的内在关系。
(a)出行时长
(b)出行里程图2 出行时长和出行里程箱形图
二、关联分析
如表1所示,新能源汽车出行特征由出行起始时间、出行终止时间、出行总时长、出行总里程、出行时间重复率、出行空间重复率构成。其中,出行起始时间是指车辆所有出行起始时间的中位数;出行终止时间是指车辆所有出行结束时间的中位数;出行总时长是指车辆所有出行时长的累计值;出行总里程是指车辆所有出行里程的累计值;出行时间重复率是指最频繁的出行起止时间对占所有出行起止时间对的比例;出行空间重复率是指最频繁的出行起止OD对占所有出行起止OD对的比例。为了深入研究新能源汽车出行轨迹与交通事故之间的关联性,本文运用决策树算法对新能源汽车出行特征与事故车辆的重要程度进行量化评价。其中,决策树算法的基本思想是以信息增益来度量特征,选择信息增益最大的特征进行分裂,按照自顶向下的贪婪搜索遍历可能的决策树空间。具体操作流程包括:一是初始化特征集合和数据集合;二是计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当前决策节点;三是更新数据集合和特征集合,即删除上一步使用的特征,并按照特征值来划分不同分支的数据集合;四是重复上述两步骤,若子集值包含单一特征,则为分支叶子节点。因此,决策树算法使用信息增益作为分类标准,表示得知当前特征信息后使得整体样本集合不确定性减少的程度,而本文将信息增益作为评价特征重要程度的一个量化指标,取值为0到1,数值越大则表示该特征越重要,其计算过程包括:
1.按式(1)计算数据集的信息熵。
其中,Ck表示集合D中属于第类k样本的样本子集
2.按式(2)针对某个特征A,计算对于数据集D的条件熵H(D|A)。其中,Di表示D中特征A取第i个值的样本子集,Dik表示Di中属于第k类的样本子集。
3.按式(3)计算信息增益=信息熵-条件熵。
三、实例验证
为了验证本文构建的新能源汽车出行特征与交通事故之间的内在关系,依旧选取2020年百余辆有交通事故记录的新能源汽车在当年第四季度的卡口过车轨迹作为发生交通事故的新能源汽车出行数据集,以及未发生交通事故的新能源汽车出行数据集为随机选择的2020年没有交通事故记录的约150辆新能源汽车在第四季度的卡口过车轨迹作为样本数据集。根据表1定义的新能源汽车出行特征指标,按序计算新能源汽车出行特征指标向量,将发生事故的新能源汽车标签设为“1”、未发生交通事故的新能源汽车标签设为“0”,摘取部分样本数据见表2所示,然后利用决策树算法计算各出行特征重要性,量化各出行特征对交通事故发生的影响程度,计算结果见表3所示,验证了新能源汽车出行特征构建的合理性。
表2 部分样本特征数据
表3 出行特征重要程度
从表3中可以看出,本文所构造的所有新能源汽车出行特征中与交通事故关联性由大到小排名依次为:出行总里程、出行总时长、出行时间重复率、出行空间重复率、出行起始时间、出行终止时间。结合图2的箱形图可以看出,发生交通事故和未发生交通事故的新能源汽车出行时长和出行里程的数据分布差异性较大,进一步验证了本文运用决策树算法计算的出行时长和出行里程与交通事故之间的密切性最强,所构造的出行时间重复率、出行空间重复率也反映了出行者的出行偏好,同样得到了较高的相关性评分。END
本文作者:
公安部交通管理科学研究所 姜良维 张沛 孔晨晨 周云龙
基金项目:
国家重点研发计划 项目编号“2019YFB1600800”
本文刊发于《道路交通管理》2022年第7期
审核:李秀菊 / 李佳芯
编辑:李慧琪
传播安全知识 构建和谐交通
点击关注公众号
投稿邮箱:dljtgl120@126.com;dljtgl122@126.com
欢迎订阅
点击图片,一键下单
原标题:《基于决策树的新能源汽车事故关联出行特征分析研究》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




