基于海量POI数据的城市小学教育资源信息提

分类:论文范文 发表时间:2021-04-16 10:05

  摘要:通过网络爬虫获取海量POI数据具有巨大的应用前景。文中利用改进后的两步移动搜索法,计算居民区的教育资源可达性,评价以市为单位的小学教育资源的状况,将各市的GDP与教育资源可达性进行相关性分析,评价各省经济发展与城市教育发展的相关程度,为政府部门提供决策依据。同时,研究POI数据的预处理方法和分类方法。

  关键词:POI;海量数据;城市小学教育资源;可达性;数据挖掘

  大数据在近几年是一个热门话题。大数据(bigdata)是体量巨大(volume)、多种多样(variety)、高速变化(velocity)、真实质差(veracity)、价值密度低(value)的复杂数据集合[1-3]。这种定义指出大数据最为核心的问题就是如何从规模巨大、种类繁多、生成快速的数据集中挖掘出有用的信息,进而转变成知识,为用户提供决策服务,实现大数据的价值。大数据中约有80%的数据是与空间位置相关的[4]。POI的中文含义即兴趣点,它没有严格的定义。从地理编码的角度理解,可以认为凡是对地点地理位置具有指示或标示作用的名称都可以叫兴趣点[5]。兴趣点一般包含有名称、经纬度、地址等方面的信息,最大的特点是其中的位置信息[5]。但是,如何仅仅通过POI的位置信息挖掘出具有实际应用价值的信息是目前POI应用分析的难点。2012年国务院提出了关于推进义务教育均衡发展的意见,充分认识义务教育均衡发展的重要意义。小学教育是9年免费义务教育的重要一环,对小学教育资源发展进行评价有着重要意义。

基于海量POI数据的城市小学教育资源信息提取与分析

  1分析方法与技术路线

  小学服务半径范围内交通点(公交站,地铁站)的个数可以表征该所小学的便捷程度,个数愈多,便捷程度就越高。教育资源的可达性[6]是指学生从家(居民区)到学校(教育资源)的方便程度,它可以反映学生可获得的教育资源的多少。按照就近上学的原则,居民区出行距离范围内最近的小学的便捷程度可以作为居民区的教育资源可达性。POI数据是一种代表现实地理实体的点状数据,它可以代表交通点、小学、居民区甚至是占有一定面积的地理存在,通过海量POI数据,可以获取小学、居民区和交通点的分布情况以及位置关系信息,计算出便捷程度和教育资源可达性。网上获取的POI主要是城市范围内的,对小学教育资源信息的分析与提取也是以城市为研究对象。

  2海量POI数据的预处理

  本实验的POI原始数据来源于百度、图吧、图盟、腾讯等国内主要大型地图服务网站,经加工处理后的标注总量为13362917条,包括全国范围内的24个省/市,成果为分省导出的shp文件,共计13.8G,整理日期为2014-02。每条POI点的记录有8个字段,分别是FID、Shape、ID、name、X、Y、ad-dress、city。其中可用的信息包括name(名称),X,Y(经纬度坐标),address(地址),city(所在城市)。实验需要的POI数据有以下要求:无奇异数据、无重复项、保持数据格式的一致性、建立统一的坐标系、确定统计单元以及POI点之间的距离是点位置间的欧式距离。针对POI数据的要求,做如下处理:

  1)去除奇异点。对经纬度按从小到大进行排序,删除经纬度不在研究区域内的点。

  2)去重处理。删除名称相同,经纬度坐标相等的点。

  3城市小学教育资源数据的提取

  实验需要对海量POI数据进行分类并提取出小学类、交通点类,居民区类。POI标注的信息结构主要包括名称、坐标及地址3种信息。由于坐标信息不带有文本描述属性,不具有文本分类的作用[9],地址信息表征的是POI点的相对位置,不具有分类特征属性,因此,将POI名称作为分类的重要研究对象。现阶段,对于中文POI名称分类的方法还比较少,刘晓娟提出一种基于Lucene的中文POI名称的切分与匹配方法,罗安提出了一种基于角色标准的中文POI名称语义分类方法等等[9-11],但都未做到完全正确的自动分类[12-14]。本实验采取特征关键词与POI名称进行匹配的方法。例如小学类:名称字段中包含“小学”字段的POI归为小学一类。分类后的POI数据存在2类问题:①某类POI数据中存在其它类别;②重复性的问题,例如:“武汉市黄陂区前川街道第一小学”,“武汉市黄陂区前川街道第一小学(南门)”,“武汉市黄陂区前川街道第一小学(西南门)”,这3条POI数据都会是小学类,但是实验只需要其中的一条数据。为保证实验数据的准确性,采用人工交互的手段。3个类别特征关键词的确定,由于国家对于POI分类没有制定国家标准规范,因此采用的是企业标准,即天地图有限公司2013年发布的天地图POI数据分类编码表。

  4改进后的两步移动搜索法

  本文在传统两步移动搜索法[15]的基础上,针对POI数据的特点和城市内小学生多采取就近上学的原则,进行了两方面的改进:①考虑到通过POI的位置信息来计算教育资源,将小学的便捷程度代替小学规模与人口的比值。②以居民区最近小学的教育资源代替居民区出行距离内小学教育资源的和,来代表居民区的可达性指标。因此,改进后的两步移动搜索法的第一步:以小学i为中心,以小学的服务范围(d0)为半径,建立搜寻域i,搜索所有在i距离阈值范围内的交通点m,作为该小学i的便捷程度,见公式(2)。

  结束语

  本文从海量POI数据的预处理,到数据的计算,最后到数据的可视化与分析,实现了从海量POI数据中,通过统计专题图和图表的形式,评价大区域范围内城市小学教育资源的可达性,经济与城市小学教育发展的相关程度,以及提取城市小学教育资源的信息,从而验证了实验方法的可行性。POI数据覆盖的范围非常广,除了教育方面的应用,还可以应用在公共安全、公共医疗以及城市规划等政府关切的领域。总的来说,本文对海量POI数据信息的挖掘有一定的参考价值,对于海量POI数据的应用有一定的启示。

  参考文献:

  [1]UNITEDNATIONSGLOBALPULSE.2012,BigDa-taforDevelopment:Challenges&Opportunities[R].2012.

  [2]MCKINSEYGLOBALINSTITUTE.2011BigDatatheNextFrontierforInnovation,Competition,andProductivity[R].2011.

  蓝振家,郭庆胜,董慧娟,刘晴,尹航

上一篇:“90后”小学教育专业本科生教师职业认同感调查 下一篇:基于职业能力导向的小学教育本科专业实践教学