最近对空间统计算法比较感兴趣,从源头出发,先了解以下地理三定律的几篇论文。
这一篇笔记记录的是第一篇Tobler的《A Computer Movie Simulating Urban Growth in the Detroit Region》,在这篇论文中他提出了知名的地理学第一定律:everything is related to everything else, but near things are more related than distant things.
底特律地区城市增长的计算机模拟影片
1. 概述
这篇论文主要描述了作者开发的一个计算机模拟模型,用于模拟底特律地区的城市增长过程。主要内容包括:
-
模型背景和基本思路:作者提出“一切事物都与其他一切事物相关”的假设,并基于这个前提来建立一个简单的模型。作者认为简单模型更易于理解和展示洞察力。
-
模型设计:作者提出使用二维矩阵来表示地理空间分布,不同于一维的状态向量。模型假设每个单元格的增长与周围单元格以及过去时间段内的单元格相关。
-
模型方程:作者给出了一系列可能的增长方程形式。最后采用的是每个单元格的人口增长与过去邻近单元格的人口总和线性相关的方程。
-
模型计算:转换到频域后可以使用二维卷积定理进行计算。作者详细阐述了计算过程。
-
模拟结果:作者使用该模型模拟了1910-2000年间底特律地区的城市增长过程,生成了计算机动画。与实际数据对比发现该模型过于平滑化,无法很好反映中心商业区人口减少的趋势。
-
模型评价和展望:作者讨论了模型的一些不足之处,比如时间和空间尺度选择,提出了一些可能的改进方向。总体而言该模型较简单直观,有利于认识城市增长动力学过程。
2. 地理学First Law
原文
“I make the assumption that everything is related to everything else” [Tobler, 1970, p. 1]
“I invoke the first law of geography: everything is related to everything else, but near things are more related than distant things.” [Tobler, 1970, p. 3]
一切事物都与其他一切事物相关,但近处的相关性大于远处。这是空间自相关性的源头描述,听起来像是一句正确的废话,但其实在学术侧及应用侧都有大量延伸。
应用场景或许可以参考点位分析里面的点位评估,比如说你现在手上有一个店面想要租下来,但不知道拿来开什么店更好。这时如果你要去追溯这一篇区域里所以POI点位是怎么来的,为什么隔离是一个士多店而不是酒店,你可以一直要追溯到城市化的最源头。但实际上你并不需要这么做,而只需要分析目前半径范围0-3km以内的点位信息就足够了。
3. 复杂性与有效性
原文:
If one plots a graph with increasing complexity on the abscissa, and increasing effectiveness on the other axis, it is well known that science is only asymptotic to one hundred percent effectiveness.
如果在一个坐标轴上绘制一个随复杂性增加的图表,在另一个轴上绘制一个随有效性增加的图表,众所周知,科学只对百分之百的有效性渐近逼近。
这句话的意思是:
-
在一个坐标轴(横轴)上标注复杂性的增加
-
在另一个坐标轴(纵轴)上标注有效性的增加
-
如果画出这种图表,可以看到,随着复杂性的增加,有效性是渐进逼近100%的。
-
但是科学不可能真正达到100%的有效性。
-
科学模型在复杂性和有效性之间需要找到平衡。简单模型有效性不高,复杂模型虽然可以增加有效性,但不能无限复杂化。
-
作者的观点是,应该尽量设计简单的模型,同时保持一定的有效性。过于复杂的模型并不一定就是好模型。
所以这句话是说明科学模型在追求有效性的同时,也需要控制其复杂度,简单的模型有时候也可以取得不错的效果。它反映了作者倾向于建立一个相对简单和通用的模型的理念。
4. 泛化与特异性
原文
The level of generality seems inversely related to the specificity of the model.
泛化水平似乎与模型特异性成反比。这个句子的意思是:
一个模型的泛化能力(generality)和具体性(specificity)通常是反相关的。
这里的泛化能力指一个模型可以适用于的问题范围有多广,抽象程度有多高。
具体性指一个模型针对的问题有多具体,包含的细节有多丰富。
Between generality and specificity, there is a trade-off:
-
如果一个模型非常抽象和泛化,可以应用到更多不同的问题,但是由于过于抽象,在具体问题上的适用性和预测能力会下降。
-
如果一个模型非常具体和特异,针对一个很具体的问题,包含许多具体细节,那么它对这个具体问题的适用性很强,但泛化到其他问题的能力很弱。
所以在模型设计中,往往需要在泛化能力和具体性之间找到平衡。作者这里的意思是,他的模型追求更高的泛化能力,以适用于所有城市的增长,而不是只针对一个城市设计非常具体的模型。这反映了作者追求一个更简单通用模型的思想。
5. 无用的“预测”
原文
Suppose that the population data are assembled by one-degree quadrilaterals of latitude and longitude, of which there are approximately 360 by 180 on a sphere. If only land areas are considered, say 90 by 180 ≈ 1.6 x 10 4 cells. If a maximum population density of 5000 persons per square-mile is allowed, each quadrilateral can contain from zero to roughly 17.5 x 106 people. The number of possible population maps is then the number of states raised to the number of cells, that is, (17.5 x 106)1.6 x 10 ^ 4 ≈ 10 51. Not all of these are equally likely, and a prediction much better than random can be made by asserting that there will be no change from the present. This suggests that, from an information-theoretic point of view, a prediction does not contain a great deal of information!
这一段的意思是:
假设我们用1度的经纬度四边形来组织人口数据,在球面上大约有360×180=6.5万个这样的四边形。
如果只考虑陆地面积,约有90×180=1.6万个四边形。
如果每个四边形的人口密度上限是每平方英里5000人,那么每个四边形的人口数会在0到1750万人之间。
那么总共可能的人口分布地图的数量会是(人口数的状态数)的(四边形数)次方,也就是(1750万)^1.6万,约等于10的51次方。
这些可能的人口分布地图肯定不都同样可能。如果我们简单预测人口分布和现在相同,不会有变化,这样的预测已经比随机预测要好很多。
这说明从信息论的角度来看,人口预测并没有提供太多“新信息”。因为持续不变是一个很好的先验预测。
之所以这样讨论,是为了说明在评估人口预测模型的相关系数时,需要考虑到“持续性”的效应。不能简单认为预测值和实际值相关系数为0就代表预测无用。
换句话说,如果通过模型进行预测,得到的结果和现在相同,这其实已经比随机预测的结果要好。但从信息论角度看,这样的预测似乎不能得到什么新信息。在评估预测模型的时候,不能忽略事物的固有持续性。一个与当前实际高度相关的预测,其实也提供了一定程度的有用信息。
6. 所谓pedagogic
原文
From a pedagogic point of view the model presented here has the distinct advantage that its shortcomings are obvious.
从教学的角度来看,这里提出的模型有非常明显的优势,那就是它的缺点也非常明显。
指的是这个模型虽然有缺点,但作为一个教学示范模型来说,它的缺点明显易见,具体来说:
-
这个模型比较简单和直观,有利于说明建模思路。
-
模型在应用中明显的缺陷(如过度平滑化),可以作为案例来分析模型的局限和改进方向。
-
模型的假设也较为简单化,有利于说明地理模型建立过程中可能忽略的复杂因素。
-
整体来说,这个模型容易解释和理解,适合作为教学演示案例,来讲解地理模型建模过程中的各种概念和步骤。
所以这里“教学角度”的意思是说,从教学使用的角度来看,这个模型有自身的优势。
7. 计算的目的是洞察力,而不是数字
这句话出自引文 13 Hamming, R. Numerical Methods for Scientists and Engineers. New York: McGraw-Hill, 1962.
Richard Hamming 的书《Numerical Methods for Scientists and Engineers》中的第一章“The Purpose of Computing”。
Richard Hamming是一位著名的美国数学家和计算机科学家,1968年图灵奖得主。他的工作对计算机工程和电信领域有着许多重要影响。他的贡献包括哈明码(利用哈明矩阵)、哈明窗口、哈明数、球装(或哈明界限)、哈明图概念和哈明距离。
Richard Hamming被誉为“计算机科学的先驱者”,他在编码理论、数值计算、计算机编程等多个领域都有重大贡献和影响力,是一位杰出的科学家。他提出的许多概念和算法对今天的信息科学仍有重要意义。
该书作者Richard Hamming在第一章中讨论了计算的目的。主要观点有:
- 计算的目的是获取洞察力,而不是简单地得到数字结果。我们应该关注问题本身,而不是计算过程。
- 许多科学家失败的是因为计算方法而不是计算机能力的限制。应该选择合适的方法,才能得到真知识。
- 我们应该关注问题而不是方法。方法只是获取洞察力的工具。重视方法本身会使我们失去方向。
- 要找到重要的问题并提出合适的抽象,才能通过计算获得对现实世界的深刻洞察。
- 计算并不是目的,而是科学发现的手段。我们应该关注如何从计算中获得对现实问题的新认识。
- 合适的计算抽象和模型对获得洞察力至关重要。抽象决定了我们能发现什么。
- 通过计算获得洞察力是作者强调的核心观点。这句话提醒我们,计算的目的不是数字,而是新的发现与认识。