2. 香港理工大学土地测量与地理资讯学系, 香港 999077
2. Department of Land Surveying and Geo-Informatics, The Hong Kong Polytechnic University, Hong Kong 999077, China
信息论诞生于20世纪40年代,是通信领域的核心理论基础,同时也在众多学科中广泛应用,形成了诸如生物信息学、化学信息学、神经信息学、生态信息学、地球信息学等一系列的交叉学科。信息论中最基本的科学问题是信息的度量,最广泛使用的、最受认可的度量方法是由克劳德·香浓(Claude Shannon)于1948年提出的香浓熵。熵的概念源于热力学,是无序程序(语法信息)的度量标准。香浓熵是一种基于数据成分之比例(即直方图)的指数,因此其测度的结果往往被称为统计信息。
香浓熵在空间数据的信息度量方面存在很大的局限性:首先,空间数据不仅讲究成分(即组分;composition),更讲究配置(即空间分布;configuration)。但香浓熵只能刻画部分成分信息(即成分之比例),完全无法刻画配置信息。为突破香浓熵的局限性,学术界提出了众多改进版本。其次,香浓熵与热力学的相关性在近年来受到越来越多的质疑。因此,国际上有呼吁认为,应当改用真正诞生于热力学领域的玻尔兹曼熵刻画信息。玻尔兹曼熵由路德维希·玻尔兹曼(Ludwig Boltzmann)于1872年提出,但迄今依然多停留在概念层面。
本项目旨在研究空间数据玻尔兹曼熵的概念、计算、应用,重点关注数值型栅格数据(即图像),主要工作如下:
(1) 全面回顾并系统评估了香浓熵的改进版本。将香浓熵的改进版本划分为改进型香浓熵和香浓熵变种,并提出了5条篇标准、设计了试验数据集对所有版本进行评估。结果表明,暂无任何改进版本能够作为图像空间信息的度量指标。这一结果支持了重返玻尔兹曼熵的呼吁。
(2) 提出了一种基于层次结构(多尺度)的图像玻尔兹曼熵计算方法。玻尔兹曼熵的计算依赖于宏观状态的定义和微观状态数的测算。研究发现,图像的理想宏观状态为其升尺度的结果。因此,微观状态数的测算转换为测度宏观状态降尺度后的结果的多样性;换言之,测度宏观状态降尺度后成为原图像的可能性。由于图像可形成多尺度表达,因此微观状态数可在两两相邻尺度之间测算,得到相对玻尔兹曼熵;也可在所有的相邻尺度间测算,得到绝对玻尔兹曼熵。研究表明,该算法行之有效,其计算的玻尔兹曼熵是理想的图像空间信息量的度量指标。
(3) 提出了两种策略用于提高图像玻尔兹曼熵算法的计算效率,即解析法和并行法。试验表明,综合使用两种策略,可大幅提高图像玻尔兹曼熵的计算效率。例如,使用相同的计算平台求解大小为1000×1000的图像的绝对玻尔兹曼熵时,时间可由2557 s降低为41 s。
(4) 提出了一种验证熵的热力学一致性的方法,并用于测试图像的相对和绝对玻尔兹曼熵。结果表明,由上述算法得到相对玻尔兹曼熵具备热力学一致性,而绝对玻尔兹曼熵的一致性不强。通过假设与检验,确定出其不一致的原因,并提出了两种可行方案以解决该问题。
(5) 为证明玻尔兹曼熵的用途,提出了一种基于玻尔兹曼熵的高光谱遥感影像最佳波段选择算法。试验表明,该方法在各类基于熵的波段选择算法中表现最优。
综上所述,玻尔兹曼熵可能将为空间数据尤其是图像的处理提供新的信息论基础。同时,玻尔兹曼熵也或将为地理格局与过程的耦合关系提供热力学解译基础。