Blockchain and Deep Reinforcement Learning Empowered Intelligent 5G Beyond

2020-04-13 2020-04-13 约 7000 字预计阅读 14 分钟

警告

本文最后更新于 2020-04-13，文中内容可能已过时。

Day Y, Xu D, Maharjan S, 等. Blockchain and Deep Reinforcement Learning Empowered Intelligent 5G Beyond[J]. IEEE Network, 2019, 33(3): 10–17. DOI:10.1109/MNET.2019.1800376.

1. 引言

区块链和 AI 会在 6G 中扮演关键角色，前者可保证分布式网络安全，后者可用于智能资源管理。不过 PoW 共识需要大量计算资源和电力，很难用在无线网络中，MEC（mobile edge computing）是一种可能的解决办法。

5G 中引入了异构网络和 D2D 通信来提高通信速率和保证无缝覆盖，MEC 同样可以起作用，主要通过计算卸载和分布式内容缓存来减少延迟并避免回程拥塞backhaul congestion。但由于无线网络的时变特性，各种新兴应用和未知交通系统的多样化和严格的要求，设计一个解决这些问题（计算卸载或内容缓存）的高性能算法比较困难。AI 可以被引入处理该问题，例如，论文¹利用深度强化学习（DRL）解决边缘计算和缓存资源分配的问题。

无论是区块链还是 AI，将它们引入无线网络的研究都已经存在，但这些研究并没有将两者结合。作者在这篇论文中同时集成了这两种技术到无线网络，提出了一个用于下一代无线网络的架构，该架构可以进行安全和智能的资源管理，例如频谱共享、内容缓存、能量交易和计算卸载。主要思路是，利用联盟链建立安全的内容共享环境，利用 DRL 算法设计缓存策略从而最大化系统效用utility。我们的主要关注点如下

集成区块链和 AI 到无线网络的架构组成
频谱共享、内容缓存、能量交易和计算卸载四个场景的描述
基于内容缓存场景的方案设计与实现

引言部分提到的论文中有几篇值得参考。论文² ³利用区块链开发了一个安全的本地 P2P 电子交易系统，用于电动汽车间的电力交易。论文⁴利用区块链和智能合约设计了一个用于车辆边缘网络的基于信誉的数据共享方案。

2. 架构

2.1 架构描述

整体架构如下图所示，共分三层：云、边缘和用户。

云层是一批计算、缓存和处理能力都相当强的服务器。一方面，可以利用数据挖掘和大数据等先进技术，通过预测一些事件或预分配一些资源，使 network-level orchestration shifting 从被动的网络操作转变为主动网络操作。另一方面，云服务器也可以处理一些对延迟容忍较高的应用，存储大容量或不受欢迎的内容。此外，云层还有一个中央权威，配备了防篡改硬件，用于管理所有实体的安全参数和密钥：宏基站（macro base station, MBS）、小型基站（small base station, SBS）、路边单元（roadside units, RSU）、移动设备和智能车辆。

边缘层是一些用户附近的网络基础设施（例如，MBS、SBS、RSU），这些设施在地理上是分离的，可以作为 MEC 服务器和区块链节点。它们可以为移动设备和车辆提供无缝覆盖和即时的无线通信。MEC 服务器具有一定的计算和缓存资源，也可以提供 AI 的功能，进而能够提供分布式智能无线计算和缓存，服务于计算密集型和延迟敏感型的应用，如最新的消息和紧急警报。区块链则可以记录无线网络中产生的所有交易，提高整个系统的安全性和隐私性。交易可以是频谱共享、计算/缓存资源分配、能量交易等。

为了构建一个可编程的、灵活的、弹性的移动边缘平台，采用了网络功能虚拟化和软件定义网络（SDN）两种技术。前者可以抽象物理资源，建立虚拟机，使边缘层忽略供应商和协议的差异，通过在分布式边缘实体之间创建、迁移和销毁虚拟机，实现快速的功能部署。后者可以将网络控制和管理功能与数据转发分离，这样边缘层可以进行动态资源管理和智能服务安排。

异构网络，V2X（vehicle-to-everything）和蜂窝网络共存于用户层，用于提高通信速率和确保无缝覆盖，以支持各种新型应用（如自动驾驶和 AR）所需的高度可靠的连接。

在异构网络中，每个移动设备都有一个计算密集且对延迟敏感的任务，例如导航、视频流和比特币。MBS 和 SBS 具有计算资源和 AI 功能，资源受限的移动设备可以将其任务卸载到异构的边缘基础设施，基站可以利用细粒度的计算资源分配策略来处理卸载的任务。由于移动设备和基站之间的交互是基于信任的，因此在这种情况下不需要使用区块链。

车辆网络场景支持车辆到RSU 和车辆到车辆（V2V）通信。对于V2V通信，车辆之间可以共享内容或能量，由于车辆之间可能不信任对方，因此它们在共享内容或能量时需要使用假名pseudonyms（区块链账户地址就是一种假名），以便更好地保护安全和隐私。为此，我们在 RSU 上部署区块链。

在蜂窝网络中，我们考虑一个更一般和更复杂的场景，同时支持 D2D 和 V2V 通信。MBS 通常具有有限的缓存资源，一些最先进的移动设备和车辆也都有一定数量的缓存资源。因此，基站、移动设备和车辆可以协同提供分布式边缘缓存，以充分利用可用资源。也就是说，特定的移动设备或车辆可以选择具有足够缓存资源的任何其他移动设备或车辆作为其内容缓存的服务提供商。由于 D2D 和 V2V 通信不可信，BSs 需要利用区块链技术来确保这种情况下的交易安全。

2.2 架构分析

如何保证安全，如何适应动态的网络环境，我们通过分析上面的架构来明确这些内容

安全性：在该架构中，移动用户间的频谱管理、V2V 能量交易、缓存共享都会记录到区块链中防止篡改，从而保证安全的资源共享和分配。

灵活的网络：该架构中MBS、SBS、移动设备和车辆的共存为灵活的网络提供了机会。AI 可以准确地分析当前无线网络的拓扑结构、信道分配和干扰，然后选择最合适的无线接入模式（即蜂窝网络、V2V或D2D），以提高通信速率、降低能耗或增强用户体验。例如，该体系结构可以生成特定于用户的策略，使一些移动用户与 MBS 通信，而另一些连接到 RSU 以维护基本信息交换。

3. 区块链赋能资源管理

由于缺乏标准化，无线网络的安全性面临挑战。此外，许多无线实体在不考虑个人隐私的情况下公开共享其资源或内容。为了建立一个安全和私有的无线通信环境，作者将联盟链（PBFT共识）集成到无线网络中，并讨论了四个潜在的区块链赋能的资源管理案例：频谱共享，D2D 缓存，能量交易和计算卸载。分别如下图 (a)、(b)、(c)、(d) 所示。

3.1 频谱共享

由于需要适应不同类型的用户、具有不同性能要求的应用，以及需要将异构空中接口heterogeneous air interface集成到下一代无线网络中，可能会使无线电频谱更加拥挤。认知无线电是一种能在时变无线环境中估计通信参数并自动进行频谱资源分配的频谱共享技术。在认知无线电系统中，无线电频谱属于主用户，主用户可以根据特定的频谱共享方案将频谱出租给次用户。但是，次用户必须共享他们的私有信息才能使用主用户的频谱。在这种情况下，可以利用区块链实现安全的频谱共享应用，同时集成对次用户的隐私保护。

上图 (a) 中展示了一个分布式频谱共享系统，其中每个 SBS 作为一个区块链节点。有许可频谱的 SBS 是主用户，没有许可频谱的 SBS 是次用户。如果主用户成功地将频谱出租给了次用户，则次用户向主用户支付报酬，同时形成频谱租赁交易，并被收集到区块链中。认知无线电可以利用人工智能设计最优的频谱共享策略，通过与射频环境的交互，实现长期回报的最大化。

3.2 D2D 缓存

由传感器或多媒体应用生成的内容正在经历指数增长， MBSs 的容量可能不足。由于一些最先进的设备（如智能手机）具有一定的缓存资源，因此可以通过 D2D 通信将大规模内容缓存在这些实体中。在移动设备上缓存内容对于减少回程链路上的数据流量以及增强最终用户的 QoS 是一种很有潜力的方法。然而，由于内容通常涉及内容所有者的许多敏感和关键的个人信息，缓存请求者不愿意将其内容存储在不受信任的缓存提供程序中。区块链可以使不受信任的节点能够以安全的方式相互交互，因此它为 D2D 缓存提供了一种很有前途的方法。

上图 (b) 显示了区块链授权的 D2D 缓存系统。在该系统中，具有大规模内容的资源受限移动设备被定义为缓存请求者。具有足够缓存资源的设备被定义为缓存提供程序。MBSs 配备了 AI 算法来预测缓存请求者和缓存提供者之间的 D2D 通信持续时间，并执行缓存对匹配和资源分配以提高缓存命中率或系统实用性。如果内容成功存储在一个缓存提供程序中，则缓存请求程序将创建一个交易并将其发送到最近的 MBS。每个 MBS 将接收到的交易广播给其他 MBS，并在接收到一定数量的交易后构建一个新的区块。注意，MBSs 上的缓存资源用于存储有关 D2D 缓存的整个交易。

3.3 能量交易

智能车辆不仅可以从固定充电点充电，还可以从其他有剩余电量的智能车俩获取电力。然而，由于隐私问题，拥有剩余电力的智能车辆可能不愿意在本地化的P2P能源交易市场中充当能源供应商。为鼓励电力过剩的汽车参与能源交易，有必要在交易过程中保护智能汽车的隐私。上图 (c) 显示了一个安全的 V2V 能源交易系统。有两种类型的车辆：一种需要充电，另一种有多余的电力。需要充电的车辆通过 V2R 通道向最近的 RSU 发送充电请求。RSU 将收到的请求广播给有剩余电力的当地车辆。然后，剩余电量的车辆以其充电状态响应 RSU。每个 RSU 使用一个AI算法，例如 DRL，来匹配能量交易对。在这里，汽车之间成功的能源交易被定义为 energy transactioin，并记录在区块链中。

3.4 计算卸载

区块链可以被视为部署在移动设备上的应用程序。例如，如上图 (d) 所示，每个移动设备是一个挖矿类型的区块链的节点，例如比特币。为了支持比特币，移动设备必须解决PoW难题，然而，PoW难题是一个计算密集和能耗高的任务，资源受限的设备无法提供足够的计算资源和能量来维护比特币。在MEC框架中，移动设备可以将 PoW 任务卸载到附近的 BSs，并利用 BSs 支持的分布式计算。基站计算并向移动设备提供结果（即，关于交易的区块块和哈希指针）。

鉴于以上讨论的情况，区块链和无线网络是互补的。区块链可以为无线网络建立一个安全可信的资源分配和共享环境，无线网络也可为实现区块链提供分布式但可访问的计算资源和能量。

4. 内容缓存实例

以内容缓存为例说明区块链和 AI 如何起作用，首先通过联盟链建立安全的内容缓存环境，然后利用 DRL 设计内容缓存方案从而最大化缓存资源效用。

4.1 内容缓存区块链

下图是一个 D2D 网络中的内容缓存的框架，展示了缓存过程的一些细节。首先，区块链由 MBS 维持，D2D 缓存交易发生在移动设备间。如果内容成功缓存到了一个缓存提供者，缓存请求者应当创建一个交易记录并发送到最近的 MBS，MBSs 收集和管理它们本地的交易记录。经过共识后，交易记录被打包到区块并附加到区块链末尾，然后永久地存在每个 MBS 中。

过程中地一些关键步骤如下：

系统初始化：为了保护隐私，每个移动设备在系统初始化阶段需要在系统中注册一个合法身份。在 D2D 缓存区块链中，使用一个椭圆曲线签名算法和非对称加密来进行系统初始化。一个移动设备 $d_i$ 可以在经过身份认证后获得一个合法身份，该身份保护公钥、私钥和证书（如$PK_i, SK_i,Cert_i$）
选择 D2D 缓存的角色：移动设备根据自己当前缓存资源可用性和未来的计划选择它们的角色，包括内容请求者和缓存提供者。有过剩缓存资源的移动设备可作为缓存提供者，用于为缓存请求者提供服务。
缓存交易：缓存请求者发送一定量缓存资源和期望的服务时间到最近的 MBS，MBS广播所有收到的缓存请求给本地缓存提供者。缓存提供者反馈缓存资源量和未来计划给 MBS。然后每个 MBS 利用 DRL 算法匹配缓存需求对，决定每个缓存提供者提供的缓存资源，并分配 MBS 和移动设备的带宽。
收集到区块链：MBSs 通过运行 PBFT 共识将所有交易记录收集到区块链。

4.2 DRL 算法

内容缓存问题可以被抽象为最大化系统效用的优化问题并用 DRL 算法解决。考虑一个有 $K$ 个BSs 的缓存网络，$M$ 个缓存请求者， $N$ 个缓存提供者。MBS 是区块链节点同时运行 DRL 算法。每个缓存请求有一个大规模内容 $d_i$ 如多媒体文件。如果缓存请求者 $i$ 的内容存在缓存提供者 $j$ 中，$x_{ij} = 1$ ，否则为0。当两者间的距离小于预定义的通信范围时，两个移动设备可以通过 D2D 通信传输内容给彼此，系统效用由缓存效用和能量消耗组成。缓存效用为 $x_{ij} · d_i · B_i$，其中 $B_i$ 为所存内容的价格，花费分别是通信和缓存过程总的能量消耗。

通过所提出的架构，缓存能力、缓存请求者的需求、每个内容的规模等信息被收集和发送给代理，然后代理设计一个操作来匹配缓存对和分配资源。在深度强化学习过程中，这里有三个关键因素，分别是状态、操作和奖励。

状态State：DRL 中的状态是一个反映环境的空间，可表示为 $S = (D_i, C_j, B_j)$，其中 $D_i$ 代表内容 $i$ 的状态，$C_j$ 代表可用缓存资源，$B_j$ 代表缓存提供者 $j$ 的可用带宽。每个 MBS 将上述信息组合成一个状态发送给代理。

操作Action：代理的目标是将状态空间映射到操作空间，在该系统中，操作由两部分组成：$x_{ij}$ 和 $b_{ij}$，前者是二进制值，后者是带宽量。

奖励Reward：基于当前状态和操作，代理可以从环境中获得一个奖励。因为奖励函数与目标函数相关，在该场景中，系统效用可以被视为奖励函数进行奖励。

设计内容缓存策略的 DRL 过程如上图 (b) 所示，其基于深度确定性策略梯度方法deep deterministic policy gradient method ⁵。

在DRL中，主网络由两个深层神经网络组成，即 actor 网络和 critic 网络。actor 网络用来探索策略，而 critic 网络则评估策略的性能并提供 critic 值，这有助于 actor 了解策略的梯度。

目标网络可以定义为原始网络的旧版本，用于生成训练 Critic-P 的目标值，它包括目标参与者网络和目标批评者网络。目标网络的输入是来自重放存储器的下一个状态（即N-State），输出是训练critic-P 的临界值。

重放内存存储经验元组，包括当前状态、所选操作、奖励和下一个状态。存储的经验元组可以随机抽样用于训练主网络和目标网络。随机抽样经验元组的目的是减少数据相关性的影响。

4.3 数值结果

作者通过大量的仿真来评估所提出的 DRL 赋能的 D2D 缓存方案的性能。该体系结构实现了两个部分：环境和代理。在该环境中，有5个缓存提供者和20个缓存请求者随机分布在 500m×500m 的区域内。缓存提供程序的缓存资源是从 [30、31、32、35、40]GB 中随机抽取的。缓存提供程序的最大带宽是从 [22、24、25、28、30]MHz 随机获取的。每个内容的数据大小是从³、⁶、⁷ GB中随机抽取的。

所提出的 DRL 赋能的 D2D 缓存方案同时进行缓存对匹配和动态带宽分配，以最大化系统效用，而DRL 赋能的基准缓存方案只进行缓存对匹配。下图中可以看出，论文所提方案的累积平均系统效用明显高于基准方案。这是论文所提方案可以为特定的缓存请求者选择最合适的缓存提供者，并优化缓存提供者和缓存请求者之间的带宽，以进一步提高系统的实用性。基准方案在不分配带宽的情况下进行缓存对匹配，从而导致较高的通信能量开销。此外，我们观察到，在学习过程开始时，不同方案的每个系统效用都很低，随着迭代数量的增加，系统效用在运行750个迭代之后达到一个相对稳定的值。

下图显示了在不同学习速率下所提出方案的收敛性能。首先，累积平均系统效用在所有学习率上实现收敛。其次，当学习率为$10^{-3}$时，累积平均系统效用明显高于学习率为$10^{-4}$和$10^{-5}$时的情况，这意味着较小的学习率可以获得更好的性能。然而，学习率为$10^{-3}$时的成绩也优于学习率为$10^{-2}$时的成绩。因此，我们可以得出结论，对于论文所提方案，$10^{-3}$是最佳的学习速率。事实上，一个合适的学习率取决于正在优化的模式的体系结构，以及当前优化过程中的环境状态。

5. 总结与收获

论文的核心问题是：区块链和 AI 如何服务于无线网络。作者首先描述了云-边缘-用户三层架构，得出的结论是只有在用户层的三种情况（异构网络、车辆网络和蜂窝网络）中，才需要区块链保证安全，而 AI 功能由边缘层提供，用于执行最优的资源分配策略。紧接着，作者介绍了四个区块链可以起作用的资源管理案例：频谱共享、D2D 缓存、V2V 能量交易和计算卸载。然后针对缓存场景，详细说明了区块链如何保证安全以及 AI 如何最大化资源利用率，数值结果说明了所提方案的有效性。

更进一步的，我们关心的是计算卸载场景下区块链如何保证 D2D 的安全，因此作者描述的四个资源管理案例有一定的作用。但是，作者的思路是 MBS 作为区块链节点，重新将基站和边缘服务器引入了方案中，我们使用 D2D 进行资源卸载的原因是节省频谱资源并弥补 MEC 场景的不足，将 MBS 引入不太合适。另一方面，MBS 维持区块链意味着这是一个小范围场景，最多整个城市的 MBS 都加入，移动设备或车辆在不同地域间的移动可能会带来数据访问问题，需要不同区块链的协作。最后的担心是，深度强化学习也是一种计算密集型任务，需要不断地训练，将 DRL 算法放在区块链中运行，资源消耗与收益是否匹配犹未可知。最后得到的一个启发是，不必局限于计算卸载，D2D 缓存也是一个方向。

注：插图源自原论文

Y. Dai et al., “Artifi cial Intelligence Empowered Edge Computing and Caching for Internet of Vehicles,” IEEE Wireless Commun., accepted, 2018. ↩︎
J. Kang et al., “Enabling Localized Peer-to-Peer Electricity Trading Among Plug-In Hybrid Electric Vehicles Using Consortium Blockchains,” IEEE Trans. Ind. Informat., vol. 13, no. 6, 2017, pp. 3154–64. ↩︎
Z. Li et al., “Consortium Blockchain for Secure Energy Trading in Industrial Internet of Things,” IEEE Trans. Ind. Informat., 2017. ↩︎ ↩︎
J. Kang et al., “Blockchain for Secure and Efficient Data Sharing in Vehicular Edge Computing and Networks,” IEEE Internet of Things J., 2018. ↩︎
T. P. Lillicrap et al., “Continuous Control with Deep Reinforcement Learning”, Proc. Int’l. Conf. Learning Representations, 2016. ↩︎
M. A. Rahman et al., “Blockchain-Based Mobile Edge Computing Framework for Secure Therapy Applications”, IEEE Access, 2018. ↩︎
Y. Dai et al., “Joint Load Balancing and Offloading in Vehicular Edge Computing and Networks”, IEEE Internet of Things J., pp. 1-1, 2018. ↩︎

赞赏

支付宝

微信