.. _sec_proxyless:

How to Use ENAS/ProxylessNAS in Ten Minutes
===========================================


What is the Key Idea of ENAS and ProxylessNAS?
----------------------------------------------

Traditional reinforcement learning-based neural architecture search
learns an architecture controller by iteratively sampling the
architecture and training the model to get final reward to update the
controller. It is extremely expensive process due to training CNN.

.. figure:: https://raw.githubusercontent.com/zhanghang1989/AutoGluonWebdata/master/docs/tutorial/proxyless.png

   ProxylessNAS

Recent work of ENAS and ProxylessNAS construct an over-parameterized
network (supernet) and share the weights across different architecture
to speed up the search speed. The reward is calculated every few
iterations instead of every training period.

Import MXNet and AutoGluon:

.. code:: python

    import autogluon.core as ag
    import mxnet as mx
    import mxnet.gluon.nn as nn

How to Construct a SuperNet
---------------------------

Basic NN blocks for CNN.

.. code:: python

    class Identity(mx.gluon.HybridBlock):
        def hybrid_forward(self, F, x):
            return x
    
    class ConvBNReLU(mx.gluon.HybridBlock):
        def __init__(self, in_channels, channels, kernel, stride):
            super().__init__()
            padding = (kernel - 1) // 2
            self.conv = nn.Conv2D(channels, kernel, stride, padding, in_channels=in_channels)
            self.bn = nn.BatchNorm(in_channels=channels)
            self.relu = nn.Activation('relu')
        def hybrid_forward(self, F, x):
            return self.relu(self.bn(self.conv(x)))

AutoGluon ENAS Unit
~~~~~~~~~~~~~~~~~~~

.. code:: python

    from autogluon.extra.contrib.enas import *
    
    @enas_unit()
    class ResUnit(mx.gluon.HybridBlock):
        def __init__(self, in_channels, channels, hidden_channels, kernel, stride):
            super().__init__()
            self.conv1 = ConvBNReLU(in_channels, hidden_channels, kernel, stride)
            self.conv2 = ConvBNReLU(hidden_channels, channels, kernel, 1)
            if in_channels == channels and stride == 1:
                self.shortcut = Identity()
            else:
                self.shortcut = nn.Conv2D(channels, 1, stride, in_channels=in_channels)
        def hybrid_forward(self, F, x):
            return self.conv2(self.conv1(x)) + self.shortcut(x)

AutoGluon Sequntial
~~~~~~~~~~~~~~~~~~~

Creating a ENAS network using Sequential Block:

.. code:: python

    mynet = ENAS_Sequential(
        ResUnit(1, 8, hidden_channels=ag.space.Categorical(4, 8), kernel=ag.space.Categorical(3, 5), stride=2),
        ResUnit(8, 8, hidden_channels=8, kernel=ag.space.Categorical(3, 5), stride=2),
        ResUnit(8, 16, hidden_channels=8, kernel=ag.space.Categorical(3, 5), stride=2),
        ResUnit(16, 16, hidden_channels=8, kernel=ag.space.Categorical(3, 5), stride=1, with_zero=True),
        ResUnit(16, 16, hidden_channels=8, kernel=ag.space.Categorical(3, 5), stride=1, with_zero=True),
        nn.GlobalAvgPool2D(),
        nn.Flatten(),
        nn.Activation('relu'),
        nn.Dense(10, in_units=16),
    )
    
    mynet.initialize()
    
    #mynet.graph

Evaluate Network Latency and Define Reward Function
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

.. code:: python

    x = mx.nd.random.uniform(shape=(1, 1, 28, 28))
    y = mynet.evaluate_latency(x)

Show the latencies:

.. code:: python

    print('Average latency is {:.2f} ms, latency of the current architecture is {:.2f} ms'.format(mynet.avg_latency, mynet.latency))


.. parsed-literal::
    :class: output

    Average latency is 4.04 ms, latency of the current architecture is 4.62 ms


We also provide number of params

.. code:: python

    mynet.nparams


.. parsed-literal::
    :class: output

    8714


Define the reward function:

.. code:: python

    reward_fn = lambda metric, net: metric * ((net.avg_latency / net.latency) ** 0.1)

Start the Training
------------------

Construct experiment scheduler, which automatically creates an RL
controller based on user-defined search space.

.. code:: python

    scheduler = ENAS_Scheduler(mynet, train_set='mnist',
                               reward_fn=reward_fn, batch_size=128, num_gpus=1,
                               warmup_epochs=0, epochs=1, controller_lr=3e-3,
                               plot_frequency=10, update_arch_frequency=5)

Start the training:

.. code:: python

    scheduler.run()


.. parsed-literal::
    :class: output

      0%|          | 0/1 [00:00<?, ?it/s]
      0%|          | 0/468 [00:00<?, ?it/s][A
    avg reward: 0.11:   0%|          | 0/468 [00:00<?, ?it/s][A
    avg reward: 0.11:   0%|          | 1/468 [00:00<05:12,  1.49it/s][A
    avg reward: 0.11:   0%|          | 1/468 [00:00<05:12,  1.49it/s][A
    avg reward: 0.11:   0%|          | 1/468 [00:00<05:12,  1.49it/s][A
    avg reward: 0.11:   0%|          | 1/468 [00:00<05:12,  1.49it/s][A
    avg reward: 0.11:   0%|          | 1/468 [00:00<05:12,  1.49it/s][A
    avg reward: 0.11:   1%|          | 5/468 [00:00<03:40,  2.10it/s][A
    avg reward: 0.11:   1%|          | 5/468 [00:00<03:40,  2.10it/s][A
    avg reward: 0.11:   1%|          | 5/468 [00:00<03:40,  2.10it/s][A
    avg reward: 0.11:   1%|▏         | 7/468 [00:00<02:47,  2.75it/s][A
    avg reward: 0.11:   1%|▏         | 7/468 [00:00<02:47,  2.75it/s][A
    avg reward: 0.11:   1%|▏         | 7/468 [00:01<02:47,  2.75it/s][A
    avg reward: 0.11:   1%|▏         | 7/468 [00:01<02:47,  2.75it/s][A
    avg reward: 0.10:   1%|▏         | 7/468 [00:01<02:47,  2.75it/s][A
    avg reward: 0.10:   2%|▏         | 11/468 [00:01<02:04,  3.67it/s][A
    avg reward: 0.10:   2%|▏         | 11/468 [00:01<02:04,  3.67it/s][A
    avg reward: 0.10:   2%|▏         | 11/468 [00:01<02:04,  3.67it/s][A
    avg reward: 0.10:   2%|▏         | 11/468 [00:01<02:04,  3.67it/s][A
    avg reward: 0.10:   2%|▏         | 11/468 [00:01<02:04,  3.67it/s][A
    avg reward: 0.10:   3%|▎         | 15/468 [00:01<01:29,  5.04it/s][A
    avg reward: 0.12:   3%|▎         | 15/468 [00:01<01:29,  5.04it/s][A
    avg reward: 0.12:   3%|▎         | 15/468 [00:01<01:29,  5.04it/s][A
    avg reward: 0.12:   3%|▎         | 15/468 [00:01<01:29,  5.04it/s][A
    avg reward: 0.12:   4%|▍         | 18/468 [00:01<01:12,  6.23it/s][A
    avg reward: 0.12:   4%|▍         | 18/468 [00:01<01:12,  6.23it/s][A
    avg reward: 0.12:   4%|▍         | 18/468 [00:01<01:12,  6.23it/s][A
    avg reward: 0.12:   4%|▍         | 18/468 [00:01<01:12,  6.23it/s][A
    avg reward: 0.12:   4%|▍         | 21/468 [00:01<01:00,  7.41it/s][A
    avg reward: 0.12:   4%|▍         | 21/468 [00:01<01:00,  7.41it/s][A
    avg reward: 0.12:   4%|▍         | 21/468 [00:01<01:00,  7.41it/s][A
    avg reward: 0.12:   4%|▍         | 21/468 [00:01<01:00,  7.41it/s][A
    avg reward: 0.12:   4%|▍         | 21/468 [00:01<01:00,  7.41it/s][A
    avg reward: 0.11:   4%|▍         | 21/468 [00:02<01:00,  7.41it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:02<00:48,  9.10it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:02<00:48,  9.10it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:02<00:48,  9.10it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:02<00:48,  9.10it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:02<00:48,  9.10it/s][A
    avg reward: 0.21:   6%|▌         | 26/468 [00:02<00:48,  9.10it/s][A
    avg reward: 0.21:   7%|▋         | 31/468 [00:02<00:40, 10.82it/s][A
    avg reward: 0.21:   7%|▋         | 31/468 [00:02<00:40, 10.82it/s][A
    avg reward: 0.21:   7%|▋         | 31/468 [00:02<00:40, 10.82it/s][A
    avg reward: 0.21:   7%|▋         | 31/468 [00:02<00:40, 10.82it/s][A
    avg reward: 0.21:   7%|▋         | 31/468 [00:02<00:40, 10.82it/s][A
    avg reward: 0.35:   7%|▋         | 31/468 [00:02<00:40, 10.82it/s][A
    avg reward: 0.35:   8%|▊         | 36/468 [00:02<00:35, 12.34it/s][A
    avg reward: 0.35:   8%|▊         | 36/468 [00:02<00:35, 12.34it/s][A
    avg reward: 0.35:   8%|▊         | 36/468 [00:02<00:35, 12.34it/s][A
    avg reward: 0.35:   8%|▊         | 36/468 [00:02<00:35, 12.34it/s][A
    avg reward: 0.35:   8%|▊         | 36/468 [00:02<00:35, 12.34it/s][A
    avg reward: 0.35:   9%|▊         | 40/468 [00:02<00:27, 15.56it/s][A
    avg reward: 0.39:   9%|▊         | 40/468 [00:02<00:27, 15.56it/s][A
    avg reward: 0.39:   9%|▊         | 40/468 [00:02<00:27, 15.56it/s][A
    avg reward: 0.39:   9%|▊         | 40/468 [00:02<00:27, 15.56it/s][A
    avg reward: 0.39:   9%|▉         | 43/468 [00:02<00:28, 14.93it/s][A
    avg reward: 0.39:   9%|▉         | 43/468 [00:02<00:28, 14.93it/s][A
    avg reward: 0.39:   9%|▉         | 43/468 [00:02<00:28, 14.93it/s][A
    avg reward: 0.42:   9%|▉         | 43/468 [00:03<00:28, 14.93it/s][A
    avg reward: 0.42:  10%|▉         | 46/468 [00:03<00:29, 14.54it/s][A
    avg reward: 0.42:  10%|▉         | 46/468 [00:03<00:29, 14.54it/s][A
    avg reward: 0.42:  10%|▉         | 46/468 [00:03<00:29, 14.54it/s][A
    avg reward: 0.42:  10%|▉         | 46/468 [00:03<00:29, 14.54it/s][A
    avg reward: 0.42:  10%|▉         | 46/468 [00:03<00:29, 14.54it/s][A
    avg reward: 0.42:  11%|█         | 50/468 [00:03<00:23, 17.86it/s][A
    avg reward: 0.51:  11%|█         | 50/468 [00:03<00:23, 17.86it/s][A
    avg reward: 0.51:  11%|█         | 50/468 [00:03<00:23, 17.86it/s][A
    avg reward: 0.51:  11%|█         | 50/468 [00:03<00:23, 17.86it/s][A
    avg reward: 0.51:  11%|█▏        | 53/468 [00:03<00:25, 16.26it/s][A
    avg reward: 0.51:  11%|█▏        | 53/468 [00:03<00:25, 16.26it/s][A
    avg reward: 0.51:  11%|█▏        | 53/468 [00:03<00:25, 16.26it/s][A
    avg reward: 0.56:  11%|█▏        | 53/468 [00:03<00:25, 16.26it/s][A
    avg reward: 0.56:  12%|█▏        | 56/468 [00:03<00:26, 15.56it/s][A
    avg reward: 0.56:  12%|█▏        | 56/468 [00:03<00:26, 15.56it/s][A
    avg reward: 0.56:  12%|█▏        | 56/468 [00:03<00:26, 15.56it/s][A
    avg reward: 0.56:  12%|█▏        | 56/468 [00:03<00:26, 15.56it/s][A
    avg reward: 0.56:  12%|█▏        | 56/468 [00:03<00:26, 15.56it/s][A
    avg reward: 0.56:  13%|█▎        | 60/468 [00:03<00:22, 18.48it/s][A
    avg reward: 0.64:  13%|█▎        | 60/468 [00:03<00:22, 18.48it/s][A
    avg reward: 0.64:  13%|█▎        | 60/468 [00:03<00:22, 18.48it/s][A
    avg reward: 0.64:  13%|█▎        | 60/468 [00:04<00:22, 18.48it/s][A
    avg reward: 0.64:  13%|█▎        | 63/468 [00:04<00:25, 15.90it/s][A
    avg reward: 0.64:  13%|█▎        | 63/468 [00:04<00:25, 15.90it/s][A
    avg reward: 0.64:  13%|█▎        | 63/468 [00:04<00:25, 15.90it/s][A
    avg reward: 0.69:  13%|█▎        | 63/468 [00:04<00:25, 15.90it/s][A
    avg reward: 0.69:  14%|█▍        | 66/468 [00:04<00:26, 14.95it/s][A
    avg reward: 0.69:  14%|█▍        | 66/468 [00:04<00:26, 14.95it/s][A
    avg reward: 0.69:  14%|█▍        | 66/468 [00:04<00:26, 14.95it/s][A
    avg reward: 0.69:  14%|█▍        | 66/468 [00:04<00:26, 14.95it/s][A
    avg reward: 0.69:  14%|█▍        | 66/468 [00:04<00:26, 14.95it/s][A
    avg reward: 0.74:  14%|█▍        | 66/468 [00:04<00:26, 14.95it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:25, 15.76it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:25, 15.76it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:25, 15.76it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:25, 15.76it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:25, 15.76it/s][A
    avg reward: 0.78:  15%|█▌        | 71/468 [00:04<00:25, 15.76it/s][A
    avg reward: 0.78:  16%|█▌        | 76/468 [00:04<00:23, 16.64it/s][A
    avg reward: 0.78:  16%|█▌        | 76/468 [00:04<00:23, 16.64it/s][A
    avg reward: 0.78:  16%|█▌        | 76/468 [00:04<00:23, 16.64it/s][A
    avg reward: 0.78:  16%|█▌        | 76/468 [00:04<00:23, 16.64it/s][A
    avg reward: 0.78:  16%|█▌        | 76/468 [00:04<00:23, 16.64it/s][A
    avg reward: 0.77:  16%|█▌        | 76/468 [00:05<00:23, 16.64it/s][A
    avg reward: 0.77:  17%|█▋        | 81/468 [00:05<00:22, 17.24it/s][A
    avg reward: 0.77:  17%|█▋        | 81/468 [00:05<00:22, 17.24it/s][A
    avg reward: 0.77:  17%|█▋        | 81/468 [00:05<00:22, 17.24it/s][A
    avg reward: 0.77:  17%|█▋        | 81/468 [00:05<00:22, 17.24it/s][A
    avg reward: 0.77:  17%|█▋        | 81/468 [00:05<00:22, 17.24it/s][A
    avg reward: 0.82:  17%|█▋        | 81/468 [00:05<00:22, 17.24it/s][A
    avg reward: 0.82:  18%|█▊        | 86/468 [00:05<00:21, 17.62it/s][A
    avg reward: 0.82:  18%|█▊        | 86/468 [00:05<00:21, 17.62it/s][A
    avg reward: 0.82:  18%|█▊        | 86/468 [00:05<00:21, 17.62it/s][A
    avg reward: 0.82:  18%|█▊        | 86/468 [00:05<00:21, 17.62it/s][A
    avg reward: 0.82:  18%|█▊        | 86/468 [00:05<00:21, 17.62it/s][A
    avg reward: 0.86:  18%|█▊        | 86/468 [00:05<00:21, 17.62it/s][A
    avg reward: 0.86:  19%|█▉        | 91/468 [00:05<00:20, 18.04it/s][A
    avg reward: 0.86:  19%|█▉        | 91/468 [00:05<00:20, 18.04it/s][A
    avg reward: 0.86:  19%|█▉        | 91/468 [00:05<00:20, 18.04it/s][A
    avg reward: 0.86:  19%|█▉        | 91/468 [00:05<00:20, 18.04it/s][A
    avg reward: 0.86:  19%|█▉        | 91/468 [00:05<00:20, 18.04it/s][A
    avg reward: 0.81:  19%|█▉        | 91/468 [00:05<00:20, 18.04it/s][A
    avg reward: 0.81:  21%|██        | 96/468 [00:05<00:20, 18.19it/s][A
    avg reward: 0.81:  21%|██        | 96/468 [00:05<00:20, 18.19it/s][A
    avg reward: 0.81:  21%|██        | 96/468 [00:05<00:20, 18.19it/s][A
    avg reward: 0.81:  21%|██        | 96/468 [00:05<00:20, 18.19it/s][A
    avg reward: 0.81:  21%|██        | 96/468 [00:05<00:20, 18.19it/s][A
    avg reward: 0.81:  21%|██▏       | 100/468 [00:05<00:17, 21.41it/s][A
    avg reward: 0.79:  21%|██▏       | 100/468 [00:06<00:17, 21.41it/s][A
    avg reward: 0.79:  21%|██▏       | 100/468 [00:06<00:17, 21.41it/s][A
    avg reward: 0.79:  21%|██▏       | 100/468 [00:06<00:17, 21.41it/s][A
    avg reward: 0.79:  22%|██▏       | 103/468 [00:06<00:21, 17.04it/s][A
    avg reward: 0.79:  22%|██▏       | 103/468 [00:06<00:21, 17.04it/s][A
    avg reward: 0.79:  22%|██▏       | 103/468 [00:06<00:21, 17.04it/s][A
    avg reward: 0.82:  22%|██▏       | 103/468 [00:06<00:21, 17.04it/s][A
    avg reward: 0.82:  23%|██▎       | 106/468 [00:06<00:22, 15.98it/s][A
    avg reward: 0.82:  23%|██▎       | 106/468 [00:06<00:22, 15.98it/s][A
    avg reward: 0.82:  23%|██▎       | 106/468 [00:06<00:22, 15.98it/s][A
    avg reward: 0.82:  23%|██▎       | 106/468 [00:06<00:22, 15.98it/s][A
    avg reward: 0.82:  23%|██▎       | 106/468 [00:06<00:22, 15.98it/s][A
    avg reward: 0.87:  23%|██▎       | 106/468 [00:06<00:22, 15.98it/s][A
    avg reward: 0.87:  24%|██▎       | 111/468 [00:06<00:21, 16.78it/s][A
    avg reward: 0.87:  24%|██▎       | 111/468 [00:06<00:21, 16.78it/s][A
    avg reward: 0.87:  24%|██▎       | 111/468 [00:06<00:21, 16.78it/s][A
    avg reward: 0.87:  24%|██▎       | 111/468 [00:06<00:21, 16.78it/s][A
    avg reward: 0.87:  24%|██▎       | 111/468 [00:06<00:21, 16.78it/s][A
    avg reward: 0.87:  25%|██▍       | 115/468 [00:06<00:17, 20.19it/s][A
    avg reward: 0.89:  25%|██▍       | 115/468 [00:06<00:17, 20.19it/s][A
    avg reward: 0.89:  25%|██▍       | 115/468 [00:06<00:17, 20.19it/s][A
    avg reward: 0.89:  25%|██▍       | 115/468 [00:07<00:17, 20.19it/s][A
    avg reward: 0.89:  25%|██▌       | 118/468 [00:07<00:20, 17.33it/s][A
    avg reward: 0.89:  25%|██▌       | 118/468 [00:07<00:20, 17.33it/s][A
    avg reward: 0.89:  25%|██▌       | 118/468 [00:07<00:20, 17.33it/s][A
    avg reward: 0.91:  25%|██▌       | 118/468 [00:07<00:20, 17.33it/s][A
    avg reward: 0.91:  26%|██▌       | 121/468 [00:07<00:21, 16.12it/s][A
    avg reward: 0.91:  26%|██▌       | 121/468 [00:07<00:21, 16.12it/s][A
    avg reward: 0.91:  26%|██▌       | 121/468 [00:07<00:21, 16.12it/s][A
    avg reward: 0.91:  26%|██▌       | 121/468 [00:07<00:21, 16.12it/s][A
    avg reward: 0.91:  26%|██▌       | 121/468 [00:07<00:21, 16.12it/s][A
    avg reward: 0.92:  26%|██▌       | 121/468 [00:07<00:21, 16.12it/s][A
    avg reward: 0.92:  27%|██▋       | 126/468 [00:07<00:20, 16.91it/s][A
    avg reward: 0.92:  27%|██▋       | 126/468 [00:07<00:20, 16.91it/s][A
    avg reward: 0.92:  27%|██▋       | 126/468 [00:07<00:20, 16.91it/s][A
    avg reward: 0.92:  27%|██▋       | 126/468 [00:07<00:20, 16.91it/s][A
    avg reward: 0.92:  27%|██▋       | 126/468 [00:07<00:20, 16.91it/s][A
    avg reward: 0.93:  27%|██▋       | 126/468 [00:07<00:20, 16.91it/s][A
    avg reward: 0.93:  28%|██▊       | 131/468 [00:07<00:19, 17.05it/s][A
    avg reward: 0.93:  28%|██▊       | 131/468 [00:07<00:19, 17.05it/s][A
    avg reward: 0.93:  28%|██▊       | 131/468 [00:07<00:19, 17.05it/s][A
    avg reward: 0.93:  28%|██▊       | 131/468 [00:07<00:19, 17.05it/s][A
    avg reward: 0.93:  28%|██▊       | 131/468 [00:07<00:19, 17.05it/s][A
    avg reward: 0.89:  28%|██▊       | 131/468 [00:08<00:19, 17.05it/s][A
    avg reward: 0.89:  29%|██▉       | 136/468 [00:08<00:18, 17.48it/s][A
    avg reward: 0.89:  29%|██▉       | 136/468 [00:08<00:18, 17.48it/s][A
    avg reward: 0.89:  29%|██▉       | 136/468 [00:08<00:18, 17.48it/s][A
    avg reward: 0.89:  29%|██▉       | 136/468 [00:08<00:18, 17.48it/s][A
    avg reward: 0.89:  29%|██▉       | 136/468 [00:08<00:18, 17.48it/s][A
    avg reward: 0.90:  29%|██▉       | 136/468 [00:08<00:18, 17.48it/s][A
    avg reward: 0.90:  30%|███       | 141/468 [00:08<00:18, 17.66it/s][A
    avg reward: 0.90:  30%|███       | 141/468 [00:08<00:18, 17.66it/s][A
    avg reward: 0.90:  30%|███       | 141/468 [00:08<00:18, 17.66it/s][A
    avg reward: 0.90:  30%|███       | 141/468 [00:08<00:18, 17.66it/s][A
    avg reward: 0.90:  30%|███       | 141/468 [00:08<00:18, 17.66it/s][A
    avg reward: 0.92:  30%|███       | 141/468 [00:08<00:18, 17.66it/s][A
    avg reward: 0.92:  31%|███       | 146/468 [00:08<00:18, 17.78it/s][A
    avg reward: 0.92:  31%|███       | 146/468 [00:08<00:18, 17.78it/s][A
    avg reward: 0.92:  31%|███       | 146/468 [00:08<00:18, 17.78it/s][A
    avg reward: 0.92:  31%|███       | 146/468 [00:08<00:18, 17.78it/s][A
    avg reward: 0.92:  31%|███       | 146/468 [00:08<00:18, 17.78it/s][A
    avg reward: 0.82:  31%|███       | 146/468 [00:08<00:18, 17.78it/s][A
    avg reward: 0.82:  32%|███▏      | 151/468 [00:08<00:17, 17.74it/s][A
    avg reward: 0.82:  32%|███▏      | 151/468 [00:08<00:17, 17.74it/s][A
    avg reward: 0.82:  32%|███▏      | 151/468 [00:08<00:17, 17.74it/s][A
    avg reward: 0.82:  32%|███▏      | 151/468 [00:08<00:17, 17.74it/s][A
    avg reward: 0.82:  32%|███▏      | 151/468 [00:08<00:17, 17.74it/s][A
    avg reward: 0.82:  33%|███▎      | 155/468 [00:08<00:14, 21.08it/s][A
    avg reward: 0.87:  33%|███▎      | 155/468 [00:09<00:14, 21.08it/s][A
    avg reward: 0.87:  33%|███▎      | 155/468 [00:09<00:14, 21.08it/s][A
    avg reward: 0.87:  33%|███▎      | 155/468 [00:09<00:14, 21.08it/s][A
    avg reward: 0.87:  34%|███▍      | 158/468 [00:09<00:17, 18.22it/s][A
    avg reward: 0.87:  34%|███▍      | 158/468 [00:09<00:17, 18.22it/s][A
    avg reward: 0.87:  34%|███▍      | 158/468 [00:09<00:17, 18.22it/s][A
    avg reward: 0.90:  34%|███▍      | 158/468 [00:09<00:17, 18.22it/s][A
    avg reward: 0.90:  34%|███▍      | 161/468 [00:09<00:18, 16.51it/s][A
    avg reward: 0.90:  34%|███▍      | 161/468 [00:09<00:18, 16.51it/s][A
    avg reward: 0.90:  34%|███▍      | 161/468 [00:09<00:18, 16.51it/s][A
    avg reward: 0.90:  34%|███▍      | 161/468 [00:09<00:18, 16.51it/s][A
    avg reward: 0.90:  34%|███▍      | 161/468 [00:09<00:18, 16.51it/s][A
    avg reward: 0.92:  34%|███▍      | 161/468 [00:09<00:18, 16.51it/s][A
    avg reward: 0.92:  35%|███▌      | 166/468 [00:09<00:17, 17.41it/s][A
    avg reward: 0.92:  35%|███▌      | 166/468 [00:09<00:17, 17.41it/s][A
    avg reward: 0.92:  35%|███▌      | 166/468 [00:09<00:17, 17.41it/s][A
    avg reward: 0.92:  35%|███▌      | 166/468 [00:09<00:17, 17.41it/s][A
    avg reward: 0.92:  35%|███▌      | 166/468 [00:09<00:17, 17.41it/s][A
    avg reward: 0.92:  36%|███▋      | 170/468 [00:09<00:14, 20.47it/s][A
    avg reward: 0.93:  36%|███▋      | 170/468 [00:09<00:14, 20.47it/s][A
    avg reward: 0.93:  36%|███▋      | 170/468 [00:10<00:14, 20.47it/s][A
    avg reward: 0.93:  36%|███▋      | 170/468 [00:10<00:14, 20.47it/s][A
    avg reward: 0.93:  37%|███▋      | 173/468 [00:10<00:17, 17.25it/s][A
    avg reward: 0.93:  37%|███▋      | 173/468 [00:10<00:17, 17.25it/s][A
    avg reward: 0.93:  37%|███▋      | 173/468 [00:10<00:17, 17.25it/s][A
    avg reward: 0.94:  37%|███▋      | 173/468 [00:10<00:17, 17.25it/s][A
    avg reward: 0.94:  38%|███▊      | 176/468 [00:10<00:17, 16.48it/s][A
    avg reward: 0.94:  38%|███▊      | 176/468 [00:10<00:17, 16.48it/s][A
    avg reward: 0.94:  38%|███▊      | 176/468 [00:10<00:17, 16.48it/s][A
    avg reward: 0.94:  38%|███▊      | 176/468 [00:10<00:17, 16.48it/s][A
    avg reward: 0.94:  38%|███▊      | 176/468 [00:10<00:17, 16.48it/s][A
    avg reward: 0.95:  38%|███▊      | 176/468 [00:10<00:17, 16.48it/s][A
    avg reward: 0.95:  39%|███▊      | 181/468 [00:10<00:16, 16.98it/s][A
    avg reward: 0.95:  39%|███▊      | 181/468 [00:10<00:16, 16.98it/s][A
    avg reward: 0.95:  39%|███▊      | 181/468 [00:10<00:16, 16.98it/s][A
    avg reward: 0.95:  39%|███▊      | 181/468 [00:10<00:16, 16.98it/s][A
    avg reward: 0.95:  39%|███▊      | 181/468 [00:10<00:16, 16.98it/s][A
    avg reward: 0.95:  39%|███▊      | 181/468 [00:10<00:16, 16.98it/s][A
    avg reward: 0.95:  40%|███▉      | 186/468 [00:10<00:15, 17.64it/s][A
    avg reward: 0.95:  40%|███▉      | 186/468 [00:10<00:15, 17.64it/s][A
    avg reward: 0.95:  40%|███▉      | 186/468 [00:10<00:15, 17.64it/s][A
    avg reward: 0.95:  40%|███▉      | 186/468 [00:10<00:15, 17.64it/s][A
    avg reward: 0.95:  40%|███▉      | 186/468 [00:10<00:15, 17.64it/s][A
    avg reward: 0.91:  40%|███▉      | 186/468 [00:11<00:15, 17.64it/s][A
    avg reward: 0.91:  41%|████      | 191/468 [00:11<00:15, 18.19it/s][A
    avg reward: 0.91:  41%|████      | 191/468 [00:11<00:15, 18.19it/s][A
    avg reward: 0.91:  41%|████      | 191/468 [00:11<00:15, 18.19it/s][A
    avg reward: 0.91:  41%|████      | 191/468 [00:11<00:15, 18.19it/s][A
    avg reward: 0.91:  41%|████      | 191/468 [00:11<00:15, 18.19it/s][A
    avg reward: 0.93:  41%|████      | 191/468 [00:11<00:15, 18.19it/s][A
    avg reward: 0.93:  42%|████▏     | 196/468 [00:11<00:14, 18.28it/s][A
    avg reward: 0.93:  42%|████▏     | 196/468 [00:11<00:14, 18.28it/s][A
    avg reward: 0.93:  42%|████▏     | 196/468 [00:11<00:14, 18.28it/s][A
    avg reward: 0.93:  42%|████▏     | 196/468 [00:11<00:14, 18.28it/s][A
    avg reward: 0.93:  42%|████▏     | 196/468 [00:11<00:14, 18.28it/s][A
    avg reward: 0.95:  42%|████▏     | 196/468 [00:11<00:14, 18.28it/s][A
    avg reward: 0.95:  43%|████▎     | 201/468 [00:11<00:14, 18.39it/s][A
    avg reward: 0.95:  43%|████▎     | 201/468 [00:11<00:14, 18.39it/s][A
    avg reward: 0.95:  43%|████▎     | 201/468 [00:11<00:14, 18.39it/s][A
    avg reward: 0.95:  43%|████▎     | 201/468 [00:11<00:14, 18.39it/s][A
    avg reward: 0.95:  43%|████▎     | 201/468 [00:11<00:14, 18.39it/s][A
    avg reward: 0.96:  43%|████▎     | 201/468 [00:11<00:14, 18.39it/s][A
    avg reward: 0.96:  44%|████▍     | 206/468 [00:11<00:14, 18.52it/s][A
    avg reward: 0.96:  44%|████▍     | 206/468 [00:11<00:14, 18.52it/s][A
    avg reward: 0.96:  44%|████▍     | 206/468 [00:11<00:14, 18.52it/s][A
    avg reward: 0.96:  44%|████▍     | 206/468 [00:11<00:14, 18.52it/s][A
    avg reward: 0.96:  44%|████▍     | 206/468 [00:11<00:14, 18.52it/s][A
    avg reward: 0.96:  45%|████▍     | 210/468 [00:11<00:11, 21.98it/s][A
    avg reward: 0.96:  45%|████▍     | 210/468 [00:12<00:11, 21.98it/s][A
    avg reward: 0.96:  45%|████▍     | 210/468 [00:12<00:11, 21.98it/s][A
    avg reward: 0.96:  45%|████▍     | 210/468 [00:12<00:11, 21.98it/s][A
    avg reward: 0.96:  46%|████▌     | 213/468 [00:12<00:14, 17.54it/s][A
    avg reward: 0.96:  46%|████▌     | 213/468 [00:12<00:14, 17.54it/s][A
    avg reward: 0.96:  46%|████▌     | 213/468 [00:12<00:14, 17.54it/s][A
    avg reward: 0.95:  46%|████▌     | 213/468 [00:12<00:14, 17.54it/s][A
    avg reward: 0.95:  46%|████▌     | 216/468 [00:12<00:15, 16.24it/s][A
    avg reward: 0.95:  46%|████▌     | 216/468 [00:12<00:15, 16.24it/s][A
    avg reward: 0.95:  46%|████▌     | 216/468 [00:12<00:15, 16.24it/s][A
    avg reward: 0.95:  46%|████▌     | 216/468 [00:12<00:15, 16.24it/s][A
    avg reward: 0.95:  46%|████▌     | 216/468 [00:12<00:15, 16.24it/s][A
    avg reward: 0.96:  46%|████▌     | 216/468 [00:12<00:15, 16.24it/s][A
    avg reward: 0.96:  47%|████▋     | 221/468 [00:12<00:14, 17.12it/s][A
    avg reward: 0.96:  47%|████▋     | 221/468 [00:12<00:14, 17.12it/s][A
    avg reward: 0.96:  47%|████▋     | 221/468 [00:12<00:14, 17.12it/s][A
    avg reward: 0.96:  47%|████▋     | 221/468 [00:12<00:14, 17.12it/s][A
    avg reward: 0.96:  47%|████▋     | 221/468 [00:12<00:14, 17.12it/s][A
    avg reward: 0.96:  48%|████▊     | 225/468 [00:12<00:11, 20.62it/s][A
    avg reward: 0.97:  48%|████▊     | 225/468 [00:12<00:11, 20.62it/s][A
    avg reward: 0.97:  48%|████▊     | 225/468 [00:12<00:11, 20.62it/s][A
    avg reward: 0.97:  48%|████▊     | 225/468 [00:12<00:11, 20.62it/s][A
    avg reward: 0.97:  49%|████▊     | 228/468 [00:12<00:13, 17.75it/s][A
    avg reward: 0.97:  49%|████▊     | 228/468 [00:13<00:13, 17.75it/s][A
    avg reward: 0.97:  49%|████▊     | 228/468 [00:13<00:13, 17.75it/s][A
    avg reward: 0.97:  49%|████▊     | 228/468 [00:13<00:13, 17.75it/s][A
    avg reward: 0.97:  49%|████▉     | 231/468 [00:13<00:14, 16.14it/s][A
    avg reward: 0.97:  49%|████▉     | 231/468 [00:13<00:14, 16.14it/s][A
    avg reward: 0.97:  49%|████▉     | 231/468 [00:13<00:14, 16.14it/s][A
    avg reward: 0.97:  49%|████▉     | 231/468 [00:13<00:14, 16.14it/s][A
    avg reward: 0.97:  49%|████▉     | 231/468 [00:13<00:14, 16.14it/s][A
    avg reward: 0.96:  49%|████▉     | 231/468 [00:13<00:14, 16.14it/s][A
    avg reward: 0.96:  50%|█████     | 236/468 [00:13<00:13, 16.75it/s][A
    avg reward: 0.96:  50%|█████     | 236/468 [00:13<00:13, 16.75it/s][A
    avg reward: 0.96:  50%|█████     | 236/468 [00:13<00:13, 16.75it/s][A
    avg reward: 0.96:  50%|█████     | 236/468 [00:13<00:13, 16.75it/s][A
    avg reward: 0.96:  50%|█████     | 236/468 [00:13<00:13, 16.75it/s][A
    avg reward: 0.97:  50%|█████     | 236/468 [00:13<00:13, 16.75it/s][A
    avg reward: 0.97:  51%|█████▏    | 241/468 [00:13<00:13, 17.32it/s][A
    avg reward: 0.97:  51%|█████▏    | 241/468 [00:13<00:13, 17.32it/s][A
    avg reward: 0.97:  51%|█████▏    | 241/468 [00:13<00:13, 17.32it/s][A
    avg reward: 0.97:  51%|█████▏    | 241/468 [00:13<00:13, 17.32it/s][A
    avg reward: 0.97:  51%|█████▏    | 241/468 [00:13<00:13, 17.32it/s][A
    avg reward: 0.97:  51%|█████▏    | 241/468 [00:14<00:13, 17.32it/s][A
    avg reward: 0.97:  53%|█████▎    | 246/468 [00:14<00:12, 17.46it/s][A
    avg reward: 0.97:  53%|█████▎    | 246/468 [00:14<00:12, 17.46it/s][A
    avg reward: 0.97:  53%|█████▎    | 246/468 [00:14<00:12, 17.46it/s][A
    avg reward: 0.97:  53%|█████▎    | 246/468 [00:14<00:12, 17.46it/s][A
    avg reward: 0.97:  53%|█████▎    | 246/468 [00:14<00:12, 17.46it/s][A
    avg reward: 0.97:  53%|█████▎    | 246/468 [00:14<00:12, 17.46it/s][A
    avg reward: 0.97:  54%|█████▎    | 251/468 [00:14<00:12, 17.79it/s][A
    avg reward: 0.97:  54%|█████▎    | 251/468 [00:14<00:12, 17.79it/s][A
    avg reward: 0.97:  54%|█████▎    | 251/468 [00:14<00:12, 17.79it/s][A
    avg reward: 0.97:  54%|█████▎    | 251/468 [00:14<00:12, 17.79it/s][A
    avg reward: 0.97:  54%|█████▎    | 251/468 [00:14<00:12, 17.79it/s][A
    avg reward: 0.97:  54%|█████▎    | 251/468 [00:14<00:12, 17.79it/s][A
    avg reward: 0.97:  55%|█████▍    | 256/468 [00:14<00:11, 17.67it/s][A
    avg reward: 0.97:  55%|█████▍    | 256/468 [00:14<00:11, 17.67it/s][A
    avg reward: 0.97:  55%|█████▍    | 256/468 [00:14<00:11, 17.67it/s][A
    avg reward: 0.97:  55%|█████▍    | 256/468 [00:14<00:11, 17.67it/s][A
    avg reward: 0.97:  55%|█████▍    | 256/468 [00:14<00:11, 17.67it/s][A
    avg reward: 0.97:  56%|█████▌    | 260/468 [00:14<00:10, 20.70it/s][A
    avg reward: 0.98:  56%|█████▌    | 260/468 [00:14<00:10, 20.70it/s][A
    avg reward: 0.98:  56%|█████▌    | 260/468 [00:14<00:10, 20.70it/s][A
    avg reward: 0.98:  56%|█████▌    | 260/468 [00:14<00:10, 20.70it/s][A
    avg reward: 0.98:  56%|█████▌    | 263/468 [00:14<00:11, 18.05it/s][A
    avg reward: 0.98:  56%|█████▌    | 263/468 [00:14<00:11, 18.05it/s][A
    avg reward: 0.98:  56%|█████▌    | 263/468 [00:14<00:11, 18.05it/s][A
    avg reward: 0.98:  56%|█████▌    | 263/468 [00:15<00:11, 18.05it/s][A
    avg reward: 0.98:  57%|█████▋    | 266/468 [00:15<00:12, 16.25it/s][A
    avg reward: 0.98:  57%|█████▋    | 266/468 [00:15<00:12, 16.25it/s][A
    avg reward: 0.98:  57%|█████▋    | 266/468 [00:15<00:12, 16.25it/s][A
    avg reward: 0.98:  57%|█████▋    | 266/468 [00:15<00:12, 16.25it/s][A
    avg reward: 0.98:  57%|█████▋    | 266/468 [00:15<00:12, 16.25it/s][A
    avg reward: 0.98:  57%|█████▋    | 266/468 [00:15<00:12, 16.25it/s][A
    avg reward: 0.98:  58%|█████▊    | 271/468 [00:15<00:11, 16.81it/s][A
    avg reward: 0.98:  58%|█████▊    | 271/468 [00:15<00:11, 16.81it/s][A
    avg reward: 0.98:  58%|█████▊    | 271/468 [00:15<00:11, 16.81it/s][A
    avg reward: 0.98:  58%|█████▊    | 271/468 [00:15<00:11, 16.81it/s][A
    avg reward: 0.98:  58%|█████▊    | 271/468 [00:15<00:11, 16.81it/s][A
    avg reward: 0.99:  58%|█████▊    | 271/468 [00:15<00:11, 16.81it/s][A
    avg reward: 0.99:  59%|█████▉    | 276/468 [00:15<00:10, 17.51it/s][A
    avg reward: 0.99:  59%|█████▉    | 276/468 [00:15<00:10, 17.51it/s][A
    avg reward: 0.99:  59%|█████▉    | 276/468 [00:15<00:10, 17.51it/s][A
    avg reward: 0.99:  59%|█████▉    | 276/468 [00:15<00:10, 17.51it/s][A
    avg reward: 0.99:  59%|█████▉    | 276/468 [00:15<00:10, 17.51it/s][A
    avg reward: 0.99:  59%|█████▉    | 276/468 [00:15<00:10, 17.51it/s][A
    avg reward: 0.99:  60%|██████    | 281/468 [00:15<00:10, 17.91it/s][A
    avg reward: 0.99:  60%|██████    | 281/468 [00:15<00:10, 17.91it/s][A
    avg reward: 0.99:  60%|██████    | 281/468 [00:15<00:10, 17.91it/s][A
    avg reward: 0.99:  60%|██████    | 281/468 [00:16<00:10, 17.91it/s][A
    avg reward: 0.99:  60%|██████    | 281/468 [00:16<00:10, 17.91it/s][A
    avg reward: 0.99:  60%|██████    | 281/468 [00:16<00:10, 17.91it/s][A
    avg reward: 0.99:  61%|██████    | 286/468 [00:16<00:10, 18.06it/s][A
    avg reward: 0.99:  61%|██████    | 286/468 [00:16<00:10, 18.06it/s][A
    avg reward: 0.99:  61%|██████    | 286/468 [00:16<00:10, 18.06it/s][A
    avg reward: 0.99:  61%|██████    | 286/468 [00:16<00:10, 18.06it/s][A
    avg reward: 0.99:  61%|██████    | 286/468 [00:16<00:10, 18.06it/s][A
    avg reward: 0.99:  61%|██████    | 286/468 [00:16<00:10, 18.06it/s][A
    avg reward: 0.99:  62%|██████▏   | 291/468 [00:16<00:09, 18.36it/s][A
    avg reward: 0.99:  62%|██████▏   | 291/468 [00:16<00:09, 18.36it/s][A
    avg reward: 0.99:  62%|██████▏   | 291/468 [00:16<00:09, 18.36it/s][A
    avg reward: 0.99:  62%|██████▏   | 291/468 [00:16<00:09, 18.36it/s][A
    avg reward: 0.99:  62%|██████▏   | 291/468 [00:16<00:09, 18.36it/s][A
    avg reward: 0.99:  63%|██████▎   | 295/468 [00:16<00:07, 21.84it/s][A
    avg reward: 0.99:  63%|██████▎   | 295/468 [00:16<00:07, 21.84it/s][A
    avg reward: 0.99:  63%|██████▎   | 295/468 [00:16<00:07, 21.84it/s][A
    avg reward: 0.99:  63%|██████▎   | 295/468 [00:16<00:07, 21.84it/s][A
    avg reward: 0.99:  64%|██████▎   | 298/468 [00:16<00:09, 18.67it/s][A
    avg reward: 0.99:  64%|██████▎   | 298/468 [00:16<00:09, 18.67it/s][A
    avg reward: 0.99:  64%|██████▎   | 298/468 [00:16<00:09, 18.67it/s][A
    avg reward: 0.99:  64%|██████▎   | 298/468 [00:16<00:09, 18.67it/s][A
    avg reward: 0.99:  64%|██████▍   | 301/468 [00:16<00:09, 17.09it/s][A
    avg reward: 0.99:  64%|██████▍   | 301/468 [00:17<00:09, 17.09it/s][A
    avg reward: 0.99:  64%|██████▍   | 301/468 [00:17<00:09, 17.09it/s][A
    avg reward: 0.99:  64%|██████▍   | 301/468 [00:17<00:09, 17.09it/s][A
    avg reward: 0.99:  64%|██████▍   | 301/468 [00:17<00:09, 17.09it/s][A
    avg reward: 0.99:  65%|██████▌   | 305/468 [00:17<00:07, 20.46it/s][A
    avg reward: 1.00:  65%|██████▌   | 305/468 [00:17<00:07, 20.46it/s][A
    avg reward: 1.00:  65%|██████▌   | 305/468 [00:17<00:07, 20.46it/s][A
    avg reward: 1.00:  65%|██████▌   | 305/468 [00:17<00:07, 20.46it/s][A
    avg reward: 1.00:  66%|██████▌   | 308/468 [00:17<00:09, 17.67it/s][A
    avg reward: 1.00:  66%|██████▌   | 308/468 [00:17<00:09, 17.67it/s][A
    avg reward: 1.00:  66%|██████▌   | 308/468 [00:17<00:09, 17.67it/s][A
    avg reward: 0.99:  66%|██████▌   | 308/468 [00:17<00:09, 17.67it/s][A
    avg reward: 0.99:  66%|██████▋   | 311/468 [00:17<00:09, 15.71it/s][A
    avg reward: 0.99:  66%|██████▋   | 311/468 [00:17<00:09, 15.71it/s][A
    avg reward: 0.99:  66%|██████▋   | 311/468 [00:17<00:09, 15.71it/s][A
    avg reward: 0.99:  66%|██████▋   | 311/468 [00:17<00:09, 15.71it/s][A
    avg reward: 0.99:  66%|██████▋   | 311/468 [00:17<00:09, 15.71it/s][A
    avg reward: 0.98:  66%|██████▋   | 311/468 [00:17<00:09, 15.71it/s][A
    avg reward: 0.98:  68%|██████▊   | 316/468 [00:17<00:09, 16.43it/s][A
    avg reward: 0.98:  68%|██████▊   | 316/468 [00:17<00:09, 16.43it/s][A
    avg reward: 0.98:  68%|██████▊   | 316/468 [00:17<00:09, 16.43it/s][A
    avg reward: 0.98:  68%|██████▊   | 316/468 [00:17<00:09, 16.43it/s][A
    avg reward: 0.98:  68%|██████▊   | 316/468 [00:17<00:09, 16.43it/s][A
    avg reward: 0.98:  68%|██████▊   | 316/468 [00:18<00:09, 16.43it/s][A
    avg reward: 0.98:  69%|██████▊   | 321/468 [00:18<00:08, 16.95it/s][A
    avg reward: 0.98:  69%|██████▊   | 321/468 [00:18<00:08, 16.95it/s][A
    avg reward: 0.98:  69%|██████▊   | 321/468 [00:18<00:08, 16.95it/s][A
    avg reward: 0.98:  69%|██████▊   | 321/468 [00:18<00:08, 16.95it/s][A
    avg reward: 0.98:  69%|██████▊   | 321/468 [00:18<00:08, 16.95it/s][A
    avg reward: 0.98:  69%|██████▉   | 325/468 [00:18<00:07, 20.41it/s][A
    avg reward: 0.98:  69%|██████▉   | 325/468 [00:18<00:07, 20.41it/s][A
    avg reward: 0.98:  69%|██████▉   | 325/468 [00:18<00:07, 20.41it/s][A
    avg reward: 0.98:  69%|██████▉   | 325/468 [00:18<00:07, 20.41it/s][A
    avg reward: 0.98:  70%|███████   | 328/468 [00:18<00:07, 17.71it/s][A
    avg reward: 0.98:  70%|███████   | 328/468 [00:18<00:07, 17.71it/s][A
    avg reward: 0.98:  70%|███████   | 328/468 [00:18<00:07, 17.71it/s][A
    avg reward: 0.99:  70%|███████   | 328/468 [00:18<00:07, 17.71it/s][A
    avg reward: 0.99:  71%|███████   | 331/468 [00:18<00:08, 16.81it/s][A
    avg reward: 0.99:  71%|███████   | 331/468 [00:18<00:08, 16.81it/s][A
    avg reward: 0.99:  71%|███████   | 331/468 [00:18<00:08, 16.81it/s][A
    avg reward: 0.99:  71%|███████   | 331/468 [00:18<00:08, 16.81it/s][A
    avg reward: 0.99:  71%|███████   | 331/468 [00:18<00:08, 16.81it/s][A
    avg reward: 0.99:  71%|███████   | 331/468 [00:18<00:08, 16.81it/s][A
    avg reward: 0.99:  72%|███████▏  | 336/468 [00:18<00:07, 17.28it/s][A
    avg reward: 0.99:  72%|███████▏  | 336/468 [00:18<00:07, 17.28it/s][A
    avg reward: 0.99:  72%|███████▏  | 336/468 [00:18<00:07, 17.28it/s][A
    avg reward: 0.99:  72%|███████▏  | 336/468 [00:18<00:07, 17.28it/s][A
    avg reward: 0.99:  72%|███████▏  | 336/468 [00:18<00:07, 17.28it/s][A
    avg reward: 0.99:  72%|███████▏  | 336/468 [00:19<00:07, 17.28it/s][A
    avg reward: 0.99:  73%|███████▎  | 341/468 [00:19<00:07, 17.80it/s][A
    avg reward: 0.99:  73%|███████▎  | 341/468 [00:19<00:07, 17.80it/s][A
    avg reward: 0.99:  73%|███████▎  | 341/468 [00:19<00:07, 17.80it/s][A
    avg reward: 0.99:  73%|███████▎  | 341/468 [00:19<00:07, 17.80it/s][A
    avg reward: 0.99:  73%|███████▎  | 341/468 [00:19<00:07, 17.80it/s][A
    avg reward: 0.99:  73%|███████▎  | 341/468 [00:19<00:07, 17.80it/s][A
    avg reward: 0.99:  74%|███████▍  | 346/468 [00:19<00:06, 18.22it/s][A
    avg reward: 0.99:  74%|███████▍  | 346/468 [00:19<00:06, 18.22it/s][A
    avg reward: 0.99:  74%|███████▍  | 346/468 [00:19<00:06, 18.22it/s][A
    avg reward: 0.99:  74%|███████▍  | 346/468 [00:19<00:06, 18.22it/s][A
    avg reward: 0.99:  74%|███████▍  | 346/468 [00:19<00:06, 18.22it/s][A
    avg reward: 0.99:  74%|███████▍  | 346/468 [00:19<00:06, 18.22it/s][A
    avg reward: 0.99:  75%|███████▌  | 351/468 [00:19<00:06, 18.58it/s][A
    avg reward: 0.99:  75%|███████▌  | 351/468 [00:19<00:06, 18.58it/s][A
    avg reward: 0.99:  75%|███████▌  | 351/468 [00:19<00:06, 18.58it/s][A
    avg reward: 0.99:  75%|███████▌  | 351/468 [00:19<00:06, 18.58it/s][A
    avg reward: 0.99:  75%|███████▌  | 351/468 [00:19<00:06, 18.58it/s][A
    avg reward: 0.99:  75%|███████▌  | 351/468 [00:19<00:06, 18.58it/s][A
    avg reward: 0.99:  76%|███████▌  | 356/468 [00:19<00:06, 18.40it/s][A
    avg reward: 0.99:  76%|███████▌  | 356/468 [00:19<00:06, 18.40it/s][A
    avg reward: 0.99:  76%|███████▌  | 356/468 [00:20<00:06, 18.40it/s][A
    avg reward: 0.99:  76%|███████▌  | 356/468 [00:20<00:06, 18.40it/s][A
    avg reward: 0.99:  76%|███████▌  | 356/468 [00:20<00:06, 18.40it/s][A
    avg reward: 1.00:  76%|███████▌  | 356/468 [00:20<00:06, 18.40it/s][A
    avg reward: 1.00:  77%|███████▋  | 361/468 [00:20<00:05, 18.33it/s][A
    avg reward: 1.00:  77%|███████▋  | 361/468 [00:20<00:05, 18.33it/s][A
    avg reward: 1.00:  77%|███████▋  | 361/468 [00:20<00:05, 18.33it/s][A
    avg reward: 1.00:  77%|███████▋  | 361/468 [00:20<00:05, 18.33it/s][A
    avg reward: 1.00:  77%|███████▋  | 361/468 [00:20<00:05, 18.33it/s][A
    avg reward: 1.00:  78%|███████▊  | 365/468 [00:20<00:04, 21.84it/s][A
    avg reward: 0.99:  78%|███████▊  | 365/468 [00:20<00:04, 21.84it/s][A
    avg reward: 0.99:  78%|███████▊  | 365/468 [00:20<00:04, 21.84it/s][A
    avg reward: 0.99:  78%|███████▊  | 365/468 [00:20<00:04, 21.84it/s][A
    avg reward: 0.99:  79%|███████▊  | 368/468 [00:20<00:05, 18.62it/s][A
    avg reward: 0.99:  79%|███████▊  | 368/468 [00:20<00:05, 18.62it/s][A
    avg reward: 0.99:  79%|███████▊  | 368/468 [00:20<00:05, 18.62it/s][A
    avg reward: 0.99:  79%|███████▊  | 368/468 [00:20<00:05, 18.62it/s][A
    avg reward: 0.99:  79%|███████▉  | 371/468 [00:20<00:05, 16.78it/s][A
    avg reward: 0.99:  79%|███████▉  | 371/468 [00:20<00:05, 16.78it/s][A
    avg reward: 0.99:  79%|███████▉  | 371/468 [00:20<00:05, 16.78it/s][A
    avg reward: 0.99:  79%|███████▉  | 371/468 [00:20<00:05, 16.78it/s][A
    avg reward: 0.99:  79%|███████▉  | 371/468 [00:20<00:05, 16.78it/s][A
    avg reward: 1.00:  79%|███████▉  | 371/468 [00:21<00:05, 16.78it/s][A
    avg reward: 1.00:  80%|████████  | 376/468 [00:21<00:05, 17.55it/s][A
    avg reward: 1.00:  80%|████████  | 376/468 [00:21<00:05, 17.55it/s][A
    avg reward: 1.00:  80%|████████  | 376/468 [00:21<00:05, 17.55it/s][A
    avg reward: 1.00:  80%|████████  | 376/468 [00:21<00:05, 17.55it/s][A
    avg reward: 1.00:  80%|████████  | 376/468 [00:21<00:05, 17.55it/s][A
    avg reward: 1.00:  80%|████████  | 376/468 [00:21<00:05, 17.55it/s][A
    avg reward: 1.00:  81%|████████▏ | 381/468 [00:21<00:04, 18.17it/s][A
    avg reward: 1.00:  81%|████████▏ | 381/468 [00:21<00:04, 18.17it/s][A
    avg reward: 1.00:  81%|████████▏ | 381/468 [00:21<00:04, 18.17it/s][A
    avg reward: 1.00:  81%|████████▏ | 381/468 [00:21<00:04, 18.17it/s][A
    avg reward: 1.00:  81%|████████▏ | 381/468 [00:21<00:04, 18.17it/s][A
    avg reward: 1.00:  81%|████████▏ | 381/468 [00:21<00:04, 18.17it/s][A
    avg reward: 1.00:  82%|████████▏ | 386/468 [00:21<00:04, 18.20it/s][A
    avg reward: 1.00:  82%|████████▏ | 386/468 [00:21<00:04, 18.20it/s][A
    avg reward: 1.00:  82%|████████▏ | 386/468 [00:21<00:04, 18.20it/s][A
    avg reward: 1.00:  82%|████████▏ | 386/468 [00:21<00:04, 18.20it/s][A
    avg reward: 1.00:  82%|████████▏ | 386/468 [00:21<00:04, 18.20it/s][A
    avg reward: 1.00:  82%|████████▏ | 386/468 [00:21<00:04, 18.20it/s][A
    avg reward: 1.00:  84%|████████▎ | 391/468 [00:21<00:04, 18.56it/s][A
    avg reward: 1.00:  84%|████████▎ | 391/468 [00:21<00:04, 18.56it/s][A
    avg reward: 1.00:  84%|████████▎ | 391/468 [00:21<00:04, 18.56it/s][A
    avg reward: 1.00:  84%|████████▎ | 391/468 [00:21<00:04, 18.56it/s][A
    avg reward: 1.00:  84%|████████▎ | 391/468 [00:21<00:04, 18.56it/s][A
    avg reward: 1.00:  84%|████████▎ | 391/468 [00:22<00:04, 18.56it/s][A
    avg reward: 1.00:  85%|████████▍ | 396/468 [00:22<00:03, 18.62it/s][A
    avg reward: 1.00:  85%|████████▍ | 396/468 [00:22<00:03, 18.62it/s][A
    avg reward: 1.00:  85%|████████▍ | 396/468 [00:22<00:03, 18.62it/s][A
    avg reward: 1.00:  85%|████████▍ | 396/468 [00:22<00:03, 18.62it/s][A
    avg reward: 1.00:  85%|████████▍ | 396/468 [00:22<00:03, 18.62it/s][A
    avg reward: 1.00:  85%|████████▍ | 396/468 [00:22<00:03, 18.62it/s][A
    avg reward: 1.00:  86%|████████▌ | 401/468 [00:22<00:03, 18.66it/s][A
    avg reward: 1.00:  86%|████████▌ | 401/468 [00:22<00:03, 18.66it/s][A
    avg reward: 1.00:  86%|████████▌ | 401/468 [00:22<00:03, 18.66it/s][A
    avg reward: 1.00:  86%|████████▌ | 401/468 [00:22<00:03, 18.66it/s][A
    avg reward: 1.00:  86%|████████▌ | 401/468 [00:22<00:03, 18.66it/s][A
    avg reward: 1.00:  86%|████████▌ | 401/468 [00:22<00:03, 18.66it/s][A
    avg reward: 1.00:  87%|████████▋ | 406/468 [00:22<00:03, 18.72it/s][A
    avg reward: 1.00:  87%|████████▋ | 406/468 [00:22<00:03, 18.72it/s][A
    avg reward: 1.00:  87%|████████▋ | 406/468 [00:22<00:03, 18.72it/s][A
    avg reward: 1.00:  87%|████████▋ | 406/468 [00:22<00:03, 18.72it/s][A
    avg reward: 1.00:  87%|████████▋ | 406/468 [00:22<00:03, 18.72it/s][A
    avg reward: 1.00:  88%|████████▊ | 410/468 [00:22<00:02, 22.14it/s][A
    avg reward: 1.00:  88%|████████▊ | 410/468 [00:22<00:02, 22.14it/s][A
    avg reward: 1.00:  88%|████████▊ | 410/468 [00:22<00:02, 22.14it/s][A
    avg reward: 1.00:  88%|████████▊ | 410/468 [00:22<00:02, 22.14it/s][A
    avg reward: 1.00:  88%|████████▊ | 413/468 [00:22<00:02, 18.90it/s][A
    avg reward: 1.00:  88%|████████▊ | 413/468 [00:22<00:02, 18.90it/s][A
    avg reward: 1.00:  88%|████████▊ | 413/468 [00:22<00:02, 18.90it/s][A
    avg reward: 1.00:  88%|████████▊ | 413/468 [00:23<00:02, 18.90it/s][A
    avg reward: 1.00:  89%|████████▉ | 416/468 [00:23<00:03, 17.09it/s][A
    avg reward: 1.00:  89%|████████▉ | 416/468 [00:23<00:03, 17.09it/s][A
    avg reward: 1.00:  89%|████████▉ | 416/468 [00:23<00:03, 17.09it/s][A
    avg reward: 1.00:  89%|████████▉ | 416/468 [00:23<00:03, 17.09it/s][A
    avg reward: 1.00:  89%|████████▉ | 416/468 [00:23<00:03, 17.09it/s][A
    avg reward: 1.00:  89%|████████▉ | 416/468 [00:23<00:03, 17.09it/s][A
    avg reward: 1.00:  90%|████████▉ | 421/468 [00:23<00:02, 17.56it/s][A
    avg reward: 1.00:  90%|████████▉ | 421/468 [00:23<00:02, 17.56it/s][A
    avg reward: 1.00:  90%|████████▉ | 421/468 [00:23<00:02, 17.56it/s][A
    avg reward: 1.00:  90%|████████▉ | 421/468 [00:23<00:02, 17.56it/s][A
    avg reward: 1.00:  90%|████████▉ | 421/468 [00:23<00:02, 17.56it/s][A
    avg reward: 1.00:  91%|█████████ | 425/468 [00:23<00:02, 20.99it/s][A
    avg reward: 1.01:  91%|█████████ | 425/468 [00:23<00:02, 20.99it/s][A
    avg reward: 1.01:  91%|█████████ | 425/468 [00:23<00:02, 20.99it/s][A
    avg reward: 1.01:  91%|█████████ | 425/468 [00:23<00:02, 20.99it/s][A
    avg reward: 1.01:  91%|█████████▏| 428/468 [00:23<00:02, 18.01it/s][A
    avg reward: 1.01:  91%|█████████▏| 428/468 [00:23<00:02, 18.01it/s][A
    avg reward: 1.01:  91%|█████████▏| 428/468 [00:23<00:02, 18.01it/s][A
    avg reward: 1.01:  91%|█████████▏| 428/468 [00:23<00:02, 18.01it/s][A
    avg reward: 1.01:  92%|█████████▏| 431/468 [00:23<00:02, 16.47it/s][A
    avg reward: 1.01:  92%|█████████▏| 431/468 [00:23<00:02, 16.47it/s][A
    avg reward: 1.01:  92%|█████████▏| 431/468 [00:24<00:02, 16.47it/s][A
    avg reward: 1.01:  92%|█████████▏| 431/468 [00:24<00:02, 16.47it/s][A
    avg reward: 1.01:  92%|█████████▏| 431/468 [00:24<00:02, 16.47it/s][A
    avg reward: 1.01:  93%|█████████▎| 435/468 [00:24<00:01, 19.96it/s][A
    avg reward: 1.01:  93%|█████████▎| 435/468 [00:24<00:01, 19.96it/s][A
    avg reward: 1.01:  93%|█████████▎| 435/468 [00:24<00:01, 19.96it/s][A
    avg reward: 1.01:  93%|█████████▎| 435/468 [00:24<00:01, 19.96it/s][A
    avg reward: 1.01:  94%|█████████▎| 438/468 [00:24<00:01, 17.56it/s][A
    avg reward: 1.01:  94%|█████████▎| 438/468 [00:24<00:01, 17.56it/s][A
    avg reward: 1.01:  94%|█████████▎| 438/468 [00:24<00:01, 17.56it/s][A
    avg reward: 1.01:  94%|█████████▎| 438/468 [00:24<00:01, 17.56it/s][A
    avg reward: 1.01:  94%|█████████▍| 441/468 [00:24<00:01, 16.34it/s][A
    avg reward: 1.01:  94%|█████████▍| 441/468 [00:24<00:01, 16.34it/s][A
    avg reward: 1.01:  94%|█████████▍| 441/468 [00:24<00:01, 16.34it/s][A
    avg reward: 1.01:  94%|█████████▍| 441/468 [00:24<00:01, 16.34it/s][A
    avg reward: 1.01:  94%|█████████▍| 441/468 [00:24<00:01, 16.34it/s][A
    avg reward: 1.01:  94%|█████████▍| 441/468 [00:24<00:01, 16.34it/s][A
    avg reward: 1.01:  95%|█████████▌| 446/468 [00:24<00:01, 16.93it/s][A
    avg reward: 1.01:  95%|█████████▌| 446/468 [00:24<00:01, 16.93it/s][A
    avg reward: 1.01:  95%|█████████▌| 446/468 [00:24<00:01, 16.93it/s][A
    avg reward: 1.01:  95%|█████████▌| 446/468 [00:24<00:01, 16.93it/s][A
    avg reward: 1.01:  95%|█████████▌| 446/468 [00:24<00:01, 16.93it/s][A
    avg reward: 1.01:  95%|█████████▌| 446/468 [00:25<00:01, 16.93it/s][A
    avg reward: 1.01:  96%|█████████▋| 451/468 [00:25<00:00, 17.59it/s][A
    avg reward: 1.01:  96%|█████████▋| 451/468 [00:25<00:00, 17.59it/s][A
    avg reward: 1.01:  96%|█████████▋| 451/468 [00:25<00:00, 17.59it/s][A
    avg reward: 1.01:  96%|█████████▋| 451/468 [00:25<00:00, 17.59it/s][A
    avg reward: 1.01:  96%|█████████▋| 451/468 [00:25<00:00, 17.59it/s][A
    avg reward: 1.01:  97%|█████████▋| 455/468 [00:25<00:00, 21.07it/s][A
    avg reward: 1.02:  97%|█████████▋| 455/468 [00:25<00:00, 21.07it/s][A
    avg reward: 1.02:  97%|█████████▋| 455/468 [00:25<00:00, 21.07it/s][A
    avg reward: 1.02:  97%|█████████▋| 455/468 [00:25<00:00, 21.07it/s][A
    avg reward: 1.02:  98%|█████████▊| 458/468 [00:25<00:00, 17.63it/s][A
    avg reward: 1.02:  98%|█████████▊| 458/468 [00:25<00:00, 17.63it/s][A
    avg reward: 1.02:  98%|█████████▊| 458/468 [00:25<00:00, 17.63it/s][A
    avg reward: 1.01:  98%|█████████▊| 458/468 [00:25<00:00, 17.63it/s][A
    avg reward: 1.01:  99%|█████████▊| 461/468 [00:25<00:00, 16.29it/s][A
    avg reward: 1.01:  99%|█████████▊| 461/468 [00:25<00:00, 16.29it/s][A
    avg reward: 1.01:  99%|█████████▊| 461/468 [00:25<00:00, 16.29it/s][A
    avg reward: 1.01:  99%|█████████▊| 461/468 [00:25<00:00, 16.29it/s][A
    avg reward: 1.01:  99%|█████████▊| 461/468 [00:25<00:00, 16.29it/s][A
    avg reward: 1.01:  99%|█████████▊| 461/468 [00:25<00:00, 16.29it/s][A
    avg reward: 1.01: 100%|█████████▉| 466/468 [00:25<00:00, 17.13it/s][A
    avg reward: 1.01: 100%|█████████▉| 466/468 [00:25<00:00, 17.13it/s][A
    avg reward: 1.01: 100%|██████████| 468/468 [00:25<00:00, 18.09it/s]
    
      0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.9921875:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.984375:   0%|          | 0/79 [00:00<?, ?it/s] [A
    Val Acc: 0.9765625:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.978515625:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.9796875:   0%|          | 0/79 [00:00<?, ?it/s]  [A
    Val Acc: 0.98046875:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.9799107142857143:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.9799107142857143:   9%|▉         | 7/79 [00:00<00:01, 62.55it/s][A
    Val Acc: 0.978515625:   9%|▉         | 7/79 [00:00<00:01, 62.55it/s]       [A
    Val Acc: 0.9765625:   9%|▉         | 7/79 [00:00<00:01, 62.55it/s]  [A
    Val Acc: 0.97734375:   9%|▉         | 7/79 [00:00<00:01, 62.55it/s][A
    Val Acc: 0.9779829545454546:   9%|▉         | 7/79 [00:00<00:01, 62.55it/s][A
    Val Acc: 0.9791666666666666:   9%|▉         | 7/79 [00:00<00:01, 62.55it/s][A
    Val Acc: 0.9783653846153846:   9%|▉         | 7/79 [00:00<00:01, 62.55it/s][A
    Val Acc: 0.9799107142857143:   9%|▉         | 7/79 [00:00<00:01, 62.55it/s][A
    Val Acc: 0.9796875:   9%|▉         | 7/79 [00:00<00:01, 62.55it/s]         [A
    Val Acc: 0.9796875:  19%|█▉        | 15/79 [00:00<00:00, 64.85it/s][A
    Val Acc: 0.97998046875:  19%|█▉        | 15/79 [00:00<00:00, 64.85it/s][A
    Val Acc: 0.9797794117647058:  19%|█▉        | 15/79 [00:00<00:00, 64.85it/s][A
    Val Acc: 0.9809027777777778:  19%|█▉        | 15/79 [00:00<00:00, 64.85it/s][A
    Val Acc: 0.9806743421052632:  19%|█▉        | 15/79 [00:00<00:00, 64.85it/s][A
    Val Acc: 0.981640625:  19%|█▉        | 15/79 [00:00<00:00, 64.85it/s]       [A
    Val Acc: 0.9813988095238095:  19%|█▉        | 15/79 [00:00<00:00, 64.85it/s][A
    Val Acc: 0.9818892045454546:  19%|█▉        | 15/79 [00:00<00:00, 64.85it/s][A
    Val Acc: 0.9816576086956522:  19%|█▉        | 15/79 [00:00<00:00, 64.85it/s][A
    Val Acc: 0.9816576086956522:  29%|██▉       | 23/79 [00:00<00:00, 67.55it/s][A
    Val Acc: 0.9817708333333334:  29%|██▉       | 23/79 [00:00<00:00, 67.55it/s][A
    Val Acc: 0.98125:  29%|██▉       | 23/79 [00:00<00:00, 67.55it/s]           [A
    Val Acc: 0.9813701923076923:  29%|██▉       | 23/79 [00:00<00:00, 67.55it/s][A
    Val Acc: 0.9809027777777778:  29%|██▉       | 23/79 [00:00<00:00, 67.55it/s][A
    Val Acc: 0.9813058035714286:  29%|██▉       | 23/79 [00:00<00:00, 67.55it/s][A
    Val Acc: 0.9819504310344828:  29%|██▉       | 23/79 [00:00<00:00, 67.55it/s][A
    Val Acc: 0.9817708333333334:  29%|██▉       | 23/79 [00:00<00:00, 67.55it/s][A
    Val Acc: 0.9813508064516129:  29%|██▉       | 23/79 [00:00<00:00, 67.55it/s][A
    Val Acc: 0.9813508064516129:  39%|███▉      | 31/79 [00:00<00:00, 68.34it/s][A
    Val Acc: 0.981689453125:  39%|███▉      | 31/79 [00:00<00:00, 68.34it/s]    [A
    Val Acc: 0.9822443181818182:  39%|███▉      | 31/79 [00:00<00:00, 68.34it/s][A
    Val Acc: 0.9825367647058824:  39%|███▉      | 31/79 [00:00<00:00, 68.34it/s][A
    Val Acc: 0.9825892857142857:  39%|███▉      | 31/79 [00:00<00:00, 68.34it/s][A
    Val Acc: 0.982421875:  39%|███▉      | 31/79 [00:00<00:00, 68.34it/s]       [A
    Val Acc: 0.9826858108108109:  39%|███▉      | 31/79 [00:00<00:00, 68.34it/s][A
    Val Acc: 0.9827302631578947:  39%|███▉      | 31/79 [00:00<00:00, 68.34it/s][A
    Val Acc: 0.9827302631578947:  48%|████▊     | 38/79 [00:00<00:00, 68.25it/s][A
    Val Acc: 0.9827724358974359:  48%|████▊     | 38/79 [00:00<00:00, 68.25it/s][A
    Val Acc: 0.9822265625:  48%|████▊     | 38/79 [00:00<00:00, 68.25it/s]      [A
    Val Acc: 0.9822789634146342:  48%|████▊     | 38/79 [00:00<00:00, 68.25it/s][A
    Val Acc: 0.9823288690476191:  48%|████▊     | 38/79 [00:00<00:00, 68.25it/s][A
    Val Acc: 0.9821947674418605:  48%|████▊     | 38/79 [00:00<00:00, 68.25it/s][A
    Val Acc: 0.9825994318181818:  48%|████▊     | 38/79 [00:00<00:00, 68.25it/s][A
    Val Acc: 0.9824652777777778:  48%|████▊     | 38/79 [00:00<00:00, 68.25it/s][A
    Val Acc: 0.9824652777777778:  57%|█████▋    | 45/79 [00:00<00:00, 66.92it/s][A
    Val Acc: 0.9825067934782609:  57%|█████▋    | 45/79 [00:00<00:00, 66.92it/s][A
    Val Acc: 0.9827127659574468:  57%|█████▋    | 45/79 [00:00<00:00, 66.92it/s][A
    Val Acc: 0.98291015625:  57%|█████▋    | 45/79 [00:00<00:00, 66.92it/s]     [A
    Val Acc: 0.982780612244898:  57%|█████▋    | 45/79 [00:00<00:00, 66.92it/s][A
    Val Acc: 0.98296875:  57%|█████▋    | 45/79 [00:00<00:00, 66.92it/s]       [A
    Val Acc: 0.9829963235294118:  57%|█████▋    | 45/79 [00:00<00:00, 66.92it/s][A
    Val Acc: 0.9831730769230769:  57%|█████▋    | 45/79 [00:00<00:00, 66.92it/s][A
    Val Acc: 0.9831730769230769:  66%|██████▌   | 52/79 [00:00<00:00, 67.70it/s][A
    Val Acc: 0.9831957547169812:  66%|██████▌   | 52/79 [00:00<00:00, 67.70it/s][A
    Val Acc: 0.9832175925925926:  66%|██████▌   | 52/79 [00:00<00:00, 67.70it/s][A
    Val Acc: 0.9833806818181818:  66%|██████▌   | 52/79 [00:00<00:00, 67.70it/s][A
    Val Acc: 0.9835379464285714:  66%|██████▌   | 52/79 [00:00<00:00, 67.70it/s][A
    Val Acc: 0.9835526315789473:  66%|██████▌   | 52/79 [00:00<00:00, 67.70it/s][A
    Val Acc: 0.9835668103448276:  66%|██████▌   | 52/79 [00:00<00:00, 67.70it/s][A
    Val Acc: 0.9833156779661016:  66%|██████▌   | 52/79 [00:00<00:00, 67.70it/s][A
    Val Acc: 0.9833156779661016:  75%|███████▍  | 59/79 [00:00<00:00, 68.35it/s][A
    Val Acc: 0.983203125:  75%|███████▍  | 59/79 [00:00<00:00, 68.35it/s]       [A
    Val Acc: 0.9833504098360656:  75%|███████▍  | 59/79 [00:00<00:00, 68.35it/s][A
    Val Acc: 0.9832409274193549:  75%|███████▍  | 59/79 [00:00<00:00, 68.35it/s][A
    Val Acc: 0.9832589285714286:  75%|███████▍  | 59/79 [00:00<00:00, 68.35it/s][A
    Val Acc: 0.983154296875:  75%|███████▍  | 59/79 [00:00<00:00, 68.35it/s]    [A
    Val Acc: 0.9830528846153846:  75%|███████▍  | 59/79 [00:00<00:00, 68.35it/s][A
    Val Acc: 0.9829545454545454:  75%|███████▍  | 59/79 [00:00<00:00, 68.35it/s][A
    Val Acc: 0.9829545454545454:  84%|████████▎ | 66/79 [00:00<00:00, 68.81it/s][A
    Val Acc: 0.9832089552238806:  84%|████████▎ | 66/79 [00:00<00:00, 68.81it/s][A
    Val Acc: 0.9831112132352942:  84%|████████▎ | 66/79 [00:00<00:00, 68.81it/s][A
    Val Acc: 0.9831295289855072:  84%|████████▎ | 66/79 [00:01<00:00, 68.81it/s][A
    Val Acc: 0.9831473214285714:  84%|████████▎ | 66/79 [00:01<00:00, 68.81it/s][A
    Val Acc: 0.9833846830985915:  84%|████████▎ | 66/79 [00:01<00:00, 68.81it/s][A
    Val Acc: 0.9831814236111112:  84%|████████▎ | 66/79 [00:01<00:00, 68.81it/s][A
    Val Acc: 0.9829837328767124:  84%|████████▎ | 66/79 [00:01<00:00, 68.81it/s][A
    Val Acc: 0.9829837328767124:  92%|█████████▏| 73/79 [00:01<00:00, 67.52it/s][A
    Val Acc: 0.9828969594594594:  92%|█████████▏| 73/79 [00:01<00:00, 67.52it/s][A
    Val Acc: 0.9828125:  92%|█████████▏| 73/79 [00:01<00:00, 67.52it/s]         [A
    Val Acc: 0.9826274671052632:  92%|█████████▏| 73/79 [00:01<00:00, 67.52it/s][A
    Val Acc: 0.9826501623376623:  92%|█████████▏| 73/79 [00:01<00:00, 67.52it/s][A
    Val Acc: 0.9827724358974359:  92%|█████████▏| 73/79 [00:01<00:00, 67.52it/s][A
    Val Acc: 0.9827: 100%|██████████| 79/79 [00:01<00:00, 67.93it/s]
    epoch 0, val_acc: 0.98, avg reward: 1.01: 100%|██████████| 1/1 [00:27<00:00, 27.09s/it]


The resulting architecture is:

.. code:: python

    mynet.graph


.. figure:: output_enas_proxylessnas_ad55b9_21_0.svg


**Change the reward trade-off:**

.. code:: python

    reward_fn = lambda metric, net: metric * ((net.avg_latency / net.latency) ** 0.8)
    mynet.initialize(force_reinit=True)
    scheduler = ENAS_Scheduler(mynet, train_set='mnist',
                               reward_fn=reward_fn, batch_size=128, num_gpus=1,
                               warmup_epochs=0, epochs=1, controller_lr=3e-3,
                               plot_frequency=10, update_arch_frequency=5)
    scheduler.run()


.. parsed-literal::
    :class: output

      0%|          | 0/1 [00:00<?, ?it/s]
      0%|          | 0/468 [00:00<?, ?it/s][A
    avg reward: 0.09:   0%|          | 0/468 [00:00<?, ?it/s][A
    avg reward: 0.09:   0%|          | 1/468 [00:00<02:12,  3.52it/s][A
    avg reward: 0.09:   0%|          | 1/468 [00:00<02:12,  3.52it/s][A
    avg reward: 0.09:   0%|          | 1/468 [00:00<02:12,  3.52it/s][A
    avg reward: 0.09:   0%|          | 1/468 [00:00<02:12,  3.52it/s][A
    avg reward: 0.09:   0%|          | 1/468 [00:00<02:12,  3.52it/s][A
    avg reward: 0.10:   0%|          | 1/468 [00:00<02:12,  3.52it/s][A
    avg reward: 0.10:   1%|▏         | 6/468 [00:00<01:39,  4.65it/s][A
    avg reward: 0.10:   1%|▏         | 6/468 [00:00<01:39,  4.65it/s][A
    avg reward: 0.10:   1%|▏         | 6/468 [00:00<01:39,  4.65it/s][A
    avg reward: 0.10:   1%|▏         | 6/468 [00:00<01:39,  4.65it/s][A
    avg reward: 0.10:   1%|▏         | 6/468 [00:00<01:39,  4.65it/s][A
    avg reward: 0.10:   2%|▏         | 10/468 [00:00<01:12,  6.32it/s][A
    avg reward: 0.10:   2%|▏         | 10/468 [00:00<01:12,  6.32it/s][A
    avg reward: 0.10:   2%|▏         | 10/468 [00:00<01:12,  6.32it/s][A
    avg reward: 0.10:   3%|▎         | 12/468 [00:00<01:05,  6.93it/s][A
    avg reward: 0.10:   3%|▎         | 12/468 [00:00<01:05,  6.93it/s][A
    avg reward: 0.10:   3%|▎         | 12/468 [00:00<01:05,  6.93it/s][A
    avg reward: 0.10:   3%|▎         | 12/468 [00:00<01:05,  6.93it/s][A
    avg reward: 0.10:   3%|▎         | 12/468 [00:01<01:05,  6.93it/s][A
    avg reward: 0.10:   3%|▎         | 16/468 [00:01<00:54,  8.28it/s][A
    avg reward: 0.10:   3%|▎         | 16/468 [00:01<00:54,  8.28it/s][A
    avg reward: 0.10:   3%|▎         | 16/468 [00:01<00:54,  8.28it/s][A
    avg reward: 0.10:   3%|▎         | 16/468 [00:01<00:54,  8.28it/s][A
    avg reward: 0.10:   3%|▎         | 16/468 [00:01<00:54,  8.28it/s][A
    avg reward: 0.10:   3%|▎         | 16/468 [00:01<00:54,  8.28it/s][A
    avg reward: 0.10:   4%|▍         | 21/468 [00:01<00:44,  9.97it/s][A
    avg reward: 0.10:   4%|▍         | 21/468 [00:01<00:44,  9.97it/s][A
    avg reward: 0.10:   4%|▍         | 21/468 [00:01<00:44,  9.97it/s][A
    avg reward: 0.10:   4%|▍         | 21/468 [00:01<00:44,  9.97it/s][A
    avg reward: 0.10:   4%|▍         | 21/468 [00:01<00:44,  9.97it/s][A
    avg reward: 0.11:   4%|▍         | 21/468 [00:01<00:44,  9.97it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:01<00:38, 11.54it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:01<00:38, 11.54it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:01<00:38, 11.54it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:01<00:38, 11.54it/s][A
    avg reward: 0.11:   6%|▌         | 26/468 [00:01<00:38, 11.54it/s][A
    avg reward: 0.12:   6%|▌         | 26/468 [00:01<00:38, 11.54it/s][A
    avg reward: 0.12:   7%|▋         | 31/468 [00:01<00:33, 12.93it/s][A
    avg reward: 0.12:   7%|▋         | 31/468 [00:01<00:33, 12.93it/s][A
    avg reward: 0.12:   7%|▋         | 31/468 [00:02<00:33, 12.93it/s][A
    avg reward: 0.12:   7%|▋         | 31/468 [00:02<00:33, 12.93it/s][A
    avg reward: 0.12:   7%|▋         | 31/468 [00:02<00:33, 12.93it/s][A
    avg reward: 0.19:   7%|▋         | 31/468 [00:02<00:33, 12.93it/s][A
    avg reward: 0.19:   8%|▊         | 36/468 [00:02<00:30, 14.21it/s][A
    avg reward: 0.19:   8%|▊         | 36/468 [00:02<00:30, 14.21it/s][A
    avg reward: 0.19:   8%|▊         | 36/468 [00:02<00:30, 14.21it/s][A
    avg reward: 0.19:   8%|▊         | 36/468 [00:02<00:30, 14.21it/s][A
    avg reward: 0.19:   8%|▊         | 36/468 [00:02<00:30, 14.21it/s][A
    avg reward: 0.19:   9%|▊         | 40/468 [00:02<00:24, 17.18it/s][A
    avg reward: 0.35:   9%|▊         | 40/468 [00:02<00:24, 17.18it/s][A
    avg reward: 0.35:   9%|▊         | 40/468 [00:02<00:24, 17.18it/s][A
    avg reward: 0.35:   9%|▊         | 40/468 [00:02<00:24, 17.18it/s][A
    avg reward: 0.35:   9%|▉         | 43/468 [00:02<00:27, 15.22it/s][A
    avg reward: 0.35:   9%|▉         | 43/468 [00:02<00:27, 15.22it/s][A
    avg reward: 0.35:   9%|▉         | 43/468 [00:02<00:27, 15.22it/s][A
    avg reward: 0.52:   9%|▉         | 43/468 [00:02<00:27, 15.22it/s][A
    avg reward: 0.52:  10%|▉         | 46/468 [00:02<00:28, 14.79it/s][A
    avg reward: 0.52:  10%|▉         | 46/468 [00:02<00:28, 14.79it/s][A
    avg reward: 0.52:  10%|▉         | 46/468 [00:02<00:28, 14.79it/s][A
    avg reward: 0.52:  10%|▉         | 46/468 [00:02<00:28, 14.79it/s][A
    avg reward: 0.52:  10%|▉         | 46/468 [00:02<00:28, 14.79it/s][A
    avg reward: 0.64:  10%|▉         | 46/468 [00:03<00:28, 14.79it/s][A
    avg reward: 0.64:  11%|█         | 51/468 [00:03<00:26, 15.99it/s][A
    avg reward: 0.64:  11%|█         | 51/468 [00:03<00:26, 15.99it/s][A
    avg reward: 0.64:  11%|█         | 51/468 [00:03<00:26, 15.99it/s][A
    avg reward: 0.64:  11%|█         | 51/468 [00:03<00:26, 15.99it/s][A
    avg reward: 0.64:  11%|█         | 51/468 [00:03<00:26, 15.99it/s][A
    avg reward: 0.74:  11%|█         | 51/468 [00:03<00:26, 15.99it/s][A
    avg reward: 0.74:  12%|█▏        | 56/468 [00:03<00:24, 16.55it/s][A
    avg reward: 0.74:  12%|█▏        | 56/468 [00:03<00:24, 16.55it/s][A
    avg reward: 0.74:  12%|█▏        | 56/468 [00:03<00:24, 16.55it/s][A
    avg reward: 0.74:  12%|█▏        | 56/468 [00:03<00:24, 16.55it/s][A
    avg reward: 0.74:  12%|█▏        | 56/468 [00:03<00:24, 16.55it/s][A
    avg reward: 0.75:  12%|█▏        | 56/468 [00:03<00:24, 16.55it/s][A
    avg reward: 0.75:  13%|█▎        | 61/468 [00:03<00:23, 17.37it/s][A
    avg reward: 0.75:  13%|█▎        | 61/468 [00:03<00:23, 17.37it/s][A
    avg reward: 0.75:  13%|█▎        | 61/468 [00:03<00:23, 17.37it/s][A
    avg reward: 0.75:  13%|█▎        | 61/468 [00:03<00:23, 17.37it/s][A
    avg reward: 0.75:  13%|█▎        | 61/468 [00:03<00:23, 17.37it/s][A
    avg reward: 0.73:  13%|█▎        | 61/468 [00:03<00:23, 17.37it/s][A
    avg reward: 0.73:  14%|█▍        | 66/468 [00:03<00:22, 17.66it/s][A
    avg reward: 0.73:  14%|█▍        | 66/468 [00:03<00:22, 17.66it/s][A
    avg reward: 0.73:  14%|█▍        | 66/468 [00:03<00:22, 17.66it/s][A
    avg reward: 0.73:  14%|█▍        | 66/468 [00:03<00:22, 17.66it/s][A
    avg reward: 0.73:  14%|█▍        | 66/468 [00:03<00:22, 17.66it/s][A
    avg reward: 0.74:  14%|█▍        | 66/468 [00:04<00:22, 17.66it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:21, 18.10it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:21, 18.10it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:21, 18.10it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:21, 18.10it/s][A
    avg reward: 0.74:  15%|█▌        | 71/468 [00:04<00:21, 18.10it/s][A
    avg reward: 0.75:  15%|█▌        | 71/468 [00:04<00:21, 18.10it/s][A
    avg reward: 0.75:  16%|█▌        | 76/468 [00:04<00:21, 18.42it/s][A
    avg reward: 0.75:  16%|█▌        | 76/468 [00:04<00:21, 18.42it/s][A
    avg reward: 0.75:  16%|█▌        | 76/468 [00:04<00:21, 18.42it/s][A
    avg reward: 0.75:  16%|█▌        | 76/468 [00:04<00:21, 18.42it/s][A
    avg reward: 0.75:  16%|█▌        | 76/468 [00:04<00:21, 18.42it/s][A
    avg reward: 0.75:  17%|█▋        | 80/468 [00:04<00:17, 21.86it/s][A
    avg reward: 0.81:  17%|█▋        | 80/468 [00:04<00:17, 21.86it/s][A
    avg reward: 0.81:  17%|█▋        | 80/468 [00:04<00:17, 21.86it/s][A
    avg reward: 0.81:  17%|█▋        | 80/468 [00:04<00:17, 21.86it/s][A
    avg reward: 0.81:  18%|█▊        | 83/468 [00:04<00:20, 18.54it/s][A
    avg reward: 0.81:  18%|█▊        | 83/468 [00:04<00:20, 18.54it/s][A
    avg reward: 0.81:  18%|█▊        | 83/468 [00:04<00:20, 18.54it/s][A
    avg reward: 0.80:  18%|█▊        | 83/468 [00:04<00:20, 18.54it/s][A
    avg reward: 0.80:  18%|█▊        | 86/468 [00:04<00:22, 16.89it/s][A
    avg reward: 0.80:  18%|█▊        | 86/468 [00:04<00:22, 16.89it/s][A
    avg reward: 0.80:  18%|█▊        | 86/468 [00:04<00:22, 16.89it/s][A
    avg reward: 0.80:  18%|█▊        | 86/468 [00:04<00:22, 16.89it/s][A
    avg reward: 0.80:  18%|█▊        | 86/468 [00:05<00:22, 16.89it/s][A
    avg reward: 0.83:  18%|█▊        | 86/468 [00:05<00:22, 16.89it/s][A
    avg reward: 0.83:  19%|█▉        | 91/468 [00:05<00:22, 17.09it/s][A
    avg reward: 0.83:  19%|█▉        | 91/468 [00:05<00:22, 17.09it/s][A
    avg reward: 0.83:  19%|█▉        | 91/468 [00:05<00:22, 17.09it/s][A
    avg reward: 0.83:  19%|█▉        | 91/468 [00:05<00:22, 17.09it/s][A
    avg reward: 0.83:  19%|█▉        | 91/468 [00:05<00:22, 17.09it/s][A
    avg reward: 0.87:  19%|█▉        | 91/468 [00:05<00:22, 17.09it/s][A
    avg reward: 0.87:  21%|██        | 96/468 [00:05<00:21, 17.49it/s][A
    avg reward: 0.87:  21%|██        | 96/468 [00:05<00:21, 17.49it/s][A
    avg reward: 0.87:  21%|██        | 96/468 [00:05<00:21, 17.49it/s][A
    avg reward: 0.87:  21%|██        | 96/468 [00:05<00:21, 17.49it/s][A
    avg reward: 0.87:  21%|██        | 96/468 [00:05<00:21, 17.49it/s][A
    avg reward: 0.87:  21%|██▏       | 100/468 [00:05<00:17, 20.88it/s][A
    avg reward: 0.90:  21%|██▏       | 100/468 [00:05<00:17, 20.88it/s][A
    avg reward: 0.90:  21%|██▏       | 100/468 [00:05<00:17, 20.88it/s][A
    avg reward: 0.90:  21%|██▏       | 100/468 [00:05<00:17, 20.88it/s][A
    avg reward: 0.90:  22%|██▏       | 103/468 [00:05<00:20, 17.83it/s][A
    avg reward: 0.90:  22%|██▏       | 103/468 [00:05<00:20, 17.83it/s][A
    avg reward: 0.90:  22%|██▏       | 103/468 [00:05<00:20, 17.83it/s][A
    avg reward: 0.93:  22%|██▏       | 103/468 [00:06<00:20, 17.83it/s][A
    avg reward: 0.93:  23%|██▎       | 106/468 [00:06<00:22, 16.36it/s][A
    avg reward: 0.93:  23%|██▎       | 106/468 [00:06<00:22, 16.36it/s][A
    avg reward: 0.93:  23%|██▎       | 106/468 [00:06<00:22, 16.36it/s][A
    avg reward: 0.93:  23%|██▎       | 106/468 [00:06<00:22, 16.36it/s][A
    avg reward: 0.93:  23%|██▎       | 106/468 [00:06<00:22, 16.36it/s][A
    avg reward: 0.93:  24%|██▎       | 110/468 [00:06<00:18, 19.85it/s][A
    avg reward: 0.93:  24%|██▎       | 110/468 [00:06<00:18, 19.85it/s][A
    avg reward: 0.93:  24%|██▎       | 110/468 [00:06<00:18, 19.85it/s][A
    avg reward: 0.93:  24%|██▎       | 110/468 [00:06<00:18, 19.85it/s][A
    avg reward: 0.93:  24%|██▍       | 113/468 [00:06<00:21, 16.60it/s][A
    avg reward: 0.93:  24%|██▍       | 113/468 [00:06<00:21, 16.60it/s][A
    avg reward: 0.93:  24%|██▍       | 113/468 [00:06<00:21, 16.60it/s][A
    avg reward: 0.94:  24%|██▍       | 113/468 [00:06<00:21, 16.60it/s][A
    avg reward: 0.94:  25%|██▍       | 116/468 [00:06<00:21, 16.15it/s][A
    avg reward: 0.94:  25%|██▍       | 116/468 [00:06<00:21, 16.15it/s][A
    avg reward: 0.94:  25%|██▍       | 116/468 [00:06<00:21, 16.15it/s][A
    avg reward: 0.94:  25%|██▍       | 116/468 [00:06<00:21, 16.15it/s][A
    avg reward: 0.94:  25%|██▍       | 116/468 [00:06<00:21, 16.15it/s][A
    avg reward: 0.92:  25%|██▍       | 116/468 [00:06<00:21, 16.15it/s][A
    avg reward: 0.92:  26%|██▌       | 121/468 [00:06<00:20, 16.89it/s][A
    avg reward: 0.92:  26%|██▌       | 121/468 [00:06<00:20, 16.89it/s][A
    avg reward: 0.92:  26%|██▌       | 121/468 [00:06<00:20, 16.89it/s][A
    avg reward: 0.92:  26%|██▌       | 121/468 [00:06<00:20, 16.89it/s][A
    avg reward: 0.92:  26%|██▌       | 121/468 [00:06<00:20, 16.89it/s][A
    avg reward: 0.90:  26%|██▌       | 121/468 [00:07<00:20, 16.89it/s][A
    avg reward: 0.90:  27%|██▋       | 126/468 [00:07<00:19, 17.58it/s][A
    avg reward: 0.90:  27%|██▋       | 126/468 [00:07<00:19, 17.58it/s][A
    avg reward: 0.90:  27%|██▋       | 126/468 [00:07<00:19, 17.58it/s][A
    avg reward: 0.90:  27%|██▋       | 126/468 [00:07<00:19, 17.58it/s][A
    avg reward: 0.90:  27%|██▋       | 126/468 [00:07<00:19, 17.58it/s][A
    avg reward: 0.90:  28%|██▊       | 130/468 [00:07<00:16, 21.00it/s][A
    avg reward: 0.93:  28%|██▊       | 130/468 [00:07<00:16, 21.00it/s][A
    avg reward: 0.93:  28%|██▊       | 130/468 [00:07<00:16, 21.00it/s][A
    avg reward: 0.93:  28%|██▊       | 130/468 [00:07<00:16, 21.00it/s][A
    avg reward: 0.93:  28%|██▊       | 133/468 [00:07<00:19, 17.49it/s][A
    avg reward: 0.93:  28%|██▊       | 133/468 [00:07<00:19, 17.49it/s][A
    avg reward: 0.93:  28%|██▊       | 133/468 [00:07<00:19, 17.49it/s][A
    avg reward: 0.95:  28%|██▊       | 133/468 [00:07<00:19, 17.49it/s][A
    avg reward: 0.95:  29%|██▉       | 136/468 [00:07<00:21, 15.75it/s][A
    avg reward: 0.95:  29%|██▉       | 136/468 [00:07<00:21, 15.75it/s][A
    avg reward: 0.95:  29%|██▉       | 136/468 [00:07<00:21, 15.75it/s][A
    avg reward: 0.95:  29%|██▉       | 136/468 [00:07<00:21, 15.75it/s][A
    avg reward: 0.95:  29%|██▉       | 136/468 [00:07<00:21, 15.75it/s][A
    avg reward: 0.95:  30%|██▉       | 140/468 [00:07<00:17, 19.24it/s][A
    avg reward: 0.99:  30%|██▉       | 140/468 [00:07<00:17, 19.24it/s][A
    avg reward: 0.99:  30%|██▉       | 140/468 [00:07<00:17, 19.24it/s][A
    avg reward: 0.99:  30%|██▉       | 140/468 [00:07<00:17, 19.24it/s][A
    avg reward: 0.99:  31%|███       | 143/468 [00:07<00:18, 17.20it/s][A
    avg reward: 0.99:  31%|███       | 143/468 [00:08<00:18, 17.20it/s][A
    avg reward: 0.99:  31%|███       | 143/468 [00:08<00:18, 17.20it/s][A
    avg reward: 1.02:  31%|███       | 143/468 [00:08<00:18, 17.20it/s][A
    avg reward: 1.02:  31%|███       | 146/468 [00:08<00:20, 15.66it/s][A
    avg reward: 1.02:  31%|███       | 146/468 [00:08<00:20, 15.66it/s][A
    avg reward: 1.02:  31%|███       | 146/468 [00:08<00:20, 15.66it/s][A
    avg reward: 1.02:  31%|███       | 146/468 [00:08<00:20, 15.66it/s][A
    avg reward: 1.02:  31%|███       | 146/468 [00:08<00:20, 15.66it/s][A
    avg reward: 0.99:  31%|███       | 146/468 [00:08<00:20, 15.66it/s][A
    avg reward: 0.99:  32%|███▏      | 151/468 [00:08<00:19, 16.27it/s][A
    avg reward: 0.99:  32%|███▏      | 151/468 [00:08<00:19, 16.27it/s][A
    avg reward: 0.99:  32%|███▏      | 151/468 [00:08<00:19, 16.27it/s][A
    avg reward: 0.99:  32%|███▏      | 151/468 [00:08<00:19, 16.27it/s][A
    avg reward: 0.99:  32%|███▏      | 151/468 [00:08<00:19, 16.27it/s][A
    avg reward: 0.98:  32%|███▏      | 151/468 [00:08<00:19, 16.27it/s][A
    avg reward: 0.98:  33%|███▎      | 156/468 [00:08<00:18, 16.81it/s][A
    avg reward: 0.98:  33%|███▎      | 156/468 [00:08<00:18, 16.81it/s][A
    avg reward: 0.98:  33%|███▎      | 156/468 [00:08<00:18, 16.81it/s][A
    avg reward: 0.98:  33%|███▎      | 156/468 [00:08<00:18, 16.81it/s][A
    avg reward: 0.98:  33%|███▎      | 156/468 [00:08<00:18, 16.81it/s][A
    avg reward: 0.99:  33%|███▎      | 156/468 [00:09<00:18, 16.81it/s][A
    avg reward: 0.99:  34%|███▍      | 161/468 [00:09<00:17, 17.27it/s][A
    avg reward: 0.99:  34%|███▍      | 161/468 [00:09<00:17, 17.27it/s][A
    avg reward: 0.99:  34%|███▍      | 161/468 [00:09<00:17, 17.27it/s][A
    avg reward: 0.99:  34%|███▍      | 161/468 [00:09<00:17, 17.27it/s][A
    avg reward: 0.99:  34%|███▍      | 161/468 [00:09<00:17, 17.27it/s][A
    avg reward: 0.99:  34%|███▍      | 161/468 [00:09<00:17, 17.27it/s][A
    avg reward: 0.99:  35%|███▌      | 166/468 [00:09<00:17, 17.71it/s][A
    avg reward: 0.99:  35%|███▌      | 166/468 [00:09<00:17, 17.71it/s][A
    avg reward: 0.99:  35%|███▌      | 166/468 [00:09<00:17, 17.71it/s][A
    avg reward: 0.99:  35%|███▌      | 166/468 [00:09<00:17, 17.71it/s][A
    avg reward: 0.99:  35%|███▌      | 166/468 [00:09<00:17, 17.71it/s][A
    avg reward: 1.03:  35%|███▌      | 166/468 [00:09<00:17, 17.71it/s][A
    avg reward: 1.03:  37%|███▋      | 171/468 [00:09<00:16, 17.93it/s][A
    avg reward: 1.03:  37%|███▋      | 171/468 [00:09<00:16, 17.93it/s][A
    avg reward: 1.03:  37%|███▋      | 171/468 [00:09<00:16, 17.93it/s][A
    avg reward: 1.03:  37%|███▋      | 171/468 [00:09<00:16, 17.93it/s][A
    avg reward: 1.03:  37%|███▋      | 171/468 [00:09<00:16, 17.93it/s][A
    avg reward: 1.03:  37%|███▋      | 175/468 [00:09<00:13, 21.31it/s][A
    avg reward: 1.03:  37%|███▋      | 175/468 [00:09<00:13, 21.31it/s][A
    avg reward: 1.03:  37%|███▋      | 175/468 [00:09<00:13, 21.31it/s][A
    avg reward: 1.03:  37%|███▋      | 175/468 [00:09<00:13, 21.31it/s][A
    avg reward: 1.03:  38%|███▊      | 178/468 [00:09<00:16, 17.80it/s][A
    avg reward: 1.03:  38%|███▊      | 178/468 [00:09<00:16, 17.80it/s][A
    avg reward: 1.03:  38%|███▊      | 178/468 [00:09<00:16, 17.80it/s][A
    avg reward: 1.04:  38%|███▊      | 178/468 [00:10<00:16, 17.80it/s][A
    avg reward: 1.04:  39%|███▊      | 181/468 [00:10<00:17, 15.95it/s][A
    avg reward: 1.04:  39%|███▊      | 181/468 [00:10<00:17, 15.95it/s][A
    avg reward: 1.04:  39%|███▊      | 181/468 [00:10<00:17, 15.95it/s][A
    avg reward: 1.04:  39%|███▊      | 181/468 [00:10<00:17, 15.95it/s][A
    avg reward: 1.04:  39%|███▊      | 181/468 [00:10<00:17, 15.95it/s][A
    avg reward: 1.04:  40%|███▉      | 185/468 [00:10<00:14, 19.32it/s][A
    avg reward: 1.05:  40%|███▉      | 185/468 [00:10<00:14, 19.32it/s][A
    avg reward: 1.05:  40%|███▉      | 185/468 [00:10<00:14, 19.32it/s][A
    avg reward: 1.05:  40%|███▉      | 185/468 [00:10<00:14, 19.32it/s][A
    avg reward: 1.05:  40%|████      | 188/468 [00:10<00:16, 17.06it/s][A
    avg reward: 1.05:  40%|████      | 188/468 [00:10<00:16, 17.06it/s][A
    avg reward: 1.05:  40%|████      | 188/468 [00:10<00:16, 17.06it/s][A
    avg reward: 1.02:  40%|████      | 188/468 [00:10<00:16, 17.06it/s][A
    avg reward: 1.02:  41%|████      | 191/468 [00:10<00:17, 15.87it/s][A
    avg reward: 1.02:  41%|████      | 191/468 [00:10<00:17, 15.87it/s][A
    avg reward: 1.02:  41%|████      | 191/468 [00:10<00:17, 15.87it/s][A
    avg reward: 1.02:  41%|████      | 191/468 [00:10<00:17, 15.87it/s][A
    avg reward: 1.02:  41%|████      | 191/468 [00:10<00:17, 15.87it/s][A
    avg reward: 1.02:  42%|████▏     | 195/468 [00:10<00:14, 19.21it/s][A
    avg reward: 1.03:  42%|████▏     | 195/468 [00:10<00:14, 19.21it/s][A
    avg reward: 1.03:  42%|████▏     | 195/468 [00:11<00:14, 19.21it/s][A
    avg reward: 1.03:  42%|████▏     | 195/468 [00:11<00:14, 19.21it/s][A
    avg reward: 1.03:  42%|████▏     | 198/468 [00:11<00:15, 16.96it/s][A
    avg reward: 1.03:  42%|████▏     | 198/468 [00:11<00:15, 16.96it/s][A
    avg reward: 1.03:  42%|████▏     | 198/468 [00:11<00:15, 16.96it/s][A
    avg reward: 1.06:  42%|████▏     | 198/468 [00:11<00:15, 16.96it/s][A
    avg reward: 1.06:  43%|████▎     | 201/468 [00:11<00:17, 15.57it/s][A
    avg reward: 1.06:  43%|████▎     | 201/468 [00:11<00:17, 15.57it/s][A
    avg reward: 1.06:  43%|████▎     | 201/468 [00:11<00:17, 15.57it/s][A
    avg reward: 1.06:  43%|████▎     | 201/468 [00:11<00:17, 15.57it/s][A
    avg reward: 1.06:  43%|████▎     | 201/468 [00:11<00:17, 15.57it/s][A
    avg reward: 1.06:  44%|████▍     | 205/468 [00:11<00:13, 18.94it/s][A
    avg reward: 1.09:  44%|████▍     | 205/468 [00:11<00:13, 18.94it/s][A
    avg reward: 1.09:  44%|████▍     | 205/468 [00:11<00:13, 18.94it/s][A
    avg reward: 1.09:  44%|████▍     | 205/468 [00:11<00:13, 18.94it/s][A
    avg reward: 1.09:  44%|████▍     | 208/468 [00:11<00:15, 16.58it/s][A
    avg reward: 1.09:  44%|████▍     | 208/468 [00:11<00:15, 16.58it/s][A
    avg reward: 1.09:  44%|████▍     | 208/468 [00:11<00:15, 16.58it/s][A
    avg reward: 1.12:  44%|████▍     | 208/468 [00:11<00:15, 16.58it/s][A
    avg reward: 1.12:  45%|████▌     | 211/468 [00:11<00:16, 15.82it/s][A
    avg reward: 1.12:  45%|████▌     | 211/468 [00:11<00:16, 15.82it/s][A
    avg reward: 1.12:  45%|████▌     | 211/468 [00:11<00:16, 15.82it/s][A
    avg reward: 1.12:  45%|████▌     | 211/468 [00:11<00:16, 15.82it/s][A
    avg reward: 1.12:  45%|████▌     | 211/468 [00:11<00:16, 15.82it/s][A
    avg reward: 1.15:  45%|████▌     | 211/468 [00:12<00:16, 15.82it/s][A
    avg reward: 1.15:  46%|████▌     | 216/468 [00:12<00:15, 16.40it/s][A
    avg reward: 1.15:  46%|████▌     | 216/468 [00:12<00:15, 16.40it/s][A
    avg reward: 1.15:  46%|████▌     | 216/468 [00:12<00:15, 16.40it/s][A
    avg reward: 1.15:  46%|████▌     | 216/468 [00:12<00:15, 16.40it/s][A
    avg reward: 1.15:  46%|████▌     | 216/468 [00:12<00:15, 16.40it/s][A
    avg reward: 1.15:  47%|████▋     | 220/468 [00:12<00:12, 19.66it/s][A
    avg reward: 1.17:  47%|████▋     | 220/468 [00:12<00:12, 19.66it/s][A
    avg reward: 1.17:  47%|████▋     | 220/468 [00:12<00:12, 19.66it/s][A
    avg reward: 1.17:  47%|████▋     | 220/468 [00:12<00:12, 19.66it/s][A
    avg reward: 1.17:  48%|████▊     | 223/468 [00:12<00:14, 17.32it/s][A
    avg reward: 1.17:  48%|████▊     | 223/468 [00:12<00:14, 17.32it/s][A
    avg reward: 1.17:  48%|████▊     | 223/468 [00:12<00:14, 17.32it/s][A
    avg reward: 1.19:  48%|████▊     | 223/468 [00:12<00:14, 17.32it/s][A
    avg reward: 1.19:  48%|████▊     | 226/468 [00:12<00:14, 16.14it/s][A
    avg reward: 1.19:  48%|████▊     | 226/468 [00:12<00:14, 16.14it/s][A
    avg reward: 1.19:  48%|████▊     | 226/468 [00:12<00:14, 16.14it/s][A
    avg reward: 1.19:  48%|████▊     | 226/468 [00:12<00:14, 16.14it/s][A
    avg reward: 1.19:  48%|████▊     | 226/468 [00:12<00:14, 16.14it/s][A
    avg reward: 1.19:  48%|████▊     | 226/468 [00:12<00:14, 16.14it/s][A
    avg reward: 1.19:  49%|████▉     | 231/468 [00:12<00:14, 16.79it/s][A
    avg reward: 1.19:  49%|████▉     | 231/468 [00:12<00:14, 16.79it/s][A
    avg reward: 1.19:  49%|████▉     | 231/468 [00:12<00:14, 16.79it/s][A
    avg reward: 1.19:  49%|████▉     | 231/468 [00:12<00:14, 16.79it/s][A
    avg reward: 1.19:  49%|████▉     | 231/468 [00:13<00:14, 16.79it/s][A
    avg reward: 1.20:  49%|████▉     | 231/468 [00:13<00:14, 16.79it/s][A
    avg reward: 1.20:  50%|█████     | 236/468 [00:13<00:13, 17.29it/s][A
    avg reward: 1.20:  50%|█████     | 236/468 [00:13<00:13, 17.29it/s][A
    avg reward: 1.20:  50%|█████     | 236/468 [00:13<00:13, 17.29it/s][A
    avg reward: 1.20:  50%|█████     | 236/468 [00:13<00:13, 17.29it/s][A
    avg reward: 1.20:  50%|█████     | 236/468 [00:13<00:13, 17.29it/s][A
    avg reward: 1.20:  51%|█████▏    | 240/468 [00:13<00:10, 20.81it/s][A
    avg reward: 1.23:  51%|█████▏    | 240/468 [00:13<00:10, 20.81it/s][A
    avg reward: 1.23:  51%|█████▏    | 240/468 [00:13<00:10, 20.81it/s][A
    avg reward: 1.23:  51%|█████▏    | 240/468 [00:13<00:10, 20.81it/s][A
    avg reward: 1.23:  52%|█████▏    | 243/468 [00:13<00:13, 16.61it/s][A
    avg reward: 1.23:  52%|█████▏    | 243/468 [00:13<00:13, 16.61it/s][A
    avg reward: 1.23:  52%|█████▏    | 243/468 [00:13<00:13, 16.61it/s][A
    avg reward: 1.25:  52%|█████▏    | 243/468 [00:13<00:13, 16.61it/s][A
    avg reward: 1.25:  53%|█████▎    | 246/468 [00:13<00:14, 15.83it/s][A
    avg reward: 1.25:  53%|█████▎    | 246/468 [00:13<00:14, 15.83it/s][A
    avg reward: 1.25:  53%|█████▎    | 246/468 [00:13<00:14, 15.83it/s][A
    avg reward: 1.25:  53%|█████▎    | 246/468 [00:13<00:14, 15.83it/s][A
    avg reward: 1.25:  53%|█████▎    | 246/468 [00:13<00:14, 15.83it/s][A
    avg reward: 1.27:  53%|█████▎    | 246/468 [00:14<00:14, 15.83it/s][A
    avg reward: 1.27:  54%|█████▎    | 251/468 [00:14<00:13, 16.42it/s][A
    avg reward: 1.27:  54%|█████▎    | 251/468 [00:14<00:13, 16.42it/s][A
    avg reward: 1.27:  54%|█████▎    | 251/468 [00:14<00:13, 16.42it/s][A
    avg reward: 1.27:  54%|█████▎    | 251/468 [00:14<00:13, 16.42it/s][A
    avg reward: 1.27:  54%|█████▎    | 251/468 [00:14<00:13, 16.42it/s][A
    avg reward: 1.27:  54%|█████▎    | 251/468 [00:14<00:13, 16.42it/s][A
    avg reward: 1.27:  55%|█████▍    | 256/468 [00:14<00:12, 16.92it/s][A
    avg reward: 1.27:  55%|█████▍    | 256/468 [00:14<00:12, 16.92it/s][A
    avg reward: 1.27:  55%|█████▍    | 256/468 [00:14<00:12, 16.92it/s][A
    avg reward: 1.27:  55%|█████▍    | 256/468 [00:14<00:12, 16.92it/s][A
    avg reward: 1.27:  55%|█████▍    | 256/468 [00:14<00:12, 16.92it/s][A
    avg reward: 1.29:  55%|█████▍    | 256/468 [00:14<00:12, 16.92it/s][A
    avg reward: 1.29:  56%|█████▌    | 261/468 [00:14<00:12, 17.02it/s][A
    avg reward: 1.29:  56%|█████▌    | 261/468 [00:14<00:12, 17.02it/s][A
    avg reward: 1.29:  56%|█████▌    | 261/468 [00:14<00:12, 17.02it/s][A
    avg reward: 1.29:  56%|█████▌    | 261/468 [00:14<00:12, 17.02it/s][A
    avg reward: 1.29:  56%|█████▌    | 261/468 [00:14<00:12, 17.02it/s][A
    avg reward: 1.30:  56%|█████▌    | 261/468 [00:14<00:12, 17.02it/s][A
    avg reward: 1.30:  57%|█████▋    | 266/468 [00:14<00:11, 17.68it/s][A
    avg reward: 1.30:  57%|█████▋    | 266/468 [00:14<00:11, 17.68it/s][A
    avg reward: 1.30:  57%|█████▋    | 266/468 [00:14<00:11, 17.68it/s][A
    avg reward: 1.30:  57%|█████▋    | 266/468 [00:14<00:11, 17.68it/s][A
    avg reward: 1.30:  57%|█████▋    | 266/468 [00:14<00:11, 17.68it/s][A
    avg reward: 1.30:  57%|█████▋    | 266/468 [00:15<00:11, 17.68it/s][A
    avg reward: 1.30:  58%|█████▊    | 271/468 [00:15<00:10, 17.91it/s][A
    avg reward: 1.30:  58%|█████▊    | 271/468 [00:15<00:10, 17.91it/s][A
    avg reward: 1.30:  58%|█████▊    | 271/468 [00:15<00:10, 17.91it/s][A
    avg reward: 1.30:  58%|█████▊    | 271/468 [00:15<00:10, 17.91it/s][A
    avg reward: 1.30:  58%|█████▊    | 271/468 [00:15<00:10, 17.91it/s][A
    avg reward: 1.30:  58%|█████▊    | 271/468 [00:15<00:10, 17.91it/s][A
    avg reward: 1.30:  59%|█████▉    | 276/468 [00:15<00:10, 17.86it/s][A
    avg reward: 1.30:  59%|█████▉    | 276/468 [00:15<00:10, 17.86it/s][A
    avg reward: 1.30:  59%|█████▉    | 276/468 [00:15<00:10, 17.86it/s][A
    avg reward: 1.30:  59%|█████▉    | 276/468 [00:15<00:10, 17.86it/s][A
    avg reward: 1.30:  59%|█████▉    | 276/468 [00:15<00:10, 17.86it/s][A
    avg reward: 1.31:  59%|█████▉    | 276/468 [00:15<00:10, 17.86it/s][A
    avg reward: 1.31:  60%|██████    | 281/468 [00:15<00:10, 18.28it/s][A
    avg reward: 1.31:  60%|██████    | 281/468 [00:15<00:10, 18.28it/s][A
    avg reward: 1.31:  60%|██████    | 281/468 [00:15<00:10, 18.28it/s][A
    avg reward: 1.31:  60%|██████    | 281/468 [00:15<00:10, 18.28it/s][A
    avg reward: 1.31:  60%|██████    | 281/468 [00:15<00:10, 18.28it/s][A
    avg reward: 1.31:  60%|██████    | 281/468 [00:15<00:10, 18.28it/s][A
    avg reward: 1.31:  61%|██████    | 286/468 [00:15<00:09, 18.54it/s][A
    avg reward: 1.31:  61%|██████    | 286/468 [00:15<00:09, 18.54it/s][A
    avg reward: 1.31:  61%|██████    | 286/468 [00:15<00:09, 18.54it/s][A
    avg reward: 1.31:  61%|██████    | 286/468 [00:16<00:09, 18.54it/s][A
    avg reward: 1.31:  61%|██████    | 286/468 [00:16<00:09, 18.54it/s][A
    avg reward: 1.30:  61%|██████    | 286/468 [00:16<00:09, 18.54it/s][A
    avg reward: 1.30:  62%|██████▏   | 291/468 [00:16<00:09, 18.27it/s][A
    avg reward: 1.30:  62%|██████▏   | 291/468 [00:16<00:09, 18.27it/s][A
    avg reward: 1.30:  62%|██████▏   | 291/468 [00:16<00:09, 18.27it/s][A
    avg reward: 1.30:  62%|██████▏   | 291/468 [00:16<00:09, 18.27it/s][A
    avg reward: 1.30:  62%|██████▏   | 291/468 [00:16<00:09, 18.27it/s][A
    avg reward: 1.30:  63%|██████▎   | 295/468 [00:16<00:08, 21.41it/s][A
    avg reward: 1.31:  63%|██████▎   | 295/468 [00:16<00:08, 21.41it/s][A
    avg reward: 1.31:  63%|██████▎   | 295/468 [00:16<00:08, 21.41it/s][A
    avg reward: 1.31:  63%|██████▎   | 295/468 [00:16<00:08, 21.41it/s][A
    avg reward: 1.31:  64%|██████▎   | 298/468 [00:16<00:09, 18.30it/s][A
    avg reward: 1.31:  64%|██████▎   | 298/468 [00:16<00:09, 18.30it/s][A
    avg reward: 1.31:  64%|██████▎   | 298/468 [00:16<00:09, 18.30it/s][A
    avg reward: 1.32:  64%|██████▎   | 298/468 [00:16<00:09, 18.30it/s][A
    avg reward: 1.32:  64%|██████▍   | 301/468 [00:16<00:10, 16.43it/s][A
    avg reward: 1.32:  64%|██████▍   | 301/468 [00:16<00:10, 16.43it/s][A
    avg reward: 1.32:  64%|██████▍   | 301/468 [00:16<00:10, 16.43it/s][A
    avg reward: 1.32:  64%|██████▍   | 301/468 [00:16<00:10, 16.43it/s][A
    avg reward: 1.32:  64%|██████▍   | 301/468 [00:16<00:10, 16.43it/s][A
    avg reward: 1.32:  65%|██████▌   | 305/468 [00:16<00:08, 19.90it/s][A
    avg reward: 1.31:  65%|██████▌   | 305/468 [00:17<00:08, 19.90it/s][A
    avg reward: 1.31:  65%|██████▌   | 305/468 [00:17<00:08, 19.90it/s][A
    avg reward: 1.31:  65%|██████▌   | 305/468 [00:17<00:08, 19.90it/s][A
    avg reward: 1.31:  66%|██████▌   | 308/468 [00:17<00:09, 17.31it/s][A
    avg reward: 1.31:  66%|██████▌   | 308/468 [00:17<00:09, 17.31it/s][A
    avg reward: 1.31:  66%|██████▌   | 308/468 [00:17<00:09, 17.31it/s][A
    avg reward: 1.31:  66%|██████▌   | 308/468 [00:17<00:09, 17.31it/s][A
    avg reward: 1.31:  66%|██████▋   | 311/468 [00:17<00:10, 15.62it/s][A
    avg reward: 1.31:  66%|██████▋   | 311/468 [00:17<00:10, 15.62it/s][A
    avg reward: 1.31:  66%|██████▋   | 311/468 [00:17<00:10, 15.62it/s][A
    avg reward: 1.31:  66%|██████▋   | 311/468 [00:17<00:10, 15.62it/s][A
    avg reward: 1.31:  66%|██████▋   | 311/468 [00:17<00:10, 15.62it/s][A
    avg reward: 1.31:  67%|██████▋   | 315/468 [00:17<00:08, 19.02it/s][A
    avg reward: 1.32:  67%|██████▋   | 315/468 [00:17<00:08, 19.02it/s][A
    avg reward: 1.32:  67%|██████▋   | 315/468 [00:17<00:08, 19.02it/s][A
    avg reward: 1.32:  67%|██████▋   | 315/468 [00:17<00:08, 19.02it/s][A
    avg reward: 1.32:  68%|██████▊   | 318/468 [00:17<00:09, 16.33it/s][A
    avg reward: 1.32:  68%|██████▊   | 318/468 [00:17<00:09, 16.33it/s][A
    avg reward: 1.32:  68%|██████▊   | 318/468 [00:17<00:09, 16.33it/s][A
    avg reward: 1.32:  68%|██████▊   | 318/468 [00:17<00:09, 16.33it/s][A
    avg reward: 1.32:  69%|██████▊   | 321/468 [00:17<00:09, 15.55it/s][A
    avg reward: 1.32:  69%|██████▊   | 321/468 [00:17<00:09, 15.55it/s][A
    avg reward: 1.32:  69%|██████▊   | 321/468 [00:17<00:09, 15.55it/s][A
    avg reward: 1.32:  69%|██████▊   | 321/468 [00:17<00:09, 15.55it/s][A
    avg reward: 1.32:  69%|██████▊   | 321/468 [00:17<00:09, 15.55it/s][A
    avg reward: 1.32:  69%|██████▊   | 321/468 [00:18<00:09, 15.55it/s][A
    avg reward: 1.32:  70%|██████▉   | 326/468 [00:18<00:08, 16.15it/s][A
    avg reward: 1.32:  70%|██████▉   | 326/468 [00:18<00:08, 16.15it/s][A
    avg reward: 1.32:  70%|██████▉   | 326/468 [00:18<00:08, 16.15it/s][A
    avg reward: 1.32:  70%|██████▉   | 326/468 [00:18<00:08, 16.15it/s][A
    avg reward: 1.32:  70%|██████▉   | 326/468 [00:18<00:08, 16.15it/s][A
    avg reward: 1.32:  70%|██████▉   | 326/468 [00:18<00:08, 16.15it/s][A
    avg reward: 1.32:  71%|███████   | 331/468 [00:18<00:08, 16.32it/s][A
    avg reward: 1.32:  71%|███████   | 331/468 [00:18<00:08, 16.32it/s][A
    avg reward: 1.32:  71%|███████   | 331/468 [00:18<00:08, 16.32it/s][A
    avg reward: 1.32:  71%|███████   | 331/468 [00:18<00:08, 16.32it/s][A
    avg reward: 1.32:  71%|███████   | 331/468 [00:18<00:08, 16.32it/s][A
    avg reward: 1.32:  72%|███████▏  | 335/468 [00:18<00:06, 19.70it/s][A
    avg reward: 1.32:  72%|███████▏  | 335/468 [00:18<00:06, 19.70it/s][A
    avg reward: 1.32:  72%|███████▏  | 335/468 [00:18<00:06, 19.70it/s][A
    avg reward: 1.32:  72%|███████▏  | 335/468 [00:18<00:06, 19.70it/s][A
    avg reward: 1.32:  72%|███████▏  | 338/468 [00:18<00:07, 16.88it/s][A
    avg reward: 1.32:  72%|███████▏  | 338/468 [00:18<00:07, 16.88it/s][A
    avg reward: 1.32:  72%|███████▏  | 338/468 [00:18<00:07, 16.88it/s][A
    avg reward: 1.32:  72%|███████▏  | 338/468 [00:19<00:07, 16.88it/s][A
    avg reward: 1.32:  73%|███████▎  | 341/468 [00:19<00:07, 15.97it/s][A
    avg reward: 1.32:  73%|███████▎  | 341/468 [00:19<00:07, 15.97it/s][A
    avg reward: 1.32:  73%|███████▎  | 341/468 [00:19<00:07, 15.97it/s][A
    avg reward: 1.32:  73%|███████▎  | 341/468 [00:19<00:07, 15.97it/s][A
    avg reward: 1.32:  73%|███████▎  | 341/468 [00:19<00:07, 15.97it/s][A
    avg reward: 1.32:  73%|███████▎  | 341/468 [00:19<00:07, 15.97it/s][A
    avg reward: 1.32:  74%|███████▍  | 346/468 [00:19<00:07, 16.77it/s][A
    avg reward: 1.32:  74%|███████▍  | 346/468 [00:19<00:07, 16.77it/s][A
    avg reward: 1.32:  74%|███████▍  | 346/468 [00:19<00:07, 16.77it/s][A
    avg reward: 1.32:  74%|███████▍  | 346/468 [00:19<00:07, 16.77it/s][A
    avg reward: 1.32:  74%|███████▍  | 346/468 [00:19<00:07, 16.77it/s][A
    avg reward: 1.32:  74%|███████▍  | 346/468 [00:19<00:07, 16.77it/s][A
    avg reward: 1.32:  75%|███████▌  | 351/468 [00:19<00:06, 16.74it/s][A
    avg reward: 1.32:  75%|███████▌  | 351/468 [00:19<00:06, 16.74it/s][A
    avg reward: 1.32:  75%|███████▌  | 351/468 [00:19<00:06, 16.74it/s][A
    avg reward: 1.32:  75%|███████▌  | 351/468 [00:19<00:06, 16.74it/s][A
    avg reward: 1.32:  75%|███████▌  | 351/468 [00:19<00:06, 16.74it/s][A
    avg reward: 1.32:  75%|███████▌  | 351/468 [00:19<00:06, 16.74it/s][A
    avg reward: 1.32:  76%|███████▌  | 356/468 [00:19<00:06, 17.11it/s][A
    avg reward: 1.32:  76%|███████▌  | 356/468 [00:19<00:06, 17.11it/s][A
    avg reward: 1.32:  76%|███████▌  | 356/468 [00:19<00:06, 17.11it/s][A
    avg reward: 1.32:  76%|███████▌  | 356/468 [00:19<00:06, 17.11it/s][A
    avg reward: 1.32:  76%|███████▌  | 356/468 [00:19<00:06, 17.11it/s][A
    avg reward: 1.32:  77%|███████▋  | 360/468 [00:19<00:05, 20.64it/s][A
    avg reward: 1.33:  77%|███████▋  | 360/468 [00:20<00:05, 20.64it/s][A
    avg reward: 1.33:  77%|███████▋  | 360/468 [00:20<00:05, 20.64it/s][A
    avg reward: 1.33:  77%|███████▋  | 360/468 [00:20<00:05, 20.64it/s][A
    avg reward: 1.33:  78%|███████▊  | 363/468 [00:20<00:06, 17.31it/s][A
    avg reward: 1.33:  78%|███████▊  | 363/468 [00:20<00:06, 17.31it/s][A
    avg reward: 1.33:  78%|███████▊  | 363/468 [00:20<00:06, 17.31it/s][A
    avg reward: 1.32:  78%|███████▊  | 363/468 [00:20<00:06, 17.31it/s][A
    avg reward: 1.32:  78%|███████▊  | 366/468 [00:20<00:06, 16.67it/s][A
    avg reward: 1.32:  78%|███████▊  | 366/468 [00:20<00:06, 16.67it/s][A
    avg reward: 1.32:  78%|███████▊  | 366/468 [00:20<00:06, 16.67it/s][A
    avg reward: 1.32:  78%|███████▊  | 366/468 [00:20<00:06, 16.67it/s][A
    avg reward: 1.32:  78%|███████▊  | 366/468 [00:20<00:06, 16.67it/s][A
    avg reward: 1.32:  79%|███████▉  | 370/468 [00:20<00:04, 19.65it/s][A
    avg reward: 1.33:  79%|███████▉  | 370/468 [00:20<00:04, 19.65it/s][A
    avg reward: 1.33:  79%|███████▉  | 370/468 [00:20<00:04, 19.65it/s][A
    avg reward: 1.33:  79%|███████▉  | 370/468 [00:20<00:04, 19.65it/s][A
    avg reward: 1.33:  80%|███████▉  | 373/468 [00:20<00:05, 17.12it/s][A
    avg reward: 1.33:  80%|███████▉  | 373/468 [00:20<00:05, 17.12it/s][A
    avg reward: 1.33:  80%|███████▉  | 373/468 [00:20<00:05, 17.12it/s][A
    avg reward: 1.33:  80%|███████▉  | 373/468 [00:20<00:05, 17.12it/s][A
    avg reward: 1.33:  80%|████████  | 376/468 [00:20<00:05, 16.17it/s][A
    avg reward: 1.33:  80%|████████  | 376/468 [00:20<00:05, 16.17it/s][A
    avg reward: 1.33:  80%|████████  | 376/468 [00:21<00:05, 16.17it/s][A
    avg reward: 1.33:  80%|████████  | 376/468 [00:21<00:05, 16.17it/s][A
    avg reward: 1.33:  80%|████████  | 376/468 [00:21<00:05, 16.17it/s][A
    avg reward: 1.33:  81%|████████  | 380/468 [00:21<00:04, 19.54it/s][A
    avg reward: 1.33:  81%|████████  | 380/468 [00:21<00:04, 19.54it/s][A
    avg reward: 1.33:  81%|████████  | 380/468 [00:21<00:04, 19.54it/s][A
    avg reward: 1.33:  81%|████████  | 380/468 [00:21<00:04, 19.54it/s][A
    avg reward: 1.33:  82%|████████▏ | 383/468 [00:21<00:04, 17.12it/s][A
    avg reward: 1.33:  82%|████████▏ | 383/468 [00:21<00:04, 17.12it/s][A
    avg reward: 1.33:  82%|████████▏ | 383/468 [00:21<00:04, 17.12it/s][A
    avg reward: 1.33:  82%|████████▏ | 383/468 [00:21<00:04, 17.12it/s][A
    avg reward: 1.33:  82%|████████▏ | 386/468 [00:21<00:05, 15.90it/s][A
    avg reward: 1.33:  82%|████████▏ | 386/468 [00:21<00:05, 15.90it/s][A
    avg reward: 1.33:  82%|████████▏ | 386/468 [00:21<00:05, 15.90it/s][A
    avg reward: 1.33:  82%|████████▏ | 386/468 [00:21<00:05, 15.90it/s][A
    avg reward: 1.33:  82%|████████▏ | 386/468 [00:21<00:05, 15.90it/s][A
    avg reward: 1.33:  83%|████████▎ | 390/468 [00:21<00:04, 19.28it/s][A
    avg reward: 1.32:  83%|████████▎ | 390/468 [00:21<00:04, 19.28it/s][A
    avg reward: 1.32:  83%|████████▎ | 390/468 [00:21<00:04, 19.28it/s][A
    avg reward: 1.32:  83%|████████▎ | 390/468 [00:21<00:04, 19.28it/s][A
    avg reward: 1.32:  84%|████████▍ | 393/468 [00:21<00:04, 17.10it/s][A
    avg reward: 1.32:  84%|████████▍ | 393/468 [00:21<00:04, 17.10it/s][A
    avg reward: 1.32:  84%|████████▍ | 393/468 [00:21<00:04, 17.10it/s][A
    avg reward: 1.32:  84%|████████▍ | 393/468 [00:22<00:04, 17.10it/s][A
    avg reward: 1.32:  85%|████████▍ | 396/468 [00:22<00:04, 16.05it/s][A
    avg reward: 1.32:  85%|████████▍ | 396/468 [00:22<00:04, 16.05it/s][A
    avg reward: 1.32:  85%|████████▍ | 396/468 [00:22<00:04, 16.05it/s][A
    avg reward: 1.32:  85%|████████▍ | 396/468 [00:22<00:04, 16.05it/s][A
    avg reward: 1.32:  85%|████████▍ | 396/468 [00:22<00:04, 16.05it/s][A
    avg reward: 1.32:  85%|████████▍ | 396/468 [00:22<00:04, 16.05it/s][A
    avg reward: 1.32:  86%|████████▌ | 401/468 [00:22<00:04, 16.45it/s][A
    avg reward: 1.32:  86%|████████▌ | 401/468 [00:22<00:04, 16.45it/s][A
    avg reward: 1.32:  86%|████████▌ | 401/468 [00:22<00:04, 16.45it/s][A
    avg reward: 1.32:  86%|████████▌ | 401/468 [00:22<00:04, 16.45it/s][A
    avg reward: 1.32:  86%|████████▌ | 401/468 [00:22<00:04, 16.45it/s][A
    avg reward: 1.33:  86%|████████▌ | 401/468 [00:22<00:04, 16.45it/s][A
    avg reward: 1.33:  87%|████████▋ | 406/468 [00:22<00:03, 16.88it/s][A
    avg reward: 1.33:  87%|████████▋ | 406/468 [00:22<00:03, 16.88it/s][A
    avg reward: 1.33:  87%|████████▋ | 406/468 [00:22<00:03, 16.88it/s][A
    avg reward: 1.33:  87%|████████▋ | 406/468 [00:22<00:03, 16.88it/s][A
    avg reward: 1.33:  87%|████████▋ | 406/468 [00:22<00:03, 16.88it/s][A
    avg reward: 1.33:  87%|████████▋ | 406/468 [00:22<00:03, 16.88it/s][A
    avg reward: 1.33:  88%|████████▊ | 411/468 [00:22<00:03, 17.31it/s][A
    avg reward: 1.33:  88%|████████▊ | 411/468 [00:22<00:03, 17.31it/s][A
    avg reward: 1.33:  88%|████████▊ | 411/468 [00:22<00:03, 17.31it/s][A
    avg reward: 1.33:  88%|████████▊ | 411/468 [00:22<00:03, 17.31it/s][A
    avg reward: 1.33:  88%|████████▊ | 411/468 [00:22<00:03, 17.31it/s][A
    avg reward: 1.33:  89%|████████▊ | 415/468 [00:22<00:02, 20.68it/s][A
    avg reward: 1.33:  89%|████████▊ | 415/468 [00:23<00:02, 20.68it/s][A
    avg reward: 1.33:  89%|████████▊ | 415/468 [00:23<00:02, 20.68it/s][A
    avg reward: 1.33:  89%|████████▊ | 415/468 [00:23<00:02, 20.68it/s][A
    avg reward: 1.33:  89%|████████▉ | 418/468 [00:23<00:02, 17.27it/s][A
    avg reward: 1.33:  89%|████████▉ | 418/468 [00:23<00:02, 17.27it/s][A
    avg reward: 1.33:  89%|████████▉ | 418/468 [00:23<00:02, 17.27it/s][A
    avg reward: 1.33:  89%|████████▉ | 418/468 [00:23<00:02, 17.27it/s][A
    avg reward: 1.33:  90%|████████▉ | 421/468 [00:23<00:02, 16.06it/s][A
    avg reward: 1.33:  90%|████████▉ | 421/468 [00:23<00:02, 16.06it/s][A
    avg reward: 1.33:  90%|████████▉ | 421/468 [00:23<00:02, 16.06it/s][A
    avg reward: 1.33:  90%|████████▉ | 421/468 [00:23<00:02, 16.06it/s][A
    avg reward: 1.33:  90%|████████▉ | 421/468 [00:23<00:02, 16.06it/s][A
    avg reward: 1.33:  91%|█████████ | 425/468 [00:23<00:02, 19.11it/s][A
    avg reward: 1.33:  91%|█████████ | 425/468 [00:23<00:02, 19.11it/s][A
    avg reward: 1.33:  91%|█████████ | 425/468 [00:23<00:02, 19.11it/s][A
    avg reward: 1.33:  91%|█████████ | 425/468 [00:23<00:02, 19.11it/s][A
    avg reward: 1.33:  91%|█████████▏| 428/468 [00:23<00:02, 16.84it/s][A
    avg reward: 1.33:  91%|█████████▏| 428/468 [00:23<00:02, 16.84it/s][A
    avg reward: 1.33:  91%|█████████▏| 428/468 [00:23<00:02, 16.84it/s][A
    avg reward: 1.33:  91%|█████████▏| 428/468 [00:23<00:02, 16.84it/s][A
    avg reward: 1.33:  92%|█████████▏| 431/468 [00:24<00:02, 16.20it/s][A
    avg reward: 1.33:  92%|█████████▏| 431/468 [00:24<00:02, 16.20it/s][A
    avg reward: 1.33:  92%|█████████▏| 431/468 [00:24<00:02, 16.20it/s][A
    avg reward: 1.33:  92%|█████████▏| 431/468 [00:24<00:02, 16.20it/s][A
    avg reward: 1.33:  92%|█████████▏| 431/468 [00:24<00:02, 16.20it/s][A
    avg reward: 1.33:  92%|█████████▏| 431/468 [00:24<00:02, 16.20it/s][A
    avg reward: 1.33:  93%|█████████▎| 436/468 [00:24<00:01, 16.57it/s][A
    avg reward: 1.33:  93%|█████████▎| 436/468 [00:24<00:01, 16.57it/s][A
    avg reward: 1.33:  93%|█████████▎| 436/468 [00:24<00:01, 16.57it/s][A
    avg reward: 1.33:  93%|█████████▎| 436/468 [00:24<00:01, 16.57it/s][A
    avg reward: 1.33:  93%|█████████▎| 436/468 [00:24<00:01, 16.57it/s][A
    avg reward: 1.33:  93%|█████████▎| 436/468 [00:24<00:01, 16.57it/s][A
    avg reward: 1.33:  94%|█████████▍| 441/468 [00:24<00:01, 17.01it/s][A
    avg reward: 1.33:  94%|█████████▍| 441/468 [00:24<00:01, 17.01it/s][A
    avg reward: 1.33:  94%|█████████▍| 441/468 [00:24<00:01, 17.01it/s][A
    avg reward: 1.33:  94%|█████████▍| 441/468 [00:24<00:01, 17.01it/s][A
    avg reward: 1.33:  94%|█████████▍| 441/468 [00:24<00:01, 17.01it/s][A
    avg reward: 1.33:  94%|█████████▍| 441/468 [00:24<00:01, 17.01it/s][A
    avg reward: 1.33:  95%|█████████▌| 446/468 [00:24<00:01, 17.72it/s][A
    avg reward: 1.33:  95%|█████████▌| 446/468 [00:24<00:01, 17.72it/s][A
    avg reward: 1.33:  95%|█████████▌| 446/468 [00:24<00:01, 17.72it/s][A
    avg reward: 1.33:  95%|█████████▌| 446/468 [00:24<00:01, 17.72it/s][A
    avg reward: 1.33:  95%|█████████▌| 446/468 [00:24<00:01, 17.72it/s][A
    avg reward: 1.33:  96%|█████████▌| 450/468 [00:24<00:00, 21.13it/s][A
    avg reward: 1.33:  96%|█████████▌| 450/468 [00:25<00:00, 21.13it/s][A
    avg reward: 1.33:  96%|█████████▌| 450/468 [00:25<00:00, 21.13it/s][A
    avg reward: 1.33:  96%|█████████▌| 450/468 [00:25<00:00, 21.13it/s][A
    avg reward: 1.33:  97%|█████████▋| 453/468 [00:25<00:00, 18.10it/s][A
    avg reward: 1.33:  97%|█████████▋| 453/468 [00:25<00:00, 18.10it/s][A
    avg reward: 1.33:  97%|█████████▋| 453/468 [00:25<00:00, 18.10it/s][A
    avg reward: 1.33:  97%|█████████▋| 453/468 [00:25<00:00, 18.10it/s][A
    avg reward: 1.33:  97%|█████████▋| 456/468 [00:25<00:00, 16.75it/s][A
    avg reward: 1.33:  97%|█████████▋| 456/468 [00:25<00:00, 16.75it/s][A
    avg reward: 1.33:  97%|█████████▋| 456/468 [00:25<00:00, 16.75it/s][A
    avg reward: 1.33:  97%|█████████▋| 456/468 [00:25<00:00, 16.75it/s][A
    avg reward: 1.33:  97%|█████████▋| 456/468 [00:25<00:00, 16.75it/s][A
    avg reward: 1.33:  97%|█████████▋| 456/468 [00:25<00:00, 16.75it/s][A
    avg reward: 1.33:  99%|█████████▊| 461/468 [00:25<00:00, 17.22it/s][A
    avg reward: 1.33:  99%|█████████▊| 461/468 [00:25<00:00, 17.22it/s][A
    avg reward: 1.33:  99%|█████████▊| 461/468 [00:25<00:00, 17.22it/s][A
    avg reward: 1.33:  99%|█████████▊| 461/468 [00:25<00:00, 17.22it/s][A
    avg reward: 1.33:  99%|█████████▊| 461/468 [00:25<00:00, 17.22it/s][A
    avg reward: 1.33:  99%|█████████▊| 461/468 [00:25<00:00, 17.22it/s][A
    avg reward: 1.33: 100%|█████████▉| 466/468 [00:25<00:00, 17.86it/s][A
    avg reward: 1.33: 100%|█████████▉| 466/468 [00:25<00:00, 17.86it/s][A
    avg reward: 1.33: 100%|██████████| 468/468 [00:25<00:00, 18.05it/s]
    
      0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 1.0:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.984375:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.984375:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.986328125:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.9875:   0%|          | 0/79 [00:00<?, ?it/s]     [A
    Val Acc: 0.9869791666666666:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.9854910714285714:   0%|          | 0/79 [00:00<?, ?it/s][A
    Val Acc: 0.9854910714285714:   9%|▉         | 7/79 [00:00<00:01, 61.59it/s][A
    Val Acc: 0.9833984375:   9%|▉         | 7/79 [00:00<00:01, 61.59it/s]      [A
    Val Acc: 0.9809027777777778:   9%|▉         | 7/79 [00:00<00:01, 61.59it/s][A
    Val Acc: 0.98046875:   9%|▉         | 7/79 [00:00<00:01, 61.59it/s]        [A
    Val Acc: 0.9808238636363636:   9%|▉         | 7/79 [00:00<00:01, 61.59it/s][A
    Val Acc: 0.9811197916666666:   9%|▉         | 7/79 [00:00<00:01, 61.59it/s][A
    Val Acc: 0.9795673076923077:   9%|▉         | 7/79 [00:00<00:01, 61.59it/s][A
    Val Acc: 0.9795673076923077:  16%|█▋        | 13/79 [00:00<00:01, 59.26it/s][A
    Val Acc: 0.9799107142857143:  16%|█▋        | 13/79 [00:00<00:01, 59.26it/s][A
    Val Acc: 0.9796875:  16%|█▋        | 13/79 [00:00<00:01, 59.26it/s]         [A
    Val Acc: 0.98046875:  16%|█▋        | 13/79 [00:00<00:01, 59.26it/s][A
    Val Acc: 0.9793198529411765:  16%|█▋        | 13/79 [00:00<00:01, 59.26it/s][A
    Val Acc: 0.9791666666666666:  16%|█▋        | 13/79 [00:00<00:01, 59.26it/s][A
    Val Acc: 0.9794407894736842:  16%|█▋        | 13/79 [00:00<00:01, 59.26it/s][A
    Val Acc: 0.979296875:  16%|█▋        | 13/79 [00:00<00:01, 59.26it/s]       [A
    Val Acc: 0.9791666666666666:  16%|█▋        | 13/79 [00:00<00:01, 59.26it/s][A
    Val Acc: 0.9791666666666666:  27%|██▋       | 21/79 [00:00<00:00, 62.70it/s][A
    Val Acc: 0.9790482954545454:  27%|██▋       | 21/79 [00:00<00:00, 62.70it/s][A
    Val Acc: 0.9792798913043478:  27%|██▋       | 21/79 [00:00<00:00, 62.70it/s][A
    Val Acc: 0.9798177083333334:  27%|██▋       | 21/79 [00:00<00:00, 62.70it/s][A
    Val Acc: 0.9796875:  27%|██▋       | 21/79 [00:00<00:00, 62.70it/s]         [A
    Val Acc: 0.9798677884615384:  27%|██▋       | 21/79 [00:00<00:00, 62.70it/s][A
    Val Acc: 0.9797453703703703:  27%|██▋       | 21/79 [00:00<00:00, 62.70it/s][A
    Val Acc: 0.9790736607142857:  27%|██▋       | 21/79 [00:00<00:00, 62.70it/s][A
    Val Acc: 0.9787176724137931:  27%|██▋       | 21/79 [00:00<00:00, 62.70it/s][A
    Val Acc: 0.9787176724137931:  37%|███▋      | 29/79 [00:00<00:00, 64.22it/s][A
    Val Acc: 0.9783854166666667:  37%|███▋      | 29/79 [00:00<00:00, 64.22it/s][A
    Val Acc: 0.9785786290322581:  37%|███▋      | 29/79 [00:00<00:00, 64.22it/s][A
    Val Acc: 0.97900390625:  37%|███▋      | 29/79 [00:00<00:00, 64.22it/s]     [A
    Val Acc: 0.9791666666666666:  37%|███▋      | 29/79 [00:00<00:00, 64.22it/s][A
    Val Acc: 0.9795496323529411:  37%|███▋      | 29/79 [00:00<00:00, 64.22it/s][A
    Val Acc: 0.9799107142857143:  37%|███▋      | 29/79 [00:00<00:00, 64.22it/s][A
    Val Acc: 0.9796006944444444:  37%|███▋      | 29/79 [00:00<00:00, 64.22it/s][A
    Val Acc: 0.979518581081081:  37%|███▋      | 29/79 [00:00<00:00, 64.22it/s] [A
    Val Acc: 0.979518581081081:  47%|████▋     | 37/79 [00:00<00:00, 65.82it/s][A
    Val Acc: 0.9800575657894737:  47%|████▋     | 37/79 [00:00<00:00, 65.82it/s][A
    Val Acc: 0.9799679487179487:  47%|████▋     | 37/79 [00:00<00:00, 65.82it/s][A
    Val Acc: 0.9796875:  47%|████▋     | 37/79 [00:00<00:00, 65.82it/s]         [A
    Val Acc: 0.9799923780487805:  47%|████▋     | 37/79 [00:00<00:00, 65.82it/s][A
    Val Acc: 0.9802827380952381:  47%|████▋     | 37/79 [00:00<00:00, 65.82it/s][A
    Val Acc: 0.9801962209302325:  47%|████▋     | 37/79 [00:00<00:00, 65.82it/s][A
    Val Acc: 0.98046875:  47%|████▋     | 37/79 [00:00<00:00, 65.82it/s]        [A
    Val Acc: 0.9805555555555555:  47%|████▋     | 37/79 [00:00<00:00, 65.82it/s][A
    Val Acc: 0.9805555555555555:  57%|█████▋    | 45/79 [00:00<00:00, 64.71it/s][A
    Val Acc: 0.98046875:  57%|█████▋    | 45/79 [00:00<00:00, 64.71it/s]        [A
    Val Acc: 0.980718085106383:  57%|█████▋    | 45/79 [00:00<00:00, 64.71it/s][A
    Val Acc: 0.98095703125:  57%|█████▋    | 45/79 [00:00<00:00, 64.71it/s]    [A
    Val Acc: 0.9811862244897959:  57%|█████▋    | 45/79 [00:00<00:00, 64.71it/s][A
    Val Acc: 0.98140625:  57%|█████▋    | 45/79 [00:00<00:00, 64.71it/s]        [A
    Val Acc: 0.9808517156862745:  57%|█████▋    | 45/79 [00:00<00:00, 64.71it/s][A
    Val Acc: 0.9807692307692307:  57%|█████▋    | 45/79 [00:00<00:00, 64.71it/s][A
    Val Acc: 0.9807692307692307:  66%|██████▌   | 52/79 [00:00<00:00, 65.95it/s][A
    Val Acc: 0.9801002358490566:  66%|██████▌   | 52/79 [00:00<00:00, 65.95it/s][A
    Val Acc: 0.9798900462962963:  66%|██████▌   | 52/79 [00:00<00:00, 65.95it/s][A
    Val Acc: 0.9802556818181818:  66%|██████▌   | 52/79 [00:00<00:00, 65.95it/s][A
    Val Acc: 0.9803292410714286:  66%|██████▌   | 52/79 [00:00<00:00, 65.95it/s][A
    Val Acc: 0.9801260964912281:  66%|██████▌   | 52/79 [00:00<00:00, 65.95it/s][A
    Val Acc: 0.9799299568965517:  66%|██████▌   | 52/79 [00:00<00:00, 65.95it/s][A
    Val Acc: 0.9800052966101694:  66%|██████▌   | 52/79 [00:00<00:00, 65.95it/s][A
    Val Acc: 0.9800052966101694:  75%|███████▍  | 59/79 [00:00<00:00, 65.69it/s][A
    Val Acc: 0.980078125:  75%|███████▍  | 59/79 [00:00<00:00, 65.69it/s]       [A
    Val Acc: 0.9802766393442623:  75%|███████▍  | 59/79 [00:00<00:00, 65.69it/s][A
    Val Acc: 0.98046875:  75%|███████▍  | 59/79 [00:00<00:00, 65.69it/s]        [A
    Val Acc: 0.9807787698412699:  75%|███████▍  | 59/79 [00:00<00:00, 65.69it/s][A
    Val Acc: 0.98095703125:  75%|███████▍  | 59/79 [00:00<00:00, 65.69it/s]     [A
    Val Acc: 0.9807692307692307:  75%|███████▍  | 59/79 [00:00<00:00, 65.69it/s][A
    Val Acc: 0.9809422348484849:  75%|███████▍  | 59/79 [00:01<00:00, 65.69it/s][A
    Val Acc: 0.9809422348484849:  84%|████████▎ | 66/79 [00:01<00:00, 66.61it/s][A
    Val Acc: 0.980643656716418:  84%|████████▎ | 66/79 [00:01<00:00, 66.61it/s] [A
    Val Acc: 0.9808134191176471:  84%|████████▎ | 66/79 [00:01<00:00, 66.61it/s][A
    Val Acc: 0.9809782608695652:  84%|████████▎ | 66/79 [00:01<00:00, 66.61it/s][A
    Val Acc: 0.9808035714285714:  84%|████████▎ | 66/79 [00:01<00:00, 66.61it/s][A
    Val Acc: 0.980743838028169:  84%|████████▎ | 66/79 [00:01<00:00, 66.61it/s] [A
    Val Acc: 0.9810112847222222:  84%|████████▎ | 66/79 [00:01<00:00, 66.61it/s][A
    Val Acc: 0.9808433219178082:  84%|████████▎ | 66/79 [00:01<00:00, 66.61it/s][A
    Val Acc: 0.9808910472972973:  84%|████████▎ | 66/79 [00:01<00:00, 66.61it/s][A
    Val Acc: 0.9808910472972973:  94%|█████████▎| 74/79 [00:01<00:00, 68.12it/s][A
    Val Acc: 0.980625:  94%|█████████▎| 74/79 [00:01<00:00, 68.12it/s]          [A
    Val Acc: 0.9807771381578947:  94%|█████████▎| 74/79 [00:01<00:00, 68.12it/s][A
    Val Acc: 0.9808238636363636:  94%|█████████▎| 74/79 [00:01<00:00, 68.12it/s][A
    Val Acc: 0.9808693910256411:  94%|█████████▎| 74/79 [00:01<00:00, 68.12it/s][A
    Val Acc: 0.9809: 100%|██████████| 79/79 [00:01<00:00, 66.97it/s]
    epoch 0, val_acc: 0.98, avg reward: 1.33: 100%|██████████| 1/1 [00:27<00:00, 27.16s/it]


The resulting architecture is:

.. code:: python

    mynet.graph


.. figure:: output_enas_proxylessnas_ad55b9_25_0.svg


Store the trained model as a static network
-------------------------------------------

The trained ENAS network can be saved to disk for future inferences.

.. code:: python

    mynet.export('enas')

Load it back with mxnet:

.. code:: python

    mynet_static = mx.gluon.nn.SymbolBlock.imports("enas-symbol.json", ['data'], "enas.params")
    y = mynet_static(mx.nd.zeros((1, 1, 28, 28)))
    print(y.shape)


.. parsed-literal::
    :class: output

    (1, 10)


Reference
---------

[1] Efficient Neural Architecture Search via Parameter Sharing H Pham,
MY Guan, B Zoph, QV Le, J Dean *International Conference on Machine
Learning (ICML)*

[3] ProxylessNAS: Direct Neural Architecture Search on Target Task and
Hardware Han Cai, Ligeng Zhu, Song Han *International Conference on
Learning Representations (ICLR)*, 2019.