以下是为您提供的关于网络模型的相关信息:
|Num|Observation|Min|Max||-|-|-|-||0|Cart位置|-4.8|4.8||1|Cart速度|-Inf|Inf||2|Pole角度|~ -0.418 rad(-24°)|~ 0.418 rad(24°)||3|Pole角速度|-Inf|Inf|行动也只有两个,向左或向右,所以我们的模型也可以构建的很简单。下面来看看具体的代码,代码也是用chatgpt生成的,我稍微改了一下。我们的DQN的网络模型采用一层128个神经元的全连接并以ReLU作为激活函数,由于游戏不是很复杂所以选用简单的两层网络结构就行了:我们还需要一个缓存区来存放从环境中采样的数据:然后就是我们的训练函数,批量从缓存区获取数据,使用DQN算法进行训练:最后就是我们的主循环函数了,在每个episode中,我们选择一个动作(使用ε-greedy策略),执行该动作,并将结果存储在replay buffer中:训练完之后使用保存好的model.pth参数,就可以实际使用起来了:
Yes,there can be a lot of flexibility in this model.But one can’t have a truly “model-less model”.Perhaps the AI is based on a huge neural network,with billions of numerical parameters that can get tweaked.Perhaps even the architecture of the network can change.But the whole neural net setup inevitably defines an ultimate underlying model.是的,这个模型可以有很大的灵活性。但不可能有一个真正的“无模型模型”。也许人工智能是基于一个巨大的神经网络,有数十亿个可以调整的数值参数。也许甚至网络的架构也可以改变。但整个神经网络设置不可避免地定义了一个最终的底层模型。Let’s look at a very simple case.Let’s imagine our “data” is the blue curve here—perhaps representing the motion of a weight suspended on a spring—and that the “physics” tells us it continues with the red curve:让我们看一个非常简单的案例。让我们想象我们的“数据”是这里的蓝色曲线——也许代表悬挂在弹簧上的重物的运动——并且“物理学”告诉我们它继续是红色曲线:Now let’s take a very simple neural net现在让我们来看一个非常简单的神经网络and let’s train it using the “blue curve” data above to get a network with a certain collection of weights:让我们使用上面的“蓝色曲线”数据来训练它,以获得具有特定权重集合的网络:Now let’s apply this trained network to reproduce our original data and extend it:现在让我们应用这个经过训练的网络来重现我们的原始数据并扩展它:And what we see is that the network does a decent job of reproducing the data it was trained on,but when it comes to “predicting the future” it basically fails.我们看到的是,网络在复制其训练数据方面做得不错,但当涉及到“预测未来”时,它基本上失败了。
├── 📄 config.json ├── 📄 environment-wsl2.yaml # Windows Subsystem for Linux的环境配置├── 📁 embeddings #存储embedding模型的目录│ ├── 📄 place textual inversion embeddings here.txt ├── 📁 extensions #插件目录│ ├── 📄 put extensions here.txt │ └── 📁 stable-diffusion-webui-localization-zh_CN ├── 📄 launch.py ├── 📄 LICENSE.txt ├── 📁 models #存储各类模型的目录│ ├── 📁 aesthetic_embeddings #美学嵌入模型│ ├── 📁 Codeformer │ ├── 📁 deepbooru #深度图库标签分类模型│ ├── 📁 ESRGAN #增强超分辨率生成对抗网络模型│ ├── 📁 GFPGAN #基于GAN的人脸修复模型│ ├── 📁 hypernetworks #超网络模型│ ├── 📁 LDSR #轻量残差网络模型│ ├── 📁 Lora # Lora模型│ ├── 📁 ScuNET │ ├── 📁 Stable-diffusion #稳定扩散模型│ ├── 📁 SwinIR #轻量级基于Swin Transformer的增强超分辨率模型│ ├── 📁 VAE #变分自编码器模型│ └── 📁 VAE-approx #变分自编码器的近似计算模型├── 📁 outputs #存储各类输出结果的目录│ ├── 📁 img2img-grids #由图生图模型生成的网格图(2x2)│ ├── 📁 img2img-images #由图生图模型生成的图像│ ├── 📁 extras-images #额外的生成图像│ ├── 📁