神经网络基础-神经网络补充概念-25-深层神经网络

深层神经网络（Deep Neural Network，DNN）是一种具有多个隐藏层的神经网络，它可以用来解决复杂的模式识别和特征学习任务。深层神经网络在近年来的机器学习和人工智能领域中取得了重大突破，如图像识别、自然语言处理、语音识别等。

丰。。

617人浏览 · 2023-08-16 10:23:50

丰。。 · 2023-08-16 10:23:50 发布

简介

重要概念

多隐藏层：
深层神经网络具有多个隐藏层，这些隐藏层可以用来提取不同层次的特征。每一层的神经元可以将前一层的输出作为输入，并对数据进行更高级的抽象和特征学习。

特征学习：
深层神经网络通过逐层的特征学习，可以自动地从原始数据中提取出更加抽象和有意义的特征。每一层的权重和偏差都在训练过程中进行调整，以便更好地捕捉数据中的模式和信息。

非线性激活函数：
深层神经网络使用非线性的激活函数（如ReLU、Sigmoid、Tanh等）来引入非线性变换，从而使网络能够处理更加复杂的关系和模式。

前向传播和反向传播：
深层神经网络的训练过程包括前向传播和反向传播。前向传播用于计算预测值，并计算损失函数，而反向传播用于计算梯度并更新权重和偏差，以减小损失函数。

优化算法：
训练深层神经网络通常使用各种优化算法，如梯度下降法、随机梯度下降法、Adam等。这些算法有助于寻找损失函数的最小值，并使网络的性能逐渐提升。

过拟合问题：
深层神经网络容易出现过拟合问题，特别是在数据量较少的情况下。为了避免过拟合，常常会采用正则化、Dropout等技术。

深度学习框架：
为了便于搭建和训练深层神经网络，许多深度学习框架（如TensorFlow、PyTorch、Keras等）被开发出来，提供了丰富的工具和接口来支持深度神经网络的构建和训练。

代码实现

import numpy as np

# Sigmoid 激活函数及其导数
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

# 初始化参数
def initialize_parameters(layer_dims):
    parameters = {}
    L = len(layer_dims)  # 层数

    for l in range(1, L):
        parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l - 1]) * 0.01
        parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))

    return parameters

# 前向传播
def forward_propagation(X, parameters):
    caches = []
    A = X
    L = len(parameters) // 2  # 神经网络层数

    for l in range(1, L):
        Z = np.dot(parameters['W' + str(l)], A) + parameters['b' + str(l)]
        A = sigmoid(Z)
        caches.append((Z, A))

    Z = np.dot(parameters['W' + str(L)], A) + parameters['b' + str(L)]
    AL = sigmoid(Z)
    caches.append((Z, AL))

    return AL, caches

# 计算损失
def compute_loss(AL, Y):
    m = Y.shape[1]
    cost = -np.sum(Y * np.log(AL) + (1 - Y) * np.log(1 - AL)) / m
    return cost

# 反向传播
def backward_propagation(AL, Y, caches):
    grads = {}
    L = len(caches)
    m = AL.shape[1]
    Y = Y.reshape(AL.shape)

    dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL))

    current_cache = caches[L - 1]
    dZL = dAL * sigmoid_derivative(current_cache[1])
    grads['dW' + str(L)] = np.dot(dZL, caches[L - 2][1].T) / m
    grads['db' + str(L)] = np.sum(dZL, axis=1, keepdims=True) / m

    for l in reversed(range(L - 1)):
        current_cache = caches[l]
        dZ = np.dot(parameters['W' + str(l + 2)].T, dZL) * sigmoid_derivative(current_cache[1])
        grads['dW' + str(l + 1)] = np.dot(dZ, caches[l][1].T) / m
        grads['db' + str(l + 1)] = np.sum(dZ, axis=1, keepdims=True) / m
        dZL = dZ

    return grads

# 更新参数
def update_parameters(parameters, grads, learning_rate):
    L = len(parameters) // 2

    for l in range(L):
        parameters['W' + str(l + 1)] -= learning_rate * grads['dW' + str(l + 1)]
        parameters['b' + str(l + 1)] -= learning_rate * grads['db' + str(l + 1)]

    return parameters

# 主函数
def deep_neural_network(X, Y, layer_dims, learning_rate, num_iterations):
    np.random.seed(42)
    parameters = initialize_parameters(layer_dims)

    for i in range(num_iterations):
        AL, caches = forward_propagation(X, parameters)
        cost = compute_loss(AL, Y)
        grads = backward_propagation(AL, Y, caches)
        parameters = update_parameters(parameters, grads, learning_rate)

        if i % 100 == 0:
            print(f'Iteration {i}, Cost: {cost:.4f}')

    return parameters

# 示例数据
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]]).T
Y = np.array([[0, 1, 1, 0]]).T

# 定义网络结构和超参数
layer_dims = [2, 4, 4, 1]  # 输入层维度、隐藏层维度、输出层维度
learning_rate = 0.1
num_iterations = 10000

# 训练深层神经网络
parameters = deep_neural_network(X, Y, layer_dims, learning_rate, num_iterations)

# 预测
predictions, _ = forward_propagation(X, parameters)
print('Predictions:', predictions)

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生