逻辑回归+牛顿法 python实现

请先了解以下逻辑回归http://blog.csdn.net/pakko/article/details/37878837#!/usr/bin/python# -*- coding: utf-8 -*-# matplotlib.pyplot 用于绘制2D图表import matplotlib.pyplot as pltfrom numpy import *class L

左手121

5027人浏览 · 2016-09-22 10:25:39

左手121 · 2016-09-22 10:25:39 发布

如果不了解逻辑回归，请点击链接学习逻辑回归
http://blog.csdn.net/pakko/article/details/37878837

本次实例数据地址：
http://openclassroom.stanford.edu/MainFolder/courses/MachineLearning/exercises/ex4materials/ex4Data.zip

#!/usr/bin/python
# -*- coding: utf-8 -*-

# matplotlib.pyplot 用于绘制2D图表
import matplotlib.pyplot as plt
from numpy import *


class LR:
    # 数据的行数
    __row = 0
    # 数据的列数
    __col = 0
    # 迭代次数
    __numIterations = 10
    # 训练集合
    __trainData = []
    # θ参数
    __theta = []
    # Y值
    __Y = []
    # 损失
    __Cost = []

    def __init__(self, data):
        self.__row, self.__col = shape(data)
        self.__trainData = data[:, 0:self.__col - 1]
        self.__Y = data[:, self.__col - 1:self.__col]
        self.__col = self.__col - 1
        # 系数的初始值为0  如果是其他值有可能会算不出结果
        self.__theta = mat(zeros((self.__col, 1)))

    # 设置迭代次数
    def setnumIterations(self, numIterations):
        self.__numIterations = numIterations

    # 获取theta
    def getTheta(self):
        return self.__theta

    # 获取cost损失
    def getCost(self):
        return self.__Cost

    # 训练数据模型
    def train(self):
        # 存储损失
        self.__Cost = mat(zeros((self.__numIterations, 1)))
        for i in range(0, self.__numIterations):
            # 更新Theta
            self.__updateTheta(i)

    # 迭代theta
    def __updateTheta(self, i):
        # 获取预测值h(x) 1.0 / (1 + exp(-z))
        h = 1.0 / (1 + exp(-(self.__trainData * self.__theta)))
        # 获取损失
        self.__getCost(i, h)
        # .T 矩阵的转置
        # 一阶导数矩阵算法 (1 / m) * x.T * (h-y)
        J = multiply(1.0 / self.__row,
                     self.__trainData.T * (h - self.__Y))
        # 获取Hession矩阵
        # getA() 矩阵转换为数组
        # diag(x) 生成对角线为x其余为0的矩阵
        # Hession矩阵算法(1 / m) * x.T * U * x   U表示用(h * (1 - h))构成对角，其余为0的矩阵
        H = multiply(1.0 / self.__row, self.__trainData.T *
                     diag(multiply(h, (1 - h)).T.getA()
                          [0]) * self.__trainData)
        # .I 矩阵的逆
        self.__theta = self.__theta - H.I * J

    # 计算损失
    def __getCost(self, i, h):
        l1 = self.__Y.T * log(h)
        l2 = (1 - self.__Y).T * log((1 - h))
        self.__Cost[i, :] = multiply(1.0 / self.__row, sum(-l1 - l2))

    # 画图
    def draw(self):
        x1 = []
        y1 = []
        x2 = []
        y2 = []
        for i in range(0, self.__row):
            if(self.__Y[i] == 1):
                x1.append(self.__trainData[i, 1])
                y1.append(self.__trainData[i, 2])
            else:
                x2.append(self.__trainData[i, 1])
                y2.append(self.__trainData[i, 2])
        # plt.figure()创建一个绘图对象
        # 第一个参数表示绘图对象的序号，当序号相同时候不会创建新的对象，而是指向该序号的对象。
        # 第二个参数表示绘图对象的尺寸。参数值 * 80
        plt.figure(0, figsize=(8, 5))
        fig = plt.figure(0)
        # 创建一个画布,参数含义(m,n,k）将画布分为m * n块，这个图像在第k块
        ax = fig.add_subplot(1, 1, 1)
        # scatter散列图 s 数据点的大小 c颜色 marker形状
        ax.scatter(x1, y1, s=30, c="red", marker="o")
        ax.scatter(x2, y2, s=30, c="green")
        x = arange(20, 80, 10)
        a = float(self.__theta[1])
        b = float(self.__theta[0])
        c = float(self.__theta[2])
        y = (a * x + b) / (-c)
        # plt.plot(x,y,label="$sin(x)$",color="red",linewidth=2)
        # label : 曲线名字 添加"$"符号，matplotlib就会使用其内嵌的latex引擎绘制的数学公式
        # color : 指定曲线的颜色        linewidth : 指定曲线的宽度
        # plt.plot(x,z,"b--",label="$cos(x^2)$") 第三个参数"b--"指定曲线的颜色和线型(蓝色 虚线)
        ax.plot(x, y)
        plt.xlabel("X")
        plt.ylabel("Y")
        plt.legend(["hx", "x1y1", "x2y2"])
        plt.show()

# -------------------------开始-----------------------
x = open("/home/hadoop/Python/LR/ex4x.dat", "r")
y = open("/home/hadoop/Python/LR/ex4y.dat", "r")
data = []
for i in x:
    temp = [1]
    val = i.split()
    for j in val:
        temp.append(float(j))
    temp.append(float(y.readline()))
    data.append(temp)

lr = LR(mat(data))
lr.setnumIterations(7)
lr.train()
print(lr.getTheta())
print(lr.getCost())
lr.draw()

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生