深度学习（一）：给你的数据集打标签

深度学习之给自建数据集打标签

大家都要开心

30399人浏览 · 2021-12-25 19:17:02

大家都要开心 · 2021-12-25 19:17:02 发布

1、构建数据集

构建一个文件data，在data文件夹中构建n个子文件夹，n表示你的类别个数。

2、如何让机器能读懂

这里要先知道，何为深度学习，要清楚你需要给每一个类别的图片打上一个标签。

这里介绍俩种打标签的方法。

第一种是制造txt文件。

import os
a=0
while(a<4):

    dir = 'data/'+str(a)+'/'
    label = a

    files = os.listdir(dir)
    files.sort()
    train = open('train.txt','a')
    val = open('val.txt', 'a')
    i = 1
    for file in files:
        if i<300:  #假如文件中有420张图片，此处的300指的其中299张图片作为train数据集，剩下的121张图片作为test数据集
            fileType = os.path.split(file)
            if fileType[1] == '.txt':
                continue
            name =  str(dir) +  file + ' ' + str(int(label)) +'\n'
            train.write(name)
            i = i+1
            print(i)
        else:
            fileType = os.path.split(file)
            if fileType[1] == '.txt':
                continue
            name = str(dir) +file + ' ' + str(int(label)) +'\n'
            val.write(name)
            i = i+1
            print(i)


    val.close()
    train.close()
    print(a)
    a = a + 1

第二种是创建表格

import numpy as np
import pandas as pd
import cv2
import os


def readfilename(filepath):
    return os.listdir(filepath)


a_path = '位置'
b_path = '位置'
c_path = '位置'
d_path = '位置'

df = pd.DataFrame()

filenames_1 = readfilename(a_path)
for filename in filenames_1:
    read_path = a_path + filename
    img = cv2.imread(read_path)
    img = img.reshape(1, -1)
    data = np.concatenate(([[0]], img), axis=1)
    data = pd.DataFrame(data)
    df = df.append(data)
print(df.head())

filenames_2 = readfilename(b_path)
for filename in filenames_2:
    read_path = b_path + filename
    img = cv2.imread(read_path)
    img = img.reshape(1, -1)
    data = np.concatenate(([[1]], img), axis=1)
    data = pd.DataFrame(data)
    df = df.append(data)
print(df.tail())

filenames_3 = readfilename(c_path)
for filename in filenames_3:
    read_path = c_path + filename
    img = cv2.imread(read_path)
    img = img.reshape(1, -1)
    data = np.concatenate(([[2]], img), axis=1)
    data = pd.DataFrame(data)
    df = df.append(data)
print(df.tail())

filenames_4 = readfilename(d_path)
for filename in filenames_4:
    read_path = d_path + filename
    img = cv2.imread(read_path)
    img = img.reshape(1, -1)
    data = np.concatenate(([[3]], img), axis=1)
    data = pd.DataFrame(data)
    df = df.append(data)
print(df.tail())

df.to_csv('train.csv', index=0)

第三种是利用文件夹的命名规则直接读取标签

import os
import random
import cv2
import numpy as np
from sklearn.preprocessing import LabelBinarizer
from sklearn.model_selection import train_test_split
#导入相关库
image_types = (".jpg", ".jpeg", ".png", ".bmp", ".tif", ".tiff")

def list_images(basePath, contains=None):
    # 返回有效的图片路径数据集
    return list_files(basePath, validExts=image_types, contains=contains)


def list_files(basePath, validExts=None, contains=None):
    # 遍历图片数据目录，生成每张图片的路径
    for (rootDir, dirNames, filenames) in os.walk(basePath):
        # 循环遍历当前目录中的文件名
        for filename in filenames:
            # if the contains string is not none and the filename does not contain
            # the supplied string, then ignore the file
            if contains is not None and filename.find(contains) == -1:
                continue

            # 通过确定.的位置，从而确定当前文件的文件扩展名
            ext = filename[filename.rfind("."):].lower()

            # 检查文件是否为图像，是否应进行处理
            if validExts is None or ext.endswith(validExts):
                # 构造图像路径
                imagePath = os.path.join(rootDir, filename)
                yield imagePath


# 加载自建数据集
data = []
labels = []

# 拿到图像数据路径，方便后续读取
imagePaths = sorted(list(list_images('./dataset')))
random.seed(42)
random.shuffle(imagePaths)

# 遍历读取数据
for imagePath in imagePaths:
    # 读取图像数据
    image = cv2.imread(imagePath, 1)
    image = cv2.resize(image, (64, 96))
    data.append(image)
    # 读取标签
    label = imagePath.split(os.path.sep)[-2]  #文件路径的倒数第二个就是文件夹的名字被定义为标签
    labels.append(label)

data = np.array(data, dtype="float") / 255.0
labels = np.array(labels)

(x_train, x_test, y_train, y_test) = train_test_split(data, labels, test_size=0.3, random_state=42)  #这里的test指的是训练集中的测试集，也就是val

lb = LabelBinarizer()
y_train = lb.fit_transform(y_train)
y_test = lb.transform(y_test)

在下一篇博文会介绍如何让机器读取这些数据。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生