《动手学深度学习》--- 文本预处理

做了什么事？读取《时光机器》这本书建立词表通过词表将这本书转化为向量表示Code#!/usr/bin/env python# -*- coding: UTF-8 -*-"""@Project ：深度学习入门@File ：文本预处理.py@Author ：little_spice@Date ：2022/5/11 18:13"""import collectionsimport refrom d2l

小小的香辛料

1317人浏览 · 2022-05-11 22:12:44

小小的香辛料 · 2022-05-11 22:12:44 发布

参考沐神

8.2. 文本预处理 — 动手学深度学习 2.0.0-beta0 documentationhttps://zh-v2.d2l.ai/chapter_recurrent-neural-networks/text-preprocessing.html

做了什么事？

读取《时光机器》这本书
建立词表
通过词表将这本书转化为向量表示

Code

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@Project ：深度学习入门
@File ：文本预处理.py
@Author ：little_spice
@Date ：2022/5/11 18:13
"""
import collections
import re
from d2l import torch as d2l

# 读取数据集：从H.G.Well的《时光机器》中加载⽂本。为简单起⻅，我们在这⾥忽略了标点符号和字⺟⼤写。
d2l.DATA_HUB['time_machine'] = (d2l.DATA_URL+'timemachine.txt','090b5e7e70c295757f55df93cb0a180b9691891a')

def read_time_machine():
    """将《时间机器》数据集加载到文本行的列表中"""
    with open(d2l.download('time_machine'),'r') as f:
        lines = f.readlines()
    return [re.sub('[^A-Za-z]+',' ',line).strip().lower() for line in lines]

# lines为一维列表，每一个元素代表一行文本
lines = read_time_machine()
print(f"# 文本总行数：{len(lines)}")
# print(lines[0:4])
# print(lines[0])
# print(lines[10])

def tokenize(lines,token='word'):
    """将文本行拆成单词或字符词元"""
    # 按单词划分每一行文本
    if token == 'word':
        return [line.split() for line in lines]
    # 按字母划分每一行文本
    elif token == 'char':
        return [list(line) for line in lines]
    else:
        print('错误：未知词元类型：'+token)
# 得到tokens为二维列表，表示将原始文本的每一行都切成词元后的结果
tokens = tokenize(lines)
print(tokens[0])

"""
    构建⼀个字典，通常也叫做词表（vocabulary）
    ⽤来将字符串类型的词元映射到从0开始的数字索引中。我们先将训练集中的所有⽂档合并在⼀起，对它们的唯⼀词元进⾏统计，得到的统计结果称之为语料（corpus）。
    然后根据每个唯⼀词元的出现频率，为其分配⼀个数字索引。很少出现的词元通常被移除，这可以降低复杂性。另外，语料库中不存在或已删除的任何词元都将映射到⼀个
    特定的未知词元“<unk>”。我们可以选择增加⼀个列表，⽤于保存那些被保留的词元，例如：填充词元（“<pad>”）；序列开始词元（“<bos>”）；序列结束词元（“<eos>”）。
"""
class Vocab:
    def __init__(self,tokens=None,min_freq=0,reserved_tokens=None):
        if tokens is None:
            tokens = []
        if reserved_tokens is None:
            reserved_tokens = []
        # 按出现频率排序
        # 得到 {词元:出现次数} 形式的字典
        counter = count_corpus(tokens)
        # 对字典按值降序排序
        self._token_freqs = sorted(counter.items(),key=lambda x:x[1],reverse=True)
        # 定义词表，即 下标:词元 映射，其中未知词元的索引为0，保留的词元跟在未知词元后面，往后新增词元依次加到保留词元后面
        self.idx_to_token = ['<unk>']+reserved_tokens
        # 用字典存储 词元和对应的下标idx
        self.token_to_idx = {token:idx for idx,token in enumerate(self.idx_to_token)}
        for token,freq in self._token_freqs:
            # 出现次数小于min_freq的词元我们就直接舍弃了
            if freq < min_freq:
                break
            # 如果该词元不在 下标:词元 映射中就把该词元加进去，同时更新{词元:对应的下标idx}的字典
            if token not in self.token_to_idx:
                self.idx_to_token.append(token)
                self.token_to_idx[token] = len(self.idx_to_token)-1

    # 直接返回词表长度即可
    def __len__(self):
        return len(self.idx_to_token)

    def __getitem__(self, tokens):
        # 判断tokens是不是列表或元组，如果是，则返回tokens对应的idx值
        if not isinstance(tokens,(list,tuple)):
            # 如果token_to_idx里有tokens就返回对应的值，否则返回self.unk
            return self.token_to_idx.get(tokens,self.unk)
        return  [self.__getitem__(token) for token in tokens]

    # 用@property修饰器修饰方法有两个作用，1是将方法变成属性调用的形式，2是属性是私有的，用户不可修改。
    # 此处的意思是 未知词元的索引为0
    @property
    def unk(self):
        return 0

    @property
    def token_freqs(self):
        return self._token_freqs

# 统计词元的频率，这里的tokens是1维或2维列表
def count_corpus(tokens):
    # 一维列表为空 or 是二维列表
    if len(tokens) == 0 or isinstance(tokens[0],list):
        # 将词元列表展平成一个列表
        tokens = [token for line in tokens for token in line]
    # 返回字典形式的key:value统计个数，注意没有排序哦！
    return collections.Counter(tokens)

# 使⽤时光机器数据集作为语料库来构建词表，然后打印前⼏个⾼频词元及其索引。
vocab = Vocab(tokens)
# 打印前10条高频的瞧一瞧~
print(list(vocab.token_to_idx.items())[:10])

# 现在，我们可以将每⼀条⽂本⾏转换成⼀个数字索引列表。
# 打印第0行和第10行文本以及对应的索引
for i in [0,10]:
    print('文本：',tokens[i])
    print('索引：',vocab[tokens[i]])

# 整合所有功能
"""
在使⽤上述函数时，我们将所有功能打包到load_corpus_time_machine函数中，该函数返回
corpus（词元索引列表）和vocab（时光机器语料库的词表）。我们在这⾥所做的改变是：
    1. 为了简化后⾯章节中的训练，我们使⽤字符（⽽不是单词）实现⽂本词元化；
    2. 时光机器数据集中的每个⽂本⾏不⼀定是⼀个句⼦或⼀个段落，还可能是⼀个单词，因此返回
    的corpus仅处理为单个列表，⽽不是使⽤多词元列表构成的⼀个列表。
"""
def load_corpus_time_machine(max_tokens=-1):
    """返回时光机器数据集的词元索引列表和词表"""
    lines = read_time_machine()
    tokens = tokenize(lines,'char')
    vocab = Vocab(tokens)
    # 因为时光机器数据集中的每个⽂本⾏不⼀定是⼀个句⼦或⼀个段落，所以将所有⽂本⾏展平到⼀个列表中
    """ 
    这里等价于
        for line in tokens:
            for token in line:
                corpus.append(vocab[token])
    也就是对于每一行的每个词元，我都去查一下词表，然后添加到corpus里面。
    所以corpus存储的是《时光机器》这本书的词元表示，vocab是词表。
    搞懂这个其实就可以了！
    """
    corpus = [vocab[token] for line in tokens for token in line]
    if max_tokens > 0:
        corpus = corpus[:max_tokens]
    return corpus,vocab

corpus,vocab = load_corpus_time_machine()
print(len(corpus),len(vocab))
print(corpus[:4],vocab.token_to_idx)

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生