NLP中什么是span和token

What is span & token in NLP?

TerryBlog

11826人浏览 · 2021-07-11 14:57:18

TerryBlog · 2021-07-11 14:57:18 发布

1、token

        提到token，不得不提tokenization（分词）。分词就是将句子、段落、文章这类型的长文本，分解为以 字词（token） 为单位的数据结构。
        比方说，在句子 “我很开心” 中，利用中文分词得到的列表是 {“我”，“很”，“开心”}，列表中的每一个元素代表一个token。
        而论文中的token representation表达把文本分词后每个词表示成向量。