text analytics toolbox 产品信息 -凯发k8网页登录

分析文本数据并建模

text analytics toolbox™ 提供多种算法和可视化，可用于文本数据的预处理、分析和建模。使用该工具箱创建的模型可用于情感分析、预测性维护和主题建模等应用。

text analytics toolbox 中的工具可用于处理不同来源（例如设备日志、新闻提要、调查、操作员报告和社交媒体）的原始文本。您可以从常用文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。

借助 lsa、lda 和词嵌入等机器学习方法，您可以在高维文本数据集中查找簇并由此创建特征。您可以将使用 text analytics toolbox 创建的特征与来自其他数据源的特征相结合，以构建综合运用文本、数字和其他类型数据的机器学习模型。

开始:

text analytics toolbox 概述

文档

matlab 文本分析快速入门

下载白皮书

文本数据导入和可视化

从社交媒体、新闻提要、设备日志、报告和调查等来源提取文本数据。

提取文本数据

将文本数据从单个文件或大量文件中导入 matlab^®，包括 pdf、html、microsoft^® word^® 及 excel^® 文件。

从文件提取文本数据

解析 html 并提取文本内容

分析包含表情符号的文本数据

从 microsoft word 文档集合中提取文本。

文本可视化

使用词云和文本散点图，直观地探查文本数据集。

使用词云对文本数据进行可视化

使用文本散点图对词嵌入进行可视化

词云通过字体大小和颜色显示单词的相对频率。

语言支持

text analytics toolbox 针对英语、日语、德语和韩语提供了专用的预处理功能。大多数函数也适用于其他语言的文本。

语言支持

分析日语文本数据

检测文本语言

分析德语文本数据

导入、准备和分析日语文本。

文本数据预处理

从原始文本中提取有意义的单词。

清理文本数据

应用高级过滤函数删除无关内容，例如 url、html 标记和标点符号，并纠正拼写。

准备文本数据以进行分析

删除文本和文档中的标点符号

删除文本中的 http 和 https url

纠正文档中的拼写

“预处理文本数据”实时编辑器任务

使用“预处理文本数据”实时编辑器任务准备文本数据进行分析。

过滤停用词并将单词归一化为词根

过滤常见单词、出现频率过高或过低的单词、非常长或非常短的单词，以便优先分析那些有意义的文本数据。通过词干提取获取单词词根，或通过词形还原将其转化为原形，从而减少词汇量，更侧重于文档整体层面的意义或情感分析。

删除文档中的停用词

词干提取或词形还原

词干提取

词形还原

删除文档中的停用词，如 "a" 和 "of"。

提取语言特征

使用标记化 (tokenization) 算法，自动将原始文本拆分为单词集合。添加句子边界、词性详情和其他相关信息以提供上下文。

通过标记化将文本拆分为单词

在文档中添加词性标签

命名实体识别

在标记化文档中添加词性和句子细节。

将文本转换为数值格式

将文本数据转换为数值形式，以用于机器学习和深度学习。

单词和 n 元分词 (n-gram) 计数

计算单词频率统计数据，以数值形式表示文本数据。

使用多词短语分析文本数据

词频-逆文档频率 (tf-idf) 矩阵

识别并可视化模型中最常出现的单词。

词嵌入和编码

训练词嵌入模型，如 word2vec 连续词袋 (cbow) 模型和 skip-gram 模型。导入预训练模型，包括 fasttext 和 glove。

使用文本散点图对词嵌入进行可视化

预训练的 fasttext 词嵌入

将单词映射到嵌入向量

bag-of-words (bow)

使用文本散点图可视化通过词嵌入找出的簇。

文本数据机器学习

使用机器学习算法执行主题建模、情感分析、分类、降维和文档摘要提取。

主题建模

使用隐含狄利克雷分布 (lda) 和隐含语义分析 (lsa) 等机器学习算法，发现并可视化大型文本数据集中的底层模式、趋势和复杂关系。

使用主题模型分析文本数据

选择 lda 模型的主题数

比较 lda 求解器

识别风暴天气报告数据中的主题。

文档摘要和关键字提取

自动从一个或多个文档中提取摘要和相关关键字，并评估文档的相似度和重要性。

从文档中提取摘要

使用 textrank 从文本数据中提取关键字

使用 bm25 算法计算文档相似度

使用 textrank 算法进行文档评分

从文本中提取摘要。

情感分析

识别文本数据代表的态度和观点，将各个表述归类为正面、中立或负面。构建模型用于实时预测情感。

分析文本中的情感

训练情感分类器

生成领域专用的情感词典

识别可以预测正面和负面情感的词语。

文本数据深度学习

使用深度学习算法执行情感分析、分类、摘要和文本生成。

变换器模型

使用 bert, finbert, 和 gpt-2 等变换器模型执行文本数据迁移学习，以用于情感分析、分类和摘要等任务。

用于文本数据迁移学习的变换器模型。

文本分类

在深度学习中使用词嵌入识别文本类别，对文本描述进行分类。

使用机器学习创建简单的文本分类模型

使用深度学习进行文本数据分类

使用自定义小批量数据存储，对超出内存的文本数据进行分类

训练深度神经网络对文本数据进行分类。

文本生成

利用深度学习，基于观察到的文本生成新文本。

逐字符生成文本

使用词嵌入层生成文本

使用字符嵌入层生成文本

使用简奥斯汀的《傲慢与偏见》 和深度学习 lstm 网络生成文本。

产品资源:

文档函数技术文章用户案例系统要求发行说明视频与网上研讨会示例

获取免费试用版

30 天探索触手可及。

现在开始

准备购买？

获取报价并了解相关产品。

查看定价联系销售人员

您是学生吗？

您的学校可能已拥有 campus-wide license 并允许您直接使用 matlab、simulink 和其他附加产品。

下一步是什么？

文档

matlab 文本分析快速入门

免费速查表

matlab 文本分析快速入门

免费资源

文本机器学习：matlab 文本分析快速入门

text analytics toolbox 产品信息 -凯发k8网页登录

分析文本数据并建模

开始:

文本数据导入和可视化

提取文本数据

文本可视化

语言支持

文本数据预处理

清理文本数据

过滤停用词并将单词归一化为词根

提取语言特征

将文本转换为数值格式

单词和 n 元分词 (n-gram) 计数

词嵌入和编码

文本数据机器学习

主题建模

文档摘要和关键字提取

情感分析

文本数据深度学习

变换器模型

文本分类

文本生成

产品资源:

获取免费试用版

准备购买？

您是学生吗？

下一步是什么？

wechat