text analytics toolbox™ 提供多种算法和可视化,可用于文本数据的预处理、分析和建模。使用该工具箱创建的模型可用于情感分析、预测性维护和主题建模等应用。
text analytics toolbox 中的工具可用于处理不同来源(例如设备日志、新闻提要、调查、操作员报告和社交媒体)的原始文本。您可以从常用文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。
借助 lsa、lda 和词嵌入等机器学习方法,您可以在高维文本数据集中查找簇并由此创建特征。您可以将使用 text analytics toolbox 创建的特征与来自其他数据源的特征相结合,以构建综合运用文本、数字和其他类型数据的机器学习模型。
开始:
文本数据导入和可视化
从社交媒体、新闻提要、设备日志、报告和调查等来源提取文本数据。
提取文本数据
将文本数据从单个文件或大量文件中导入 matlab®,包括 pdf、html、microsoft® word® 及 excel® 文件。
文本数据预处理
从原始文本中提取有意义的单词。
清理文本数据
应用高级过滤函数删除无关内容,例如 url、html 标记和标点符号,并纠正拼写。
提取语言特征
使用标记化 (tokenization) 算法,自动将原始文本拆分为单词集合。添加句子边界、词性详情和其他相关信息以提供上下文。
将文本转换为数值格式
将文本数据转换为数值形式,以用于机器学习和深度学习。
词嵌入和编码
训练词嵌入模型,如 word2vec 连续词袋 (cbow) 模型和 skip-gram 模型。导入预训练模型,包括 fasttext 和 glove。
文本数据机器学习
使用机器学习算法执行主题建模、情感分析、分类、降维和文档摘要提取。
主题建模
使用隐含狄利克雷分布 (lda) 和隐含语义分析 (lsa) 等机器学习算法,发现并可视化大型文本数据集中的底层模式、趋势和复杂关系。
文档摘要和关键字提取
自动从一个或多个文档中提取摘要和相关关键字,并评估文档的相似度和重要性。
变换器模型
使用 bert, finbert, 和 gpt-2 等变换器模型执行文本数据迁移学习,以用于情感分析、分类和摘要等任务。