快捷导航
        从微博上大蕉伊人之在线3免费到十几万条博文,现在需要做文本分类了,目标是划分出多个主题,请问集搜客的分词和分类检索平台可以做到吗?
        举报 使用道具
        | 回复

        共 3 个关于本帖的回复 最后回复于 2020-5-20 16:40

        沙发
        ym 版主 发表于 2020-5-20 16:28:18 | 只看该作者
        本帖最后由 ym 于 2020-5-20 16:30 编辑

        集搜客的分类功能,主要目的是按标签分类,通过把文本与特征词做匹配,匹配上的特征词就作为标签记下来,再根据标签词所对应的类别,把文本划分到对应的类别里。文本可以对应到多个标签词和多个类别,不是根据最大概率把文本划分到单个类别里。

        比如,特征词是“快递”、“效率”,文本是“京东快递第二天就送到了,效率真快”,该文本同时匹配上这两个特征词,那么该文本的标签就会有“快递”“效率”,如果快递是属于物流类,效率属于服务类,那么该文本就会被划分到物流、服务两个类里。对于中长文本的多主题或多话题打标,可以实现很好的标签化效果。

        标签分类的效果,很大程度上取决于特征词是否精准,特征词通常需要自己整理和维护更新,集搜客分为中心词、标签词、排除词三类匹配关系,利用好这些匹配关系,可以实现更好的标签化效果。
        • 中心词:必须匹配上的词语,可以不填,也可以是一个或多个中心词,多个中心词的话,要每一个词都匹配上才会对文本打上标签;
        • 标签词:可以不填,也可以是一个或多个词语,只要任意匹配上一个词语,就会对文本打上标签;
        • 排除词:可以不填,也可以是一个或多个词语,只要任意匹配上一个词语,就会过滤掉该文本;
        举报 使用道具
        板凳
        努力成为A 初级会员 发表于 2020-5-20 16:33:05 | 只看该作者
        跟我需要的分类有些不同,我想要把一条博文分到唯一的类别里,有没有方法?
        举报 使用道具
        地板
        ym 版主 发表于 2020-5-20 16:40:35 | 只看该作者
        努力成为A 发表于 2020-5-20 16:33
        跟我需要的分类有些不同,我想要把一条博文分到唯一的类别里,有没有方法? ...

        可以用机器学习或深度学习的分类模型来实现,不过有些难度,入门推荐看看下面这篇文章,对文本分类的流程和关键步骤讲解得比较清楚
        《NLP入门——从0到实现文本分类》

        举报 使用道具
        您需要登录后才可以回帖 登录 | 立即注册

        精彩推荐

        • 如何使用集搜客分词平台做社会网络图分析?
        • 关于食品安全的美国联邦法规文件的网络爬虫
        • 怎样更有效率地搜索互联网和整理知识—使用
        • 阿里巴巴外包询价网站用集搜客网络爬虫能采
        • 在限定论域的时候,为什么“任何一个”表示

        热门用户

        GMT+8, 2020-5-30 21:25