商业数据分析--新闻

姜智浩 Lv5

声明

本文代码均保存在
https://github.com/super-213/business_data_analysis
有需要的可以自行下载

查看数据

1
2
df = pd.read_excel('新闻.xlsx')
df.head()
关键词 标题 网址 来源 时间
华能信托 信托公司2019年上半年经营业绩概览 http://www.financialnews.com.cn/jrsb_m/xt/zx/2 中国金融新闻网 2019年07月23日 00:00
华能信托 首单信托型企业ABS获批 http://www.jjckb.cn/2018-10/23/c_137552198.htm 经济参考网 2018年10月23日 12:21
华能信托 华能贵诚信托孙磊:金融科技助力打造开放信托生态 https://baijiahao.baidu.com/s?id=1639276579449 同花顺财经 2019年07月17日 10:49
华能信托 华能贵诚信托孙磊:金融科技已经成为信托行业重要的基础设施 https://finance.qq.com/a/20190716/007898.htm 腾讯财经 2019年07月16日 18:53
华能信托 格力电器股权转让意向方闭门开会 华能信托赫然在列 https://finance.sina.com.cn/trust/roll/2019-05 新浪 2019年05月22日 22:53

分词

1
2
3
words = []
for i, row in df.iterrows():
words.append(' '.join(jieba.cut(row['标题'])))

TF-IDF

1
2
vect = TfidfVectorizer()
X = vect.fit_transform(words)

词袋法

1
2
3
4
# 除了TF-IDF 还可以使用词袋法
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()
X = vect.fit_transform(words)

K-means

1
2
3
4
5
6
7
8
kms = KMeans(n_clusters=10, random_state=123)
labels = kms.fit_predict(X)

df['cluster'] = labels

for i in range(10):
print(f"\n类别 {i}")
print(df[df['cluster'] == i]['标题'].head(5).to_list())

类别 0
[‘体育场地共享 群众健身受惠’, ‘江苏省体育局构建全民健身设施网络体系’, ‘乐享全民健身公益体育彩票就在你我身边’, ‘惠州将举行系列体育活动迎接全民健身日的到来’, ‘惠州将举行系列体育活动迎接全民健身日的到来’]

类别 1
[‘杨广伟:未来10年 人工智能一定会改变房地产行业’, ‘文献述评:人工智能在精神科的应用’, ‘严重提醒!骗子都用上AI技术了!你却还不知道啥是人工智能?’, ‘“芯时代、芯征程、芯机遇”人工智能与机器视觉高峰论坛如期而至’, ‘“读心术”新高地,基于血谱光学成像的情感人工智能’]

类别 2
[‘华能国际:华能资本是华能贵诚信托有限公司大股东’, ‘贵诚信托’, ‘华能贵诚信托有限公司’, ‘华能贵诚信托有限公司’, ‘华能贵诚信托有限公司’]

类别 3
[‘数字媒体的体育版权经营逻辑’, ‘关心下一代华夏国际体育训练营丨美国体育训练营’, ‘左手优酷体育右手苏宁体育 阿里体育组队围攻腾讯体育’, ‘新赛季“抢人”大战正酣 优酷体育会员悄然下架’, ‘学校体育资源开放,步子再快一点’]

类别 4
[‘全球《财富》榜再次更新,阿里巴巴腾讯被反超?京东成最大黑马!’, ‘腾讯、阿里巴巴、京东……等名字的由来,你知道哪些?’, ‘格力全品类上线京东家电 与京东展开深度合作’, ‘格力“联姻”京东 预计2年后进行业前四’, ‘博鳌快讯 | 唐学斌:京东、360看中的是彩生活的社区服务模式’]

类别 5
[‘信托公司2019年上半年经营业绩概览’, ‘2018年信托业人均创利304万元 华润、华能贵诚跌出万亿俱乐部’, ‘去年信托业人均创利304万元,华能贵诚信托跌出万亿俱乐部’, ‘华能贵诚信托换帅,孙磊出任总经理’, ‘持单家公司股票超产品净值20% 华能贵诚信托被罚20万元’]

类别 6
[‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’]

类别 7
[‘数据科学哪家强?Python和R的对决 - 博客园新闻手机版’, ‘数字化阅读空间 | 怎么用Python迅速获取网站数据?’, ‘今天破解了压缩文件的密码:使用python轻松编写破解程序’, ‘程序员如何利用 Python 解决女朋友不看天气的坏习惯?’, ‘向Excel说再见,神级编辑器统一表格与Python’]

类别 8
[‘…电视总台七夕特别节目《天下有情人》浪漫升级,引领传统文化新…’, ‘北京文化“封神”:爆款如何持续’, ‘深挖“仓颉造字”历史文化,寿光这个村新时代文明实践有高招’, ‘让夜间经济更有文化味 哪里才是真正“网红打卡地”?’, ‘嘉兴:“伯鸿城市书房”构筑风雅桐乡最美文化地标’]

类别 9
[‘首单信托型企业ABS获批’, ‘华能贵诚信托孙磊:金融科技助力打造开放信托生态’, ‘华能贵诚信托孙磊:金融科技已经成为信托行业重要的基础设施’, ‘格力电器股权转让意向方闭门开会 华能信托赫然在列’, ‘直击格力电器意向投资者见面会:参会者华能信托背后现国务院国资委…’]

DBSCAN

1
2
3
4
5
6
7
8
9
from sklearn.cluster import DBSCAN

dbs = DBSCAN(eps=0.5, min_samples=5)
dbs.fit(X)
labels = dbs.labels_
df['cluster'] = labels
for i in range(10):
print(f"\n类别 {i}")
print(df[df['cluster'] == i]['标题'].head(5).to_list())

类别 0
[‘五矿信托首任总经理辞职 接任者或为华能信托王卓’, ‘五矿信托首任总经理辞职 接任者或为华能信托王卓’, ‘五矿信托首任总经理辞职 接任者或为华能信托王卓’, ‘五矿信托首任总经理辞职 接任者或为华能信托王卓’, ‘五矿信托首任总经理辞职 接任者或为华能信托王卓’]

类别 1
[‘华夏幸福关于拟与华能信托签署《增资协议》的公告’, ‘华夏幸福关于拟与华能信托签署《增资协议》的公告’, ‘华夏幸福关于拟与华能信托签署《增资协议》的公告’, ‘华夏幸福关于拟与华能信托签署《增资协议》的公告’, ‘华夏幸福关于拟与华能信托签署《增资协议》的公告’]

类别 2
[‘普邦股份:华能信托.普邦1号集合资金信托计划信托合同’, ‘普邦股份:华能信托.普邦1号集合资金信托计划信托合同’, ‘普邦股份:华能信托.普邦1号集合资金信托计划信托合同’, ‘普邦股份:华能信托.普邦1号集合资金信托计划信托合同’, ‘普邦股份:华能信托.普邦1号集合资金信托计划信托合同’]

类别 3
[‘华能信托试水首单不良资产收益权转让已有46家信托公司与银登中心…’, ‘华能信托试水首单不良资产收益权转让已有46家信托公司与银登中心…’, ‘华能信托试水首单不良资产收益权转让已有46家信托公司与银登中心…’, ‘华能信托试水首单不良资产收益权转让已有46家信托公司与银登中心…’, ‘华能信托试水首单不良资产收益权转让已有46家信托公司与银登中心…’]

类别 4
[‘北京银行携手华能、中航信托创新慈善信托模式’, ‘北京银行携手华能、中航信托创新慈善信托模式’, ‘北京银行携手华能、中航信托创新慈善信托模式’, ‘北京银行携手华能、中航信托创新慈善信托模式’, ‘北京银行携手华能、中航信托创新慈善信托模式’]

类别 5
[‘ACCA-华能信托“财经领袖培养计划”第一期学员选拔结果公布’, ‘ACCA-华能信托“财经领袖培养计划”第一期学员选拔结果公布’, ‘ACCA-华能信托“财经领袖培养计划”第一期学员选拔结果公布’, ‘ACCA-华能信托“财经领袖培养计划”第一期学员选拔结果公布’, ‘ACCA-华能信托“财经领袖培养计划”第一期学员选拔结果公布’]

类别 6
[‘华能贵诚信托有限公司’, ‘华能贵诚信托有限公司’, ‘华能贵诚信托有限公司’, ‘华能贵诚信托有限公司’, ‘华能贵诚信托有限公司’]

类别 7
[‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’]

类别 8
[‘用益-信托日报:平安江苏中信华能位列前四!58家信托上半年净利排位!’, ‘用益-信托日报:平安江苏中信华能位列前四!58家信托上半年净利排位!’, ‘用益-信托日报:平安江苏中信华能位列前四!58家信托上半年净利排位!’, ‘用益-信托日报:平安江苏中信华能位列前四!58家信托上半年净利排位!’, ‘用益-信托日报:平安江苏中信华能位列前四!58家信托上半年净利排位!’]

类别 9
[]

层次聚类

1
2
3
4
5
6
7
8
9
10
11
12
13
from sklearn.cluster import AgglomerativeClustering

# 比如 TF-IDF 输出是稀疏矩阵 需要转 dense
X_dense = X.toarray()

agg = AgglomerativeClustering(n_clusters=10, metric='cosine', linkage='average')
labels = agg.fit_predict(X_dense)

df['cluster'] = labels

for i in range(10):
print(f"\n类别 {i}")
print(df[df['cluster'] == i]['标题'].head(5).to_list())

类别 0
[‘华能信托:信托公司参与消费金融的新机会与模式分析’, ‘文献述评:人工智能在精神科的应用’, ‘严重提醒!骗子都用上AI技术了!你却还不知道啥是人工智能?’, ‘“芯时代、芯征程、芯机遇”人工智能与机器视觉高峰论坛如期而至’, ‘华为Atlas:AI遥感的“碧空慧眼”’]

类别 1
[‘既要人工智能高效发展,还要符合伦理,该怎么做?’, ‘又一项人工智能技术被确认,自动避开行人,开车睡觉或将成为现实’, ‘欧洲联盟人工智能生态系统调查’, ‘人工智能是一种受欢迎的推动力 可以为GDP增加数百万美元’, ‘法律人工智能的十大前沿问题’]

类别 2
[‘信托公司2019年上半年经营业绩概览’, ‘助推人工智能创新资源聚集珠海’, ‘湖南大力开展“科技成果转化年”活动’, ‘看看韩雪住的豪宅,室内做了很多 “科技”设计,进门才知很实用’, ‘活动汇丨成都8月科技互联网活动知多少?’]

类别 3
[‘杨广伟:未来10年 人工智能一定会改变房地产行业’, ‘渗透!人工智能将在10年内占领房地产市场?’, ‘西媒盘点:2016年中国打响了人工智能发展的发令枪’, ‘盘点全球各国人工智能战略:中国打响发令枪’, ‘为什么全球的富豪主要集中在科技领域?’]

类别 4
[‘亚马逊的StyleSnap是一款人工智能工具’, ‘谷歌正在使用人工智能来预测风电场的输出功率’, ‘谷歌正在使用人工智能来预测风电场的输出功率’, ‘这类纪录片用“硬核影像”见证“硬核科技”’, ‘三维传感组件公司“安思疆科技”获亿元A轮融资 北京清控金信资本…’]

类别 5
[‘> 科技局’]

类别 6
[‘首单信托型企业ABS获批’, ‘华能贵诚信托孙磊:金融科技助力打造开放信托生态’, ‘华能贵诚信托孙磊:金融科技已经成为信托行业重要的基础设施’, ‘格力电器股权转让意向方闭门开会 华能信托赫然在列’, ‘直击格力电器意向投资者见面会:参会者华能信托背后现国务院国资委…’]

类别 7
[‘Python3.7知其然知其所以然-第六章 字符串’]

类别 8
[‘对话|山村女教师自制体育器材:听孩子说想当老师,我流泪了’, ‘乖乖女不适合娱乐圈?她第一个不同意!’, ‘娱乐圈里的真·糊咖混得有多惨?’, ‘去年是分手季,今年是恋情季,娱乐圈的八月都组团吗’, ‘娱乐记者大起底!传出421页明星爆料,421文档究竟是怎么回事?’]

类别 9
[‘8月起停播娱乐性较强古装剧偶像剧’, ‘广电:展播期间不得播娱乐性较强的古装剧偶像剧’, ‘教育部禁止高校及实习单位安排学生到娱乐性场所实习’]

GMM

1
2
3
4
5
6
7
8
9
from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=10, covariance_type='full')
gmm.fit(X_dense)
labels = gmm.predict(X_dense)
df['cluster'] = labels
for i in range(10):
print(f"\n类别 {i}")
print(df[df['cluster'] == i]['标题'].head(5).to_list())

类别 0
[‘杨广伟:未来10年 人工智能一定会改变房地产行业’, ‘文献述评:人工智能在精神科的应用’, ‘严重提醒!骗子都用上AI技术了!你却还不知道啥是人工智能?’, ‘“芯时代、芯征程、芯机遇”人工智能与机器视觉高峰论坛如期而至’, ‘“读心术”新高地,基于血谱光学成像的情感人工智能’]

类别 1
[‘华能贵诚信托孙磊:金融科技已经成为信托行业重要的基础设施’, ‘阿尔法蛋现身人工智能与教育大数据峰会,智能科技获点赞’, ‘装病骗政府645万,科技远不是你想的那样’, ‘昔日网游第一股迅游科技实控人被动减持,商誉压顶’, ‘ChinaJoy 2019丨ITheat热点科技展台人气火爆 这些精彩看点不容错过’]

类别 2
[‘来腾讯音乐娱乐蔡徐坤全新EP派对探寻不一《YOUNG》的青春答案’, ‘TGC腾讯数字文创:腾讯的文化抱负’, ‘腾讯云进入日本市场 今年目标是使国际营收增长至多5倍’, ‘湖南省政府与腾讯公司签署深化合作框架协议’, ‘腾讯(00700)需要喜茶’]

类别 3
[‘华能贵诚信托孙磊:金融科技助力打造开放信托生态’, ‘华能贵诚信托换帅,孙磊出任总经理’, ‘华能国际:华能资本是华能贵诚信托有限公司大股东’, ‘2018年上半年62家信托公司净利润排名 平安中信华能位列前三’, ‘速睹62家信托上半年业绩!平安中信华能位列前三’]

类别 4
[‘信托公司2019年上半年经营业绩概览’, ‘首单信托型企业ABS获批’, ‘格力电器股权转让意向方闭门开会 华能信托赫然在列’, ‘直击格力电器意向投资者见面会:参会者华能信托背后现国务院国资委…’, ‘格力电器股权转让意向投资者见面会召开 自称华能信托的人士到场’]

类别 5
[‘数字媒体的体育版权经营逻辑’, ‘关心下一代华夏国际体育训练营丨美国体育训练营’, ‘左手优酷体育右手苏宁体育 阿里体育组队围攻腾讯体育’, ‘新赛季“抢人”大战正酣 优酷体育会员悄然下架’, ‘学校体育资源开放,步子再快一点’]

类别 6
[‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’, ‘国金ABS云 · 早报丨招行与华能信托将合作发行99亿元ABS’]

类别 7
[‘阿里巴巴的食堂长啥样?上海网红美食杭州首站开在这’, ‘阿里巴巴朋新宇:为何中台能帮企业突破增长瓶颈?’, ‘阿里巴巴搭起数字鹊桥:4000万人种下情侣树 600万人绑定淘宝亲情号’, ‘阿里巴巴大数据折射中国式“我爱你”:54%码商夫妻店由老婆管帐’, ‘阿里巴巴合伙人之一 跟了马云19年后 分了40亿给她’]

类别 8
[‘…电视总台七夕特别节目《天下有情人》浪漫升级,引领传统文化新…’, ‘北京文化“封神”:爆款如何持续’, ‘深挖“仓颉造字”历史文化,寿光这个村新时代文明实践有高招’, ‘让夜间经济更有文化味 哪里才是真正“网红打卡地”?’, ‘嘉兴:“伯鸿城市书房”构筑风雅桐乡最美文化地标’]

类别 9
[‘…或200亿收购中江信托 50亿爆雷“烫手山芋”如何处置?;华能信托…’, ‘…或200亿收购中江信托 50亿爆雷“烫手山芋”如何处置?;华能信托…’, ‘华能信托换帅总经理孙磊任职资格获批’, ‘华能信托、东莞信托昨日双双增资 今年信托公司注册资本增加总额逾…’, ‘肖钢密集调研资产证券化业务 走访华能信托和中信信托’]

HDBSCAN

1
2
3
4
5
6
7
8
9
from sklearn.cluster import HDBSCAN

hdbscan = HDBSCAN(min_cluster_size=5, min_samples=3)
hdbscan.fit(X_dense)
labels = hdbscan.labels_
df['cluster'] = labels
for i in range(10):
print(f"\n类别 {i}")
print(df[df['cluster'] == i]['标题'].head(5).to_list())

类别 0
[‘灵超尤长靖节目互动被无耻造谣?坤音娱乐老板惹众怒,竟贷款道歉’, ‘尤长靖无辜躺枪?秦周懿言语中伤尤长靖,香蕉娱乐要求正式道歉’, ‘坤音娱乐频出问题,自卜凡解约风波后,老板也因骂尤长靖而惹争议’, ‘尤长靖无辜躺枪?秦周懿言语中伤尤长靖,香蕉娱乐要求正式道歉’, ‘坤音娱乐频出问题,自卜凡解约风波后,老板也因骂尤长靖而惹争议’]

类别 1
[‘乐队鼓手要失业?索尼用人工智能自动为音乐打节拍’, ‘来腾讯音乐娱乐蔡徐坤全新EP派对探寻不一《YOUNG》的青春答案’, ‘中国原声民歌节展现传统音乐非遗’, ‘来腾讯音乐娱乐蔡徐坤全新EP派对探寻不一《YOUNG》的青春答案’, ‘腾讯音乐“等风来”’]

类别 2
[‘广州:中考体育跳绳满分标准逐步提高’, ‘体育分值提至70分 “三大球”为选考项目’, ‘体育分值提至70分 “三大球”为选考项目’, ‘广州市中考体育部分加入足球、篮球、排球为选考项目’, ‘「最新」沪学校体育艺术项目将形成小初高“一条龙”!这里有你关心…’]

类别 3
[‘学好少儿编程,未来轻松掌控人工智能时代’, ‘长春人工智能编程’, ‘长春人工智能编程’, ‘编程小少年有个人工智能大梦想’, ‘编程小少年有个人工智能大梦想’]

类别 4
[‘让夜间经济更有文化味 哪里才是真正“网红打卡地”?’, ‘文化增活力 旅游添魅力 文旅融合讓濟南旅游悄然發生著變化’, ‘讲好中国故事 展示文化魅力’, ‘视频|临清首届汉服文化旅游周开幕 千年魅力文化尽在山水间’, ‘「财经纵横」戴斌:旅游研究与文化建设,初心在哪里…’]

类别 5
[‘一波三折的腾讯手游《拉结尔》最终定档3月底正式上线!’, ‘腾讯独家代理手游《权力的游戏》首测,SLG游戏或打破手游布局!’, ‘腾讯独家代理手游《权力的游戏》首测,SLG游戏或打破手游布局!’, ‘腾讯完美强强联合《完美世界》手游,信仰测试定档1月16日’, ‘那些为腾讯赚了上千亿的游戏人,都去哪了?’]

类别 6
[‘中国又掌握一项核心科技:火箭残骸指哪儿落哪儿’, ‘Python虚拟环境详解’, ‘腾讯拿它也没办法,详解为什么《剑网3:指尖江湖》不氪金’, ‘腾讯等它内测等了35000多个小时,剑网3指尖江湖把时间花哪儿了?’, ‘腾讯等它内测等了35000多个小时,剑网3指尖江湖把时间花哪儿了?’]

类别 7
[‘美股全线高开,标普500指数涨0.7%,中概股反弹,阿里巴巴涨逾3%’, ‘FAANG全线下跌!美股小幅低开,阿里巴巴跌逾2%’, ‘美股小幅低开,阿里巴巴跌逾2%’, ‘阿里巴巴集团:股票分割将于7月30日生效!’, ‘阿里巴巴宣布股票分割,是为回港上市做准备吗?’]

类别 8
[‘Python的武器库11:os模块’, ‘Python的武器库10:Pillow模块’, ‘Python的武器库09:psutil模块’, ‘提供给开发者 10 款最好的 Python IDE’, ‘提供给开发者 10 款最好的 Python IDE’]

类别 9
[‘体育惠民,让全城“动起来”’, ‘为什么Python在中国突然就火了起来了呢?’, ‘为什么Python在中国突然就火了起来了呢?’, ‘为什么Python在中国突然就火了起来了呢?’, ‘为什么我觉得Python烂的要死?原因有八’]

余弦相似度

1
2
3
4
5
6
7
8
9
10
11
12
13
from sklearn.metrics.pairwise import cosine_similarity

# 计算余弦相似度
cos_sim = cosine_similarity(X)

# 打印前 5 条新闻的相似度矩阵
print("前5条新闻的余弦相似度:")
print(pd.DataFrame(cos_sim[:5, :5]))

similar_idx = cos_sim[0].argsort()[::-1][1:6] # 降序,跳过自己
print("\n与第1条新闻最相似的5条:")
for idx in similar_idx:
print(f"相似度={cos_sim[0, idx]:.3f} -> {df.loc[idx, '标题']}")

前5条新闻的余弦相似度:
0 1 2 3 4
0 1.0 0.000000 0.000000 0.000000 0.000000
1 0.0 1.000000 0.063591 0.055208 0.055039
2 0.0 0.063591 1.000000 0.464255 0.084141
3 0.0 0.055208 0.464255 1.000000 0.073049
4 0.0 0.055039 0.084141 0.073049 1.000000

与第1条新闻最相似的5条:
相似度=0.292 -> 速睹62家信托上半年业绩!平安中信华能位列前三
相似度=0.215 -> 2018年上半年62家信托公司净利润排名 平安中信华能位列前三
相似度=0.210 -> 数字媒体的体育版权经营逻辑
相似度=0.138 -> 5.94亿重组遭问询 汇金科技否认标的公司卖资产粉饰业绩
相似度=0.121 -> 华能信托:信托公司参与消费金融的新机会与模式分析

聚类模型横向对比

模型 聚类数量 噪声点 聚类特征 / 评论 示例类标题特点
K-means 10 均匀分配簇,容易出现重复或相似内容被拆开 类别 0: 全民健身类;类别 1: AI技术类;类别 2: 华能信托多条重复标题
DBSCAN 多个簇,但部分簇为空或重复 存在噪声 聚类基于密度,相似度高的新闻容易形成簇,但参数敏感;簇内容重复严重 类别 0–8 多条重复“华能信托”新闻;类别 9 为空
层次聚类 (Agglomerative, cosine) 10 用余弦距离更贴合 TF-IDF,部分小类只含极少标题 类别 5 只有“> 科技局”;类别 6 聚合了信托新闻
GMM (GaussianMixture) 10 假设数据服从高斯分布,簇比较均匀,但可能出现语义混杂 类别 0: AI新闻类;类别 1: 科技/信托混合;类别 4: 信托新闻类
HDBSCAN (cosine) 自动 存在噪声 (-1) 能发现任意形状簇,噪声点分离,主题聚合较好 类别 0: 娱乐八卦;类别 1: 音乐;类别 2: 体育新闻;噪声点主要是孤立新闻

横向对比总结

  1. K-means:簇数量固定,容易出现重复或相似标题分到不同簇;对离散和稀疏向量敏感。
  2. DBSCAN:可以发现任意形状簇,但对 eps 参数非常敏感;可能出现重复簇或空簇。
  3. 层次聚类:用余弦距离效果比欧氏更好,但对小类敏感;能得到层次结构。
  4. GMM:适合高斯分布数据,簇之间概率分布清晰,但主题可能混合。
  5. HDBSCAN:最适合稀疏高维文本,自动确定簇数量,能标记噪声点,主题聚合性最好
  • Title: 商业数据分析--新闻
  • Author: 姜智浩
  • Created at : 2025-09-30 11:45:14
  • Updated at : 2025-09-30 10:29:58
  • Link: https://super-213.github.io/zhihaojiang.github.io/2025/09/30/20250930商业数据分析--新闻/
  • License: This work is licensed under CC BY-NC-SA 4.0.