Карта падобных кластараў у двух розных наборах кластара

У мяне ёсць два набору кластараў (Cluster_set_1 і Cluster_set_2), атрыманыя шляхам аналізу два розных набораў навіны папяровых вырабаў.

Кластар ўключае ў сябе слова/фразы словы, як паказана ў прыведзеных ніжэй прыкладах.

C1 in Cluster_set_1: Energy, Fuel, Oil, Mining
C2 in Cluster_set_1: school, education, students, schools, million, read
...
...
etc.

C1 in Cluster_set_2: Gas, oil, pipeline
C2 in Cluster_set_2: program, business, management,information, reports
...
...
etc.

Цяпер я хачу, каб знайсці кластары ў двух наборах кластара, якія падобныя/звязаных з разглядам слоў/словазлучэнняў у кластары, як паказана ў прыкладзе ніжэй.

Example: 
Cluster of 'Energy, Fuel, Oil, Mining' in Cluster_set_1 is mostly similar/related to 
Cluster of 'Gas, oil, pipeline' in Cluster_set_2

Reason: Because they both includes word/word phrases related to Energy

Бо я маю справу з двума асобнымі наборамі кластараў, што было бы прымальным падыход, які можна выкарыстоўваць для падлучэння кластараў у двух розных наборах?

3
дададзена аўтар Stephen Rauch, крыніца
Не, я зацікаўлены ў веданні без тэмы LDA
дададзена аўтар Volka, крыніца

1 адказы

Я хацеў бы даследаваць мяккую кластарызацыю падыход з выкарыстаннем HDBSCAN кластарызацыя . Некаторыя чытання на тэкставай кластарызацыі тут , якая ўключае ў сябе абмеркаванне кластарызацыя з DBSCAN, адсутнасць HDBSCAN ў іерархічны папярэднік

3
дададзена