import numpy as np
import pandas as pd
import MeCab
import re
import networkx as nx
import matplotlib.pyplot as plt
plt.rc('font',family='AppleGothic')
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('retina')
df = pd.read_excel('data/๋น๊ต.xlsx')
df.shape
(2409, 16)
df.head(1)
| site | hotel | score | review | date | star | length | review_spell_check | helpful | attitude | ์์น | ์์ค | ์ธํ ๋ฆฌ์ด | ์ฒญ๊ฒฐ | ์น์ | ๋ฐฉ์ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | ์๊ณ ๋ค | ๋์ธํธ๋ฆฌ ํ๋ฆฌ๋ฏธ์ด ๋ช ๋2 | 10.0 | ๋ทฐ ์ข๊ณ ์์น ์ข๊ณ ๊นจ๋ํ๊ณ ์ต๊ณ ์ ๋๋ค | NaN | NaN | 22 | ๋ทฐ ์ข๊ณ ์์น ์ข๊ณ ๊นจ๋ํ๊ณ ์ต๊ณ ์ ๋๋ค | 1 | 2 | 1 | 0 | 0 | 0 | 0 | 0 |
stop_words = ['๋','์ฌ๊ธฐ','๋ฌด์','๊ทธ๊ฒ','๊ฐ','๊ธ','๊ฐ๋ณธ','์ ','์ ','์ ํฌ','๊ทธ๊ฑฐ','๋ธ','์ฐ๋ฆฌ','๊ทธ','ํํฐ','์','์','์ด๋','๋ญ','์๊ธฐ','๋์','์ด๊ณณ','์','์๋ฐฉ','๋','๊ทธ๊ณณ','๊ฑฐ๊ธฐ','๋ํฐ','๋
ธ','์ด์ชฝ','์ ๊ธฐ','ํธํ
','๊ณณ','์ ','์','์','์๋ถ','์ค๋ก','๋','๋','ํ','๊ธฐ','๊ทธ์ ','๋ฅ','๋ฉ','๋','์ข','์','์ด','ํ','๋','๋ง','๊ฐ','๋ณด','์','์ค','์ธต','๋','๋ฌต','์ฌ','๋จน','ํฌ','๋ค','๊ทธ๋ ','์๋','1','2','ํธ','์ผ','๊ฐ์ฌ']
len(stop_words)
70
def getNVM_lemma(text):
tokenizer = MeCab.Tagger()
parsed = tokenizer.parse(text)
#print(parsed)
word_tag = [w for w in parsed.split("\n")]
pos = []
tags = ["NNG", "NNP","VV","VA","VCP",'VCN','XR']
for word_ in word_tag[:-2]:
word = word_.split('\t') #['์๋ฒ์ง', 'NNG,*,F,์๋ฒ์ง,*,*,*,*']
tag = word[1].split(",") #['EC', '*', 'F', '๋๋ค', '*', '*', '*', '*']
if('+' in tag[0]): #๋จ์ด๊ฐ ์ฌ๋ฌ ํํ์๋ก ๊ตฌ์ฑ๋ ๊ฒฝ์ฐ
if ('VV' in tag[0] or 'VA' in tag[0] or 'VX' in tag[0]):
t = tag[-1].split('/')[0]
if t not in stop_words:
pos.append(t)
elif ((tag[0] in tags) and (word[0] not in stop_words)):
pos.append(word[0])
return pos
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
tf = CountVectorizer(tokenizer=getNVM_lemma, preprocessor=None, lowercase=False)
tdm = tf.fit_transform(df['review_spell_check'])
words = tf.get_feature_names()
words
['๊ฐ๊ฒ', '๊ฐ๊ฒฉ', '๊ฐ๊ฒฉ๋', '๊ฐ๊ตฌ', '๊ฐ๊น์', '๊ฐ๊น์ด', '๊ฐ๊น', '๊ฐ๋ฅ', '๊ฐ๋', '๊ฐ๋', '๊ฐ๋', '๊ฐ๋', '๊ฐ๋', '๊ฐ๋ฆฌ', '๊ฐ๋ฐฉ', '๊ฐ๋ณ', '๊ฐ์ฑ', '๊ฐ์ต๊ธฐ', '๊ฐ์', '๊ฐ์', '๊ฐ์ด', '๊ฐ์ด๋ฐ', '๊ฐ์', '๊ฐ์ ธ๊ฐ', '๊ฐ์ ธ๋ค์ฃผ', '๊ฐ์ ธ์ค', '๊ฐ์กฑ', '๊ฐ์กฑํธํ ', '๊ฐ์กด', '๊ฐ์ฃฝ', '๊ฐ์ง', '๊ฐ์ง์', '๊ฐ์น', '๊ฐํ', '๊ฐ์', '๊ฐ์ข ', '๊ฐ', '๊ฐ๊ฒฉ', '๊ฐ๊ฒฐ', '๊ฐ๋จ', '๊ฐ์', '๊ฐ์ด์นจ๋', '๊ฐ์ ', '๊ฐํ', '๊ฐ', '๊ฐ๊ณ ', '๊ฐ๊ตฌ', '๊ฐ์์ฃผ', '๊ฐ', '๊ฐ๊ธฐ', '๊ฐ๋ด', '๊ฐ๋', '๊ฐ์', '๊ฐ์ง', '๊ฐํ', '๊ฐ', '๊ฐ๊ฐ', '๊ฐ์ธ', '๊ฐ', '๊ฐ', '๊ฐ๋จ', '๊ฐ๋ ฅ', '๊ฐ๋ณ์ญ', '๊ฐ๋ถ', '๊ฐ์ ', '๊ฐ์ถ', '๊ฐ', '๊ฐ์ถ', '๊ฐ', '๊ฐ๋ฐฉ', '๊ฐ๋ณ', '๊ฐ๋ณ๋๋ฐฉ', '๊ฐ์ ', '๊ฐ์ฑ', '๊ฐ์', '๊ฐ์ธ', '๊ฐ์ธ', '๊ฐ์ฅ', '๊ฐ', '๊ฐ์', '๊ฐ์ค', '๊ฑฐ', '๊ฑฐ๋ฆฌ', '๊ฑฐ๋ฏธ', '๊ฑฐ์ฌ๋ฆฌ', '๊ฑฐ์ธ', '๊ฑฐ์ฃผ', '๊ฑฐ์ง๋ง', '๊ฑฐ์น ', '๊ฑฑ์ ', '๊ฑด', '๊ฑด๋', '๊ฑด๋ํธ', '๊ฑด๋ฌผ', '๊ฑด์กฐ', '๊ฑท', '๊ฑธ', '๊ฑธ๋ฆฌ', '๊ฑธ๋ง', '๊ฑธ์ด๊ฐ', '๊ฒ', '๊ฒ์ฌ', '๊ฒ์', '๊ฒ๋', '๊ฒ๋ชจ์ต', '๊ฒ๋ณด๊ธฐ', '๊ฒ', '๊ฒ์คํธ', '๊ฒจ์ธ', '๊ฒจ์ธ๋ ', '๊ฒฉ', '๊ฒฉํ', '๊ฒช', '๊ฒฐ๊ตญ', '๊ฒฐ์ ', '๊ฒฐ์ ', '๊ฒฐํผ์', '๊ฒฝ', '๊ฒฝ๋ณต๊ถ', '๊ฒฝ์ฐ', '๊ฒฝ์น', '๊ฒฝํฅ', '๊ฒฝํ', '๊ฒฝํธ์', '๊ณ๋จ', '๊ณ์', '๊ณ์', '๊ณ์ด', '๊ณํ', '๊ณ ', '๊ณ ๊ฐ', '๊ณ ๊ธ', '๊ณ ๋', '๊ณ ๋ ค', '๊ณ ๋ฅด', '๊ณ ๋ฆฌ', '๊ณ ๋ง', '๊ณ ๋ฌด', '๊ณ ๋ฏผ', '๊ณ ์', '๊ณ ์', '๊ณ ์', '๊ณ ์ฅ', '๊ณ ์ ', '๊ณ ์ง', '๊ณ ์ถ๋์ด', '๊ณ ์ธต', '๊ณค๋', '๊ณจ๋ชฉ', '๊ณจ๋ชฉ๊ธธ', '๊ณจ๋ฑ ์ด', '๊ณฐ๋์ด', '๊ณฐ์ฅ์ด', '๊ณฐํก์ด', '๊ณฑ', '๊ณณ๊ณณ', '๊ณต', '๊ณต๊ฐ', '๊ณต๊ธฐ', '๊ณต๋์ญ', '๊ณต์ฌ', '๊ณต์ฌ์ฅ', '๊ณต์ฌํ', '๊ณต์ ', '๊ณต์กฐ', '๊ณต์ง', '๊ณต์ง', '๊ณตํ๋', '๊ณตํฌ์ฆ', '๊ณตํญ', '๊ณผ', '๊ณผ์ผ', '๊ณผ์', '๊ณผ์ ', '๊ณผ์ ', '๊ณฝ', '๊ด', '๊ด๊ณ์', '๊ด๊ด', '๊ด๊ด๊ฐ', '๊ด๊ด์ง', '๊ด๊ด์ฐจ', '๊ด๋ จ', '๊ด๋ฆฌ', '๊ด์', '๊ด๋๋ฃจ์ญ', '๊ด์ฅ', '๊ด์ฅ์์ฅ', '๊ดํ๋ฌธ', '๊ดํ๋ฌธ์ญ', '๊ดํฌ', '๊ด', '๊ด์ฐฎ', '๊ต์ฅ', '๊ต๋ณด๋ฌธ๊ณ ', '๊ต์ก', '๊ต์', '๊ต์ฒด', '๊ต์ด', '๊ตํต', '๊ตํตํธ', '๊ตํ', '๊ตฌ๊ฒฝ', '๊ตฌ๊ฒฝ๊ฑฐ๋ฆฌ', '๊ตฌ๋์ฌ', '๊ตฌ๋ฃจ', '๊ตฌ๋ฆฌ', '๊ตฌ๋ฆฐ๋ด', '๊ตฌ๋งค', '๊ตฌ๋ฉ', '๊ตฌ๋ถ', '๊ตฌ๋น', '๊ตฌ์', '๊ตฌ์๊ตฌ์', '๊ตฌ์ฑ', '๊ตฌ์', '๊ตฌ์ ', '๊ตฌ์ฉ', '๊ตฌ์ฐ', '๊ตฌ์กฐ', '๊ตฌ์ฐจ', '๊ตฌ์ฒญ', '๊ตฌํ', '๊ตฌํ', '๊ตญ๋ด', '๊ตญ๋ฐฅ', '๊ตฐ๋๋๊ธฐ', '๊ตณ', '๊ตด', '๊ตฟ', '๊ถํ', '๊ถ', '๊ท์ ', '๊ท์ฐฎ', '๊ท', '๊ท๋ชจ', '๊ทธ๋์', '๊ทธ๋', '๊ทธ๋๋', '๊ทธ๋ฌ', '๊ทธ๋ญ', '๊ทธ๋ง๋', '๊ทผ๋', '๊ทผ๋ฌด', '๊ทผ๋ฐฉ', '๊ทผ๋ณธ', '๊ทผ์ ', '๊ทผ์ฒ', '๊ธ', '๊ธํ', '๊ธ', '๊ธ์ ', '๊ธ์ก', '๊ธ', '๊ธํ', '๊ธฐ๊ฐ', '๊ธฐ๊ณ', '๊ธฐ๊ตฌ', '๊ธฐ๋ ', '๊ธฐ๋ ์ผ', '๊ธฐ๋ค๋ฆฌ', '๊ธฐ๋', '๊ธฐ๋์น', '๊ธฐ๋ฆ', '๊ธฐ๋ฆ๋', '๊ธฐ๋ง', '๊ธฐ๋ณธ', '๊ธฐ๋ณธ๊ธฐ', '๊ธฐ๋ถ', '๊ธฐ์ฌ', '๊ธฐ์', '๊ธฐ์ต', '๊ธฐ์ต๋', '๊ธฐ์ ', '๊ธฐ์ฌ', '๊ธฐ์กด', '๊ธฐ์ค', '๊ธฐ์นจ', '๊ธฐํ', '๊ธฐํ์', '๊ธฐํธ', '๊ธฐํ', '๊ธธ', '๊น๋ฐฅ', '๊น', '๊น', '๊น์', '๊น', '๊น๋งฃ', '๊น๋จน', '๊น๋', '๊น๋นกํ', '๊นจ', '๊นจ๋', '๊นจ์ฐ', '๊นจ์ง', '๊บผ๋ด', '๊บผ์ฃผ', '๊บผ์ง', '๊บพ์ด์ง', '๊ป', '๊ผญ', '๊ผญ๋๊ธฐ', '๊ผญ์ง', '๊ผผ๊ผผ', '๊ผฝ', '๊ฝ', '๊พธ', '๊พธ๋ฏธ', '๊ฟ', '๊ฟ๋ฆฌ', '๊ฟ์ ', '๊ฟ', '๋', '๋์ ', '๋', '๋๊ธฐ', '๋', '๋', '๋', '๋๋', '๋๋งบ', '๋ผ', '๋ผ์ด๋ค', '๋๊ฐ', '๋๋', '๋๋ค์ด', '๋๋ผ', '๋๋จธ์ง', '๋๋ฌด', '๋๋ฌด๋ผ', '๋๋ฐฉ', '๋์', '๋์์ง', '๋์ค', '๋์ฉ', '๋์ดํธ', '๋์ธ', '๋์ค', '๋์ด', '๋ํ', '๋๋ฆฌ', '๋๋ฐฉ', '๋๋ฐฉ๊ธฐ', '๋์ผ์ค', '๋', '๋ ', '๋ ๋ฆฌ', '๋ ์จ', '๋ก', '๋จ', '๋จ๊ธฐ', '๋จ๋ ', '๋จ๋ค๋ฅด', '๋จ๋๋ฌธ', '๋จ๋งค', '๋จ์ฐ', '๋จ์ฑ', '๋จ์', '๋จํธ', '๋ฉ๋', '๋ซ', '๋ญ๋ง', '๋ฎ', '๋ณ', '๋ด', '๋ด๊ณ ', '๋ด๊ตญ์ธ', '๋ด๋', '๋ด๋ค', '๋ด๋ ค๊ฐ', '๋ด๋ ค์', '๋ด๋ ค์', '๋ด๋ ค์ค', '๋ด๋ฆฌ', '๋ด๋ฐ', '๋ด๋ถ', '๋ด์ญ', '๋ด์ธ', '๋ด์ฉ', '๋ด์ฉ๋ฌผ', '๋', '๋์', '๋์๋', '๋๋๋ฐฉ', '๋๋', '๋๋์ํ', '๋๋ฉด', '๋๋ฐฉ', '๋์ฅ๊ณ ', '๋๋', '๋์ฐ', '๋', '๋', '๋๊ธฐ', '๋์ด์', '๋์ด์ค', '๋ฃ', '๋ค์', '๋ทํ๋ฆญ์ค', '๋ ', '๋ ธ๋', '๋ ธ๋ณด', '๋ ธํธ๋ถ', '๋ ธํฌ', '๋ ธํ', '๋ น์ฌ', '๋๋ผ', '๋๋', '๋๋', '๋', '๋์ด', '๋', '๋๋ค', '๋๋ฅด', '๋๋ฆฌ', '๋ ๋ ', '๋', '๋', '๋', '๋๋ผ', '๋๋', '๋๋ฆฌ', '๋', '๋๋ฆฌ', '๋ฅ', '๋ฅ๋', '๋ฆ', '๋ฆ์ ', '๋์ค', '๋', '๋ค๊ณผ', '๋ค๋ ๊ฐ', '๋ค๋ ์ค', '๋ค๋', '๋ค๋ฃจ', '๋ค๋ฅด', '๋ค๋ฆฌ๋ฏธ', '๋ค๋ฆผ์ง', '๋ค๋ฉด', '๋ค๋ฐฉ', '๋ค๋ถ', '๋ค์', '๋ค์', '๋ค์ด', '๋ค์', '๋ค์น', '๋คํธ', '๋ฅ', '๋ฅํฐ', '๋ฆ', '๋ฆ์ด', '๋จ๊ณ', '๋จ๊ณจ', '๋จ๋ด', '๋จ์', '๋จ์', '๋จ์ ', '๋จ์ฒด', '๋ซ', '๋ซํ', '๋ฌ', '๋ฌ๋ผ์ง', '๋ณ', '๋ด', '๋ด๋ ', '๋ด๋น', '๋ด๋ฐฐ', '๋ด๋ฐฑ', '๋ต๋ต', '๋ต๋ณ', '๋น', '๋น์ฐ', '๋น์ผ', '๋นํฉ', '๋๊ด', '๋๊ธฐ', '๋๊ธฐ์ธต', '๋๋จ', '๋๋ง', '๋๋ฐ', '๋๋ถ๋ถ', '๋๋น', '๋์ฌ๊ด', '๋์', '๋์ ', '๋์ฌ', '๋์', '๋์ ', '๋์ ', '๋์ค๊ตํต', '๋์ฐฝ', '๋์ฑ ', '๋์ฒ', '๋์ฒด', '๋์ถฉ', '๋ํต๋ น', '๋ํ', '๋ํ', '๋ํ', '๋ํจ', '๋ํ', '๋ํ', '๋๋ฝ', '๋๋ถ', '๋๋ธ', '๋๋ธ๋ฒ ๋', '๋์', '๋', '๋๋ชฉ', '๋๋ถ', '๋์๊ถ', '๋์ง', '๋ค', '๋ฅ', '๋ฉ์ด๋ฆฌ', '๋ฎ์น', '๋ฐ๊ธฐ', '๋ฐ๋ฆฌ', '๋ฐ์คํฌ', '๋ฐ์ฐ', '๋ฐ์ดํธ', '๋๋ก', '๋๋ณด', '๋์', '๋์๋ฝ', '๋์ฌ', '๋์ฌ์ง', '๋์ด', '๋์ฐฉ', '๋', '๋', '๋', '๋๋ฆฌ', '๋์๊ฐ', '๋์๋ค๋', '๋์ด', '๋์์น', '๋', '๋๋จ์', '๋๋ค', '๋๋๋ฌธ', '๋๋ฐ', '๋์', '๋์๋จ๋ถ', '๋์ ', '๋์', '๋์ผ', '๋ํธ', '๋ํ', '๋ํฅ', '๋', '๋๊ธฐ', '๋๊ป', '๋๋๋ฆฌ', '๋๋ง', '๋์ฐ', '๋๋ฌ๋ณด', '๋ค', '๋ค๋', '๋ค์ํค', '๋ค์ง', '๋ค์ง', '๋', '๋', '๋๋ผ์ด', '๋๋ฃจ', '๋๋ฆฌ', '๋ฃ', '๋ค๋ฅด', '๋ค๋ฆฌ', '๋ค์ด๊ฐ', '๋ค์ด์ค', '๋ค์ด', '๋ฑ', '๋ฑ๊ธ', '๋', '๋๋ญ์ค', '๋์์ธ', '๋์ ํธ', '๋ํ ์ผ', '๋ํ', '๋', '๋๋ฆฌ๋ฒ๋ฆฌ', '๋ฅ', '๋ฐ', '๋ฐ๋ฏ', '๋ฐ๋ป', '๋ฐ๋ผ์ค', '๋ฐ๋ฅด', '๋ฑ๋ฑ', '๋ฑ์ง', '๋ธ', '๋ธ๊ธฐ', '๋ธ์์ด', '๋', '๋๋ ค์ก', '๋๋ฆฌ', '๋์ฐ', '๋ ', '๋ ๋', '๋ ๋ค๋', '๋ ๋', '๋ ๋ค', '๋ ์ค๋ฅด', '๋ ์ฌ๋ฆฌ', '๋ก', '๋ก๋ณถ์ด', '๋จ', '๋จ์ด์ง', '๋๊ฐ', '๋๋', '๋๊ป', '๋์ฌ', '๋ซ๋ฆฌ', '๋ฐ์ด๋', '๋ฐ์ด๋ค๋', '๋จ', '๋จ๊ฒ', '๋จ์', '๋ฏ', '๋ป๊น', '๋ผ', '๋ผ๋์์ดํฐ', '๋ผ๋ง', '๋ผ๋ฏธ', '๋ผ์ธ', '๋ผ์ด์ง', '๋ผํ ', '๋๋', '๋ฌ๋', '๋ฌ๋ง', '๋ญ์ ๋ฆฌ', '๋ญ์ค', '๋ฐ', '๋ ', '๋ ์คํ ๋', '๋ ์ดํธ', '๋ ์ธ์ง', '๋ ', '๋ ด', '๋ก๋ฐ์ด', '๋ก๋ธ', '๋ก๋น', '๋ก์ ', '๋ก์ผ์ด์ ', '๋ก', '๋กฏ', '๋กฏ๋ฐ', '๋กฏ๋ฐํธํ ', '๋ฃจ๋ฃจ', '๋ฃจ๋ฅด', '๋ฃจํ', '๋ฃธ', '๋ฃธ์๋น์ค', '๋ฅด', '๋ฆฌ๋ด', '๋ฆฌ๋ง', '๋ฆฌ๋ชจ', '๋ฆฌ๋ชจ์ปจ', '๋ฆฌ๋ฌด์ง', '๋ฆฌ๋ฒ', '๋ฆฌ๋ทฐ', '๋ฆฌ์ ์ ', '๋ฆฌ์ด', '๋ฆฌ์กฐํธ', '๋ฆฌํ์คํธ', '๋ฆฌํด', '๋ฆฌํ', '๋ฆฐ์ค', '๋ฆฝ๋', '๋ง', '๋ง๊ฐ', '๋ง๋ ', '๋ง๋ฃจ', '๋ง๋ฃป๋ฐ๋ฅ', '๋ง๋ฅด', '๋ง๋ฒ', '๋ง์คํฌ', '๋ง์', '๋ง์ดํด๋ทฐ', '๋ง์', '๋ง์', '๋ง์ด๋์ค', '๋ง์ดํฌ', '๋ง์ธ๋', '๋ง์ง๋ง', '๋ง์ฐฌ๊ฐ์ง', '๋ง์น', '๋งํธ', '๋งํฌ', '๋ง', '๋งํ', '๋ง๋จ', '๋ง๋ค', '๋ง์', '๋ง์ฝ', '๋ง์ธ', '๋ง์ ', '๋ง์กฑ', '๋ง์กฑ๊ฐ', '๋ง์กฑ๋', '๋ง์ฐจ', '๋งํ', '๋ง', '๋ง๋ฆฌ', '๋ง๋ณธ์', '๋ง์', '๋งํฌ', '๋ง', '๋ง๋ชจ์ค', '๋ง', '๋ง๋ณด', '๋ง์', '๋ง์ง', '๋ง๊ฐ์ง', '๋ง๊ณ ', '๋ง์น', '๋งํ', '๋ง', '๋ง์ํธ', '๋ง์ถ', '๋งก๊ธฐ', '๋งค๋ด์ผ', '๋งค๋์ ', '๋งค๋ ฅ', '๋งค๋ฒ', '๋งค์ฐ', '๋งคํธ', '๋งฅ์ฃผ', '๋งจ์', '๋จธ๊ทธ', '๋จธ๋ฆฌ', '๋จธ๋ฆฌ๋น', '๋จธ๋ฆฌ์นด๋ฝ', '๋จธ๋ฌด', '๋จธ๋ฌด๋ฅด', '๋จธ๋ฌผ', '๋จธ์ ', '๋จน๊ฑฐ๋ฆฌ', '๋จน๋ฐฉ', '๋จน์๊ฑฐ๋ฆฌ', '๋จน์น ', '๋จนํต', '๋จนํ', '๋จผ์ง', '๋ฉ', '๋ฉ์ฉก', '๋ฉ์', '๋ฉ์ง', '๋ฉ๋ด', '๋ฉ๋ฆฌํธ', '๋ฉ๋ฐ', '๋ฉ์ด๋', '๋ฉ์ผ', '๋ฉ๋ถ', '๋ฉฐ์น ', '๋ฉด', '๋ฉด๋๊ธฐ', '๋ฉด๋ด', '๋ฉด์ ', '๋ช ๊ฐ', '๋ช ๋', '๋ช ๋์ฑ๋น', '๋ช ๋์ญ', '๋ช ๋ถ', '๋ช ์ฑ', '๋ช ์', '๋ช ์น', '๋ชจ๊ธฐ', '๋ชจ๋ํฐ', '๋ชจ๋', '๋ชจ๋', '๋ชจ๋ฅด', '๋ชจ์ต', '๋ชจ์', '๋ชจ์ด', '๋ชจ์', '๋ชจ์', '๋ชจ์๋ผ', '๋ชจํ ', '๋ชฉ', '๋ชฉ๊ณผ', '๋ชฉ๋ก', '๋ชฉ์ํ', '๋ชฉ์ ', '๋ชฐ๋ฆฌ', '๋ชธ', '๋ชธ์ด', '๋ชปํ', '๋ฌด๊ฒ', '๋ฌด๊ถํ', '๋ฌด๋', '๋ฌด๋ฅ', '๋ฌด๋', '๋ฌด๋ฃ', '๋ฌด์ ', '๋ฌด์ธ', '๋ฌด์ ', '๋ฌด์กฐ๊ฑด', '๋ฌดํ', '๋ฌดํ', '๋ฌต์ง', '๋ฌถ', '๋ฌธ', '๋ฌธ์', '๋ฌธ์ ', '๋ฌธ์ ์', '๋ฌธ์ ์ ', '๋ฌธ์ง', '๋ฌป', '๋ฌผ', '๋ฌผ๊ฐ', '๋ฌผ๊ฑด', '๋ฌผ๋์ด', '๋ฌผ๋', '๋ฌผ๋', '๋ฌผ๋ก ', '๋ฌผ์๋ฆฌ', '๋ฌผ์ด๋ณด', '๋ฌผํ', '๋ฏธ', '๋ฏธ๊ตญ', '๋ฏธ๋๋ฌ์ง', '๋ฏธ๋', '๋ฏธ๋๋ฐ', '๋ฏธ๋ซ์ด', '๋ฏธ๋ฌ', '๋ฏธ๋ง', '๋ฏธ์', '๋ฏธ์ค', '๋ฏธ์', '๋ฏธ์ง์', '๋ฏธ์น', '๋ฏธํ ', '๋ฏธํ', '๋ฏธํก', '๋ฏผ๊ฐ', '๋ฏผ๋ง', '๋ฏฟ', '๋ฏฟ์์ง', '๋ฐ๋ฆฌ', '๋ฐ์ ', '๋ฐ', '๋ฐ', '๋ฐ๋ฐ๋ฅ', '๋ฐ', '๋ฐ๊นฅ์๋ฆฌ', '๋ฐ๊นฅ์ชฝ', '๋ฐ๊พธ', '๋ฐ๋', '๋ฐ๋', '๋ฐ๋ฅ', '๋ฐ๋ฅ๋', '๋ฐ๋', '๋ฐ๋', '๋ฐ๋ผ', '๋ฐ๋', '๋ฐ๋', '๋ฐ๋ฅด', '๋ฐ์', '๋ฐ์ ', '๋ฐ์ด๋ฌ์ค', '๋ฐ', '๋ฐ๋ง', '๋ฐ๋ฌผ๊ด', '๋ฐ์ํ', '๋ฐ์ค', '๋ฐ์ด', '๋ฐ์', '๋ฐํ', '๋ฐ', '๋ฐ', '๋ฐ๊ฒฝ', '๋ฐ๋ํธ', '๋ฐ๋ณต', '๋ฐ์ ์', '๋ฐ์', '๋ฐ์', '๋ฐ', '๋ฐ๊ฒฌ', '๋ฐ๊ธ', '๋ฐ๋ ', '๋ฐ๋ ํํน', '๋ฐ์', '๋ฐ์ด', '๋ฐํ', '๋ฐ', '๋ฐ', '๋ฐค', '๋ฐค๋ฆ', '๋ฐค์', '๋ฐฅ', '๋ฐฅ์ง', '๋ฐฉ', '๋ฐฉ๊ฐ', '๋ฐฉ๋', '๋ฐฉ๋ฌธ', '๋ฐฉ๋ฒ', '๋ฐฉ๋ถ', '๋ฐฉ์ฌ', '๋ฐฉ์', '๋ฐฉ์ญ', '๋ฐฉ์', '๋ฐฉ์ด', '๋ฐฉ์ฃผ', '๋ฐฉ์ถฉ๋ง', '๋ฐฉํฅ', '๋ฐฐ', '๋ฐฐ๊ฒฝ', '๋ฐฐ๋ฌ', '๋ฐฐ๋', '๋ฐฐ๋ ค', '๋ฐฐ์', '๋ฐฐ์ค', '๋ฐฐ์ ', '๋ฐฐ์น', '๋ฐฑ', '๋ฐฑ์', '๋ฐฑํ์ ', '๋ฐธ๋ฅ', '๋ฒ๊ฑฐํน', '๋ฒ๋ฆฌ', '๋ฒ์ค', '๋ฒํผ', '๋ฒ ์ค', '๋ฒ๊ฑฐ', '๋ฒ๋ฐฉ', '๋ฒํธ', '๋ฒํ๊ฐ', '๋ฒ๋ ', '๋ฒ์', '๋ฒ๊ฒจ์ง', '๋ฒ๊ธฐ', '๋ฒ ', '๋ฒ ๊ฐ', '๋ฒ ๋ค', '๋ฒ ๋', '๋ฒ ์คํธ', '๋ฒ ์ด์ปค๋ฆฌ', '๋ฒฝ', '๋ฒฝ์ง', '๋ณ๊ฒฝ', '๋ณ๊ธฐ', '๋ณํ', '๋ณ', '๋ณ๋ค๋ฅด', '๋ณ๋', '๋ณ์ ', '๋ณ', '๋ณ์', '๋ณด๊ด', '๋ณด๋ด', '๋ณด๋', '๋ณด๋๋ก์ ', '๋ณด์', '๋ณด์', '๋ณด์ด', '๋ณด์ผ๋ฌ', '๋ณด์', '๋ณด์ฅ', '๋ณด์ฆ๊ธ', '๋ณดํ', '๋ณดํต', '๋ณต', '๋ณต๋', '๋ณต์ก', '๋ณต์ฅ', '๋ณตํ', '๋ณถ์๋ฐฅ', '๋ณธ๊ด', '๋ณธ์ฌ', '๋ณธ์ธ', '๋ณผ', '๋ณผ๊ฑฐ๋ฆฌ', '๋ณผ์ผ', '๋ถ', '๋ถ๊ณผ', '๋ถ๊ทผ', '๋ถ๋๋ฝ', '๋ถ๋', '๋ถ๋ด', '๋ถ๋', '๋ถ๋์์ค', '๋ถ๋', '๋ถ๋ฅด', '๋ถ๋ชจ', '๋ถ๋ถ', '๋ถ์ฐ', '๋ถ์ค', '๋ถ์ค๋ฌ๊ธฐ', '๋ถ์', '๋ถ์ค', '๋ถ์กฑ', '๋ถ์น', '๋ถํ', '๋ถํฐํฌ', '๋ถํฉ', '๋ถ', '๋ถ๊ถ', ...]
์์น_idx = words.index('์์น')
์ฒญ๊ฒฐ_idx = words.index('์ฒญ๊ฒฐ')
๊นจ๋_idx = words.index('๊นจ๋')
์น์ _idx = words.index('์น์ ')
์์ค_idx = words.index('์์ค')
tdm_arr = tdm.toarray()
tdm_len = []
for i in range(len(tdm_arr)):
a = tdm_arr[i]
a = np.append(a, df['์์น'][i]) #-6
a = np.append(a, df['์์ค'][i]) #-5
a = np.append(a, df['์ธํ
๋ฆฌ์ด'][i]) #-4
a = np.append(a, df['์ฒญ๊ฒฐ'][i]) #-3
a = np.append(a, df['์น์ '][i]) #-2
a = np.append(a, df['๋ฐฉ์'][i]) #-1
tdm_len.append(a)
len(tdm_len[0])
2537
tdm_len[0]
array([0, 0, 0, ..., 0, 0, 0])
tdm_len[0][-6]
1
def make_list(keyword,idx,list_name):
for r in range(len(tdm_len)):
#print(r)
if tdm_len[r][idx] > 0:
for x in range(len(tdm_arr[0])):
#print(words[x])
if (tdm_arr[r][x] > 0) and (words[x] != keyword):
list_name.append(words[x])
์์น_list = []
์ฒญ๊ฒฐ_list = []
์น์ _list = []
์์ค_list = []
์ธํ
๋ฆฌ์ด_list = []
๋ฐฉ์_list = []
make_list('์์น',-6,์์น_list)
make_list('์์ค',-5,์์ค_list)
make_list('์ธํ
๋ฆฌ์ด',-4,์ธํ
๋ฆฌ์ด_list)
make_list('์ฒญ๊ฒฐ',-3,์ฒญ๊ฒฐ_list)
make_list('์น์ ',-2,์น์ _list)
make_list('๋ฐฉ์',-1,๋ฐฉ์_list)
c = Counter(์น์ _list)
print(c.most_common(100))
[('์ง์', 229), ('๊นจ๋', 78), ('์์น', 77), ('์ด์ฉ', 61), ('๊น๋', 60), ('๊ฐ์ค', 55), ('๋ฃธ', 55), ('๋ฐฉ', 55), ('๋ง์กฑ', 50), ('์์ค', 49), ('๋ค์', 45), ('์๋น์ค', 44), ('์กฐ์', 44), ('์ฒญ๊ฒฐ', 41), ('ํธํ', 37), ('์์', 36), ('ํ๋ฐํธ', 36), ('๋ฐฉ๋ฌธ', 36), ('๋ทฐ', 34), ('์์ฝ', 34), ('๊ฐ๊ฒฉ', 30), ('์ฃผ๋ณ', 29), ('์ปจ๋์
', 28), ('ํธ์์ ', 28), ('์๊ฐ', 27), ('๋จ์ฐ', 26), ('์ ๋', 24), ('๋ถํธ', 24), ('๋ง', 24), ('๋ณด์ด', 24), ('๊ฐ๊น', 23), ('๊ด์ฐฎ', 22), ('์์ฝ', 22), ('์ฒญ์', 22), ('์๋', 22), ('์ ๊ทผ์ฑ', 22), ('๋', 21), ('ํธ๋ฆฌ', 21), ('์ํ', 20), ('์ฃผ', 20), ('๋ผ์ด์ง', 19), ('์์ฒญ', 19), ('์ฒดํฌ์ธ', 19), ('๋ง์', 18), ('๋ช
๋', 17), ('๋ฐ', 17), ('๋๋ฆฌ', 17), ('์ต๊ณ ', 16), ('์ ๋ผ', 16), ('์๊ฐ', 15), ('์์กฐ', 15), ('๋ง', 15), ('๊ทผ์ฒ', 15), ('์์ธ', 15), ('์์ฌ', 15), ('์ฝ๋ก๋', 15), ('๋ถ๋ถ', 15), ('๋ก๋น', 15), ('๊ดํ๋ฌธ', 15), ('์ข', 14), ('ํธ์', 14), ('์ฒดํฌ', 14), ('์ฐ', 13), ('์ฒดํฌ์์', 13), ('๋๋น', 13), ('์กฐ์ฉ', 13), ('๋จผ์ง', 13), ('์ถ์ฒ', 13), ('์ฃผ์ฐจ์ฅ', 13), ('์ ํ', 13), ('์ด๋ฉ๋ํฐ', 13), ('๊ธฐ๋ถ', 13), ('์', 13), ('์ง', 12), ('์
๊ทธ๋ ์ด๋', 12), ('ํ์ฅ์ค', 12), ('์นจ๋', 12), ('์ฌํญ', 12), ('๋ชจ๋ฅด', 12), ('๋ฐฉ์', 12), ('์๋ฐ', 12), ('๊ตํต', 12), ('์ฃผ์ฐจ', 12), ('๋นผ', 11), ('์ ์ฒด', 11), ('์๋ด', 11), ('์์ด์ปจ', 11), ('ํ์', 11), ('์ฆ๊ธฐ', 11), ('์คํ
์ด', 11), ('๊ฑด๋ฌผ', 11), ('์ฌ์ฉ', 11), ('๋์ค', 10), ('์ฌํ', 10), ('์ญ', 10), ('๋ฃจํ', 10), ('ํ', 10), ('๊ทธ๋ฌ', 10), ('์นจ๊ตฌ๋ฅ', 10), ('์ ๊ฒฝ', 10)]
๋ฐฉ์ํฌํจ๋ฆฌ์คํธ = ['์กฐ์ฉ','๋ฐฉ','์์น','๋ค๋ฆฌ','์๋ฆฌ','์๋ฐฉ','์์','์๋๋ฝ','์ ','๋ฐค','์๋ฒฝ','์ฃผ๋ณ','์์นจ','์กฐ๊ณ์ฌ']
๋ฐฉ์_list2 = []
for w in ๋ฐฉ์_list:
if w in ๋ฐฉ์ํฌํจ๋ฆฌ์คํธ:
๋ฐฉ์_list2.append(w)
์์นํฌํจ๋ฆฌ์คํธ = ['๊ฐ๊น','์ฃผ๋ณ','์ ๊ทผ์ฑ','๊ดํ๋ฌธ','๋ฐฉ','๋ช
๋','๊ฐ๊ฒฉ','๊ฐ์ค','ํธ์์ ','๋ทฐ','๊ทผ์ฒ','๋ฐฉ๋ฌธ','๊ตํต','๋ง','์ง','๊ฑท','์์ธ','์์ง๋ก','๊ฑฐ๋ฆฌ','์ฌํ','์ฃผ์ฐจ์ฅ','๋จ์ฐ','์งํ์ฒ ','์ข
๋ก','์ญ','์ธ์ฌ๋','์ด๋','๋๋ณด','์งํ์ฒ ์ญ','์๋น','๊ฒฝ๋ณต๊ถ','์ปคํผ']
์์น_list2 = []
for w in ์์น_list:
if w in ์์นํฌํจ๋ฆฌ์คํธ:
์์น_list2.append(w)
์ธํ
๋ฆฌ์ดํฌํจ๋ฆฌ์คํธ = ['๋ฐฉ','๋','์ข','๊น๋','์','ํฌ๊ธฐ','๋๋','์์กฐ','์์ค','๋ต๋ต','๋ด๋ถ','ํ
์ด๋ธ','๋ชจ๋','์ฌ์ด์ฆ']
์ธํ
๋ฆฌ์ด_list2 = []
for w in ์ธํ
๋ฆฌ์ด_list:
if w in ์ธํ
๋ฆฌ์ดํฌํจ๋ฆฌ์คํธ:
์ธํ
๋ฆฌ์ด_list2.append(w)
์น์ ํฌํจ๋ฆฌ์คํธ = ['์ง์','๋ฃธ','๊ฐ์ค','์๋','๋ง','์์ฒญ','์ฝ๋ก๋','์ฒดํฌ์์','์ ํ','๊ธฐ๋ถ','์๋ด','๋ฐฉ','์กฐ์','ํ๋ฐํธ','์๋น์ค','์ปจ๋์
','์์ฝ','์ฒดํฌ์ธ','์
๊ทธ๋ ์ด๋','๋ถํธ']
์น์ _list2 = []
for w in ์น์ _list:
if w in ์น์ ํฌํจ๋ฆฌ์คํธ:
์น์ _list2.append(w)
์ฒญ๊ฒฐํฌํจ๋ฆฌ์คํธ = ['๊ฐ์ค','์ํ','์์ค','์นจ๋','๋ฐฉ','๊นจ๋','๊น๋','๋จผ์ง','์นจ๊ตฌ','ํ์ฅ์ค','์ด๋ฉ๋ํฐ','์๊ฑด','์นจ๊ตฌ๋ฅ','์ ๊ฒฝ','์ฒญ์','์์กฐ','์ปจ๋์
','์พ์ ','๋จธ๋ฆฌ์นด๋ฝ','์์','๋์','๋ฌผ']
์ฒญ๊ฒฐ_list2 = []
for w in ์ฒญ๊ฒฐ_list:
if w in ์ฒญ๊ฒฐํฌํจ๋ฆฌ์คํธ:
์ฒญ๊ฒฐ_list2.append(w)
์์คํฌํจ๋ฆฌ์คํธ = ['์์น','๋ผ์ด์ง','์ฃผ์ฐจ','๋ก๋น','ํธ์์ ','ํฌ์ค','์กฐ์','๊ฐ์ค','๋','๊ฑด๋ฌผ','์๋ฆฌ๋ฒ ์ดํฐ','๋ฃจํ','๊ณต๊ฐ','์์์ฅ']
์์ค_list2 = []
for w in ์์ค_list:
if w in ์์คํฌํจ๋ฆฌ์คํธ:
์์ค_list2.append(w)
relations = []
#degrees = []
for x in ์์น_list2:
if x =='๊ฑท':
relations.append(("์์น",'๊ฑท๋ค'))
else:
relations.append(("์์น",x))
#degrees.append(v)
for x in ์ฒญ๊ฒฐ_list2:
relations.append(("์ฒญ๊ฒฐ",x))
for x in ์์ค_list2:
if x=='๋':
relations.append(("์์ค",'๋๋ค'))
else:
relations.append(("์์ค",x))
for x in ์น์ _list2:
relations.append(("์น์ ",x))
for x in ์ธํ
๋ฆฌ์ด_list2:
if x == '์ข':
relations.append(("์ธํ
๋ฆฌ์ด",'์ข๋ค'))
elif x =='์':
relations.append(("์ธํ
๋ฆฌ์ด",'์๋ค'))
elif x == '๋':
relations.append(("์ธํ
๋ฆฌ์ด",'๋๋ค'))
else:
relations.append(("์ธํ
๋ฆฌ์ด",x))
for x in ๋ฐฉ์_list2:
relations.append(("๋ฐฉ์",x))
from collections import Counter
c=Counter(relations)
ํฌํจ๋ฆฌ์คํธ = []
degree = {}
for k,v in c.items():
ํฌํจ๋ฆฌ์คํธ.append(k)
degree[k[1]] = v
degree
{'๋ทฐ': 49,
'๊ทผ์ฒ': 44,
'์ฃผ๋ณ': 9,
'์์ง๋ก': 30,
'ํธ์์ ': 82,
'๊ฐ๊ฒฉ': 52,
'์ฃผ์ฐจ์ฅ': 25,
'์งํ์ฒ ': 22,
'๊ฐ์ค': 55,
'๊ตํต': 32,
'์ปคํผ': 14,
'์ฌํ': 26,
'๊ฑท๋ค': 31,
'๋ง': 32,
'์งํ์ฒ ์ญ': 15,
'๊ฐ๊น': 81,
'๋ช
๋': 55,
'์ข
๋ก': 22,
'๋ฐฉ': 25,
'๊ฑฐ๋ฆฌ': 27,
'์ ๊ทผ์ฑ': 77,
'๋จ์ฐ': 25,
'๋๋ณด': 16,
'์ญ': 22,
'๋ฐฉ๋ฌธ': 40,
'์์ธ': 31,
'์๋น': 15,
'์ง': 32,
'์ด๋': 17,
'๊ฒฝ๋ณต๊ถ': 15,
'์ธ์ฌ๋': 19,
'๊ดํ๋ฌธ': 60,
'๋จผ์ง': 39,
'์ํ': 62,
'์ฒญ์': 57,
'์นจ๋': 40,
'๊นจ๋': 290,
'๊น๋': 34,
'์์ค': 66,
'์นจ๊ตฌ': 28,
'์พ์ ': 19,
'์๊ฑด': 18,
'์์กฐ': 9,
'์ปจ๋์
': 28,
'ํ์ฅ์ค': 44,
'์นจ๊ตฌ๋ฅ': 17,
'๋์': 21,
'์ ๊ฒฝ': 15,
'์์': 22,
'๋จธ๋ฆฌ์นด๋ฝ': 20,
'์ด๋ฉ๋ํฐ': 17,
'๋ฌผ': 16,
'์์น': 22,
'์์์ฅ': 13,
'ํฌ์ค': 14,
'๊ณต๊ฐ': 18,
'์ฃผ์ฐจ': 53,
'๋๋ค': 63,
'๋ก๋น': 24,
'๊ฑด๋ฌผ': 23,
'๋ฃจํ': 18,
'๋ผ์ด์ง': 33,
'์กฐ์': 44,
'์๋ฆฌ๋ฒ ์ดํฐ': 20,
'์ง์': 229,
'์ฒดํฌ์์': 13,
'๋ฃธ': 55,
'์
๊ทธ๋ ์ด๋': 12,
'์๋น์ค': 44,
'์์ฒญ': 19,
'์์ฝ': 22,
'์๋ด': 11,
'ํ๋ฐํธ': 36,
'๋ถํธ': 24,
'์๋': 22,
'์ฒดํฌ์ธ': 19,
'๋ง': 24,
'์ฝ๋ก๋': 15,
'์ ํ': 13,
'๊ธฐ๋ถ': 13,
'์์ค': 8,
'์ข๋ค': 34,
'ํฌ๊ธฐ': 10,
'๋๋': 10,
'์ฌ์ด์ฆ': 5,
'๋ชจ๋': 5,
'์๋ค': 23,
'ํ
์ด๋ธ': 6,
'๋ต๋ต': 6,
'๋ด๋ถ': 8,
'์๋๋ฝ': 16,
'๋ค๋ฆฌ': 21,
'์๋ฆฌ': 21,
'์์นจ': 7,
'์ ': 13,
'๋ฐค': 10,
'์กฐ์ฉ': 28,
'์๋ฐฉ': 21,
'์๋ฒฝ': 10,
'์์': 21,
'์กฐ๊ณ์ฌ': 5}
ํฌํจ๋ฆฌ์คํธ
[('์์น', '๋ทฐ'),
('์์น', '๊ทผ์ฒ'),
('์์น', '์ฃผ๋ณ'),
('์์น', '์์ง๋ก'),
('์์น', 'ํธ์์ '),
('์์น', '๊ฐ๊ฒฉ'),
('์์น', '์ฃผ์ฐจ์ฅ'),
('์์น', '์งํ์ฒ '),
('์์น', '๊ฐ์ค'),
('์์น', '๊ตํต'),
('์์น', '์ปคํผ'),
('์์น', '์ฌํ'),
('์์น', '๊ฑท๋ค'),
('์์น', '๋ง'),
('์์น', '์งํ์ฒ ์ญ'),
('์์น', '๊ฐ๊น'),
('์์น', '๋ช
๋'),
('์์น', '์ข
๋ก'),
('์์น', '๋ฐฉ'),
('์์น', '๊ฑฐ๋ฆฌ'),
('์์น', '์ ๊ทผ์ฑ'),
('์์น', '๋จ์ฐ'),
('์์น', '๋๋ณด'),
('์์น', '์ญ'),
('์์น', '๋ฐฉ๋ฌธ'),
('์์น', '์์ธ'),
('์์น', '์๋น'),
('์์น', '์ง'),
('์์น', '์ด๋'),
('์์น', '๊ฒฝ๋ณต๊ถ'),
('์์น', '์ธ์ฌ๋'),
('์์น', '๊ดํ๋ฌธ'),
('์ฒญ๊ฒฐ', '๋จผ์ง'),
('์ฒญ๊ฒฐ', '์ํ'),
('์ฒญ๊ฒฐ', '์ฒญ์'),
('์ฒญ๊ฒฐ', '์นจ๋'),
('์ฒญ๊ฒฐ', '๊นจ๋'),
('์ฒญ๊ฒฐ', '๊น๋'),
('์ฒญ๊ฒฐ', '์์ค'),
('์ฒญ๊ฒฐ', '์นจ๊ตฌ'),
('์ฒญ๊ฒฐ', '์พ์ '),
('์ฒญ๊ฒฐ', '์๊ฑด'),
('์ฒญ๊ฒฐ', '๋ฐฉ'),
('์ฒญ๊ฒฐ', '์์กฐ'),
('์ฒญ๊ฒฐ', '๊ฐ์ค'),
('์ฒญ๊ฒฐ', '์ปจ๋์
'),
('์ฒญ๊ฒฐ', 'ํ์ฅ์ค'),
('์ฒญ๊ฒฐ', '์นจ๊ตฌ๋ฅ'),
('์ฒญ๊ฒฐ', '๋์'),
('์ฒญ๊ฒฐ', '์ ๊ฒฝ'),
('์ฒญ๊ฒฐ', '์์'),
('์ฒญ๊ฒฐ', '๋จธ๋ฆฌ์นด๋ฝ'),
('์ฒญ๊ฒฐ', '์ด๋ฉ๋ํฐ'),
('์ฒญ๊ฒฐ', '๋ฌผ'),
('์์ค', '์์น'),
('์์ค', '์์์ฅ'),
('์์ค', 'ํฌ์ค'),
('์์ค', 'ํธ์์ '),
('์์ค', '๊ณต๊ฐ'),
('์์ค', '์ฃผ์ฐจ'),
('์์ค', '๋๋ค'),
('์์ค', '๋ก๋น'),
('์์ค', '๊ฑด๋ฌผ'),
('์์ค', '๋ฃจํ'),
('์์ค', '๋ผ์ด์ง'),
('์์ค', '์กฐ์'),
('์์ค', '๊ฐ์ค'),
('์์ค', '์๋ฆฌ๋ฒ ์ดํฐ'),
('์น์ ', '์ง์'),
('์น์ ', '์ฒดํฌ์์'),
('์น์ ', '๊ฐ์ค'),
('์น์ ', '๋ฃธ'),
('์น์ ', '์ปจ๋์
'),
('์น์ ', '์
๊ทธ๋ ์ด๋'),
('์น์ ', '์๋น์ค'),
('์น์ ', '์์ฒญ'),
('์น์ ', '์์ฝ'),
('์น์ ', '๋ฐฉ'),
('์น์ ', '์๋ด'),
('์น์ ', 'ํ๋ฐํธ'),
('์น์ ', '๋ถํธ'),
('์น์ ', '์๋'),
('์น์ ', '์ฒดํฌ์ธ'),
('์น์ ', '์กฐ์'),
('์น์ ', '๋ง'),
('์น์ ', '์ฝ๋ก๋'),
('์น์ ', '์ ํ'),
('์น์ ', '๊ธฐ๋ถ'),
('์ธํ
๋ฆฌ์ด', '๋๋ค'),
('์ธํ
๋ฆฌ์ด', '๋ฐฉ'),
('์ธํ
๋ฆฌ์ด', '์์ค'),
('์ธํ
๋ฆฌ์ด', '์ข๋ค'),
('์ธํ
๋ฆฌ์ด', '๊น๋'),
('์ธํ
๋ฆฌ์ด', 'ํฌ๊ธฐ'),
('์ธํ
๋ฆฌ์ด', '๋๋'),
('์ธํ
๋ฆฌ์ด', '์ฌ์ด์ฆ'),
('์ธํ
๋ฆฌ์ด', '์์กฐ'),
('์ธํ
๋ฆฌ์ด', '๋ชจ๋'),
('์ธํ
๋ฆฌ์ด', '์๋ค'),
('์ธํ
๋ฆฌ์ด', 'ํ
์ด๋ธ'),
('์ธํ
๋ฆฌ์ด', '๋ต๋ต'),
('์ธํ
๋ฆฌ์ด', '๋ด๋ถ'),
('๋ฐฉ์', '์๋๋ฝ'),
('๋ฐฉ์', '์ฃผ๋ณ'),
('๋ฐฉ์', '๋ค๋ฆฌ'),
('๋ฐฉ์', '๋ฐฉ'),
('๋ฐฉ์', '์๋ฆฌ'),
('๋ฐฉ์', '์์นจ'),
('๋ฐฉ์', '์ '),
('๋ฐฉ์', '์์น'),
('๋ฐฉ์', '๋ฐค'),
('๋ฐฉ์', '์กฐ์ฉ'),
('๋ฐฉ์', '์๋ฐฉ'),
('๋ฐฉ์', '์๋ฒฝ'),
('๋ฐฉ์', '์์'),
('๋ฐฉ์', '์กฐ๊ณ์ฌ')]
G1.nodes()
NodeView(('์์น', '๋ทฐ', '๊ทผ์ฒ', '์ฃผ๋ณ', '์์ง๋ก', 'ํธ์์ ', '๊ฐ๊ฒฉ', '์ฃผ์ฐจ์ฅ', '์งํ์ฒ ', '๊ฐ์ค', '๊ตํต', '์ปคํผ', '์ฌํ', '๊ฑท๋ค', '๋ง', '์งํ์ฒ ์ญ', '๊ฐ๊น', '๋ช
๋', '์ข
๋ก', '๋ฐฉ', '๊ฑฐ๋ฆฌ', '์ ๊ทผ์ฑ', '๋จ์ฐ', '๋๋ณด', '์ญ', '๋ฐฉ๋ฌธ', '์์ธ', '์๋น', '์ง', '์ด๋', '๊ฒฝ๋ณต๊ถ', '์ธ์ฌ๋', '๊ดํ๋ฌธ', '์ฒญ๊ฒฐ', '๋จผ์ง', '์ํ', '์ฒญ์', '์นจ๋', '๊นจ๋', '๊น๋', '์์ค', '์นจ๊ตฌ', '์พ์ ', '์๊ฑด', '์์กฐ', '์ปจ๋์
', 'ํ์ฅ์ค', '์นจ๊ตฌ๋ฅ', '๋์', '์ ๊ฒฝ', '์์', '๋จธ๋ฆฌ์นด๋ฝ', '์ด๋ฉ๋ํฐ', '๋ฌผ', '์์์ฅ', 'ํฌ์ค', '๊ณต๊ฐ', '์ฃผ์ฐจ', '๋๋ค', '๋ก๋น', '๊ฑด๋ฌผ', '๋ฃจํ', '๋ผ์ด์ง', '์กฐ์', '์๋ฆฌ๋ฒ ์ดํฐ', '์น์ ', '์ง์', '์ฒดํฌ์์', '๋ฃธ', '์
๊ทธ๋ ์ด๋', '์๋น์ค', '์์ฒญ', '์์ฝ', '์๋ด', 'ํ๋ฐํธ', '๋ถํธ', '์๋', '์ฒดํฌ์ธ', '๋ง', '์ฝ๋ก๋', '์ ํ', '๊ธฐ๋ถ', '์ธํ
๋ฆฌ์ด', '์์ค', '์ข๋ค', 'ํฌ๊ธฐ', '๋๋', '์ฌ์ด์ฆ', '๋ชจ๋', '์๋ค', 'ํ
์ด๋ธ', '๋ต๋ต', '๋ด๋ถ', '๋ฐฉ์', '์๋๋ฝ', '๋ค๋ฆฌ', '์๋ฆฌ', '์์นจ', '์ ', '๋ฐค', '์กฐ์ฉ', '์๋ฐฉ', '์๋ฒฝ', '์์', '์กฐ๊ณ์ฌ'))
degree = {'์์น':50,'๋ทฐ': 49,'๊ทผ์ฒ': 44,'์ฃผ๋ณ': 9,'์์ง๋ก': 30,'ํธ์์ ': 82,'๊ฐ๊ฒฉ': 52,'์ฃผ์ฐจ์ฅ': 25,'์งํ์ฒ ': 22,'๊ฐ์ค': 55,'๊ตํต': 32,'์ปคํผ': 14,'์ฌํ': 26,'๊ฑท๋ค': 31,'๋ง': 32,'์งํ์ฒ ์ญ': 15,'๊ฐ๊น': 81,'๋ช
๋': 55,'์ข
๋ก': 22,'๋ฐฉ': 25,'๊ฑฐ๋ฆฌ': 27,'์ ๊ทผ์ฑ': 77,'๋จ์ฐ': 25,'๋๋ณด': 16,'์ญ': 22,'๋ฐฉ๋ฌธ': 40,'์์ธ': 31,'์๋น': 15,'์ง': 32,'์ด๋': 17,'๊ฒฝ๋ณต๊ถ': 15,'์ธ์ฌ๋': 19,'๊ดํ๋ฌธ': 60,
'์ฒญ๊ฒฐ':50,'๋จผ์ง': 39,'์ํ': 62,'์ฒญ์': 57,'์นจ๋': 40,'๊นจ๋': 290,'๊น๋': 34,'์์ค': 66,'์นจ๊ตฌ': 28,'์พ์ ': 19,'์๊ฑด': 18,'์์กฐ': 9,'์ปจ๋์
': 28,'ํ์ฅ์ค': 44,'์นจ๊ตฌ๋ฅ': 17,'๋์': 21,'์ ๊ฒฝ': 15,'์์': 22,'๋จธ๋ฆฌ์นด๋ฝ': 20,'์ด๋ฉ๋ํฐ': 17,'๋ฌผ': 16,'์์์ฅ': 13,'ํฌ์ค': 14,'๊ณต๊ฐ': 18,'์ฃผ์ฐจ': 53,'๋๋ค': 63,'๋ก๋น': 24,'๊ฑด๋ฌผ': 23,'๋ฃจํ': 18,'๋ผ์ด์ง': 33,'์กฐ์': 44,'์๋ฆฌ๋ฒ ์ดํฐ': 20,
'์น์ ':50,'์ง์': 229,'์ฒดํฌ์์': 13,'๋ฃธ': 55,'์
๊ทธ๋ ์ด๋': 12,'์๋น์ค': 44,'์์ฒญ': 19,'์์ฝ': 22 ,'์๋ด': 11,'ํ๋ฐํธ': 36,'๋ถํธ': 24,'์๋': 22,'์ฒดํฌ์ธ': 19,'๋ง': 24,'์ฝ๋ก๋': 15,'์ ํ': 13,'๊ธฐ๋ถ': 13,
'์ธํ
๋ฆฌ์ด':50,'์์ค': 8,'์ข๋ค': 34,'ํฌ๊ธฐ': 10,'๋๋': 10,'์ฌ์ด์ฆ': 5,'๋ชจ๋': 5,'์๋ค': 23,'ํ
์ด๋ธ': 6,'๋ต๋ต': 6,'๋ด๋ถ': 8,
'๋ฐฉ์':50,'์๋๋ฝ': 16,'๋ค๋ฆฌ': 21,'์๋ฆฌ': 21,'์์นจ': 7,'์ ': 13,'๋ฐค': 10,'์กฐ์ฉ': 28,'์๋ฐฉ': 21,'์๋ฒฝ': 10,'์์': 21,'์กฐ๊ณ์ฌ': 5}
df.head(1)
| site | hotel | score | review | date | star | length | review_spell_check | helpful | attitude | ์์น | ์์ค | ์ธํ ๋ฆฌ์ด | ์ฒญ๊ฒฐ | ์น์ | ๋ฐฉ์ | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | ์๊ณ ๋ค | ๋์ธํธ๋ฆฌ ํ๋ฆฌ๋ฏธ์ด ๋ช ๋2 | 10.0 | ๋ทฐ ์ข๊ณ ์์น ์ข๊ณ ๊นจ๋ํ๊ณ ์ต๊ณ ์ ๋๋ค | NaN | NaN | 22 | ๋ทฐ ์ข๊ณ ์์น ์ข๊ณ ๊นจ๋ํ๊ณ ์ต๊ณ ์ ๋๋ค | 1 | 2 | 1 | 0 | 0 | 0 | 0 | 0 |
plt.figure(figsize=(30,15))
plt.axis('off')
G1 = nx.Graph()
G1.add_edges_from(ํฌํจ๋ฆฌ์คํธ, color='blue')
--------------------------------------------------------------------------- NameError Traceback (most recent call last) <ipython-input-20-e32cf466b10b> in <module> ----> 1 pr = nx.pagerank(G1) 2 plt.figure(figsize=(30,15)) 3 plt.axis('off') 4 G1 = nx.Graph() 5 G1.add_edges_from(ํฌํจ๋ฆฌ์คํธ, color='blue') NameError: name 'G1' is not defined
pr
{'์์น': 0.13701934793915285,
'๋ทฐ': 0.004854271699353748,
'๊ทผ์ฒ': 0.004854271699353748,
'์ฃผ๋ณ': 0.008352305929940032,
'์์ง๋ก': 0.004854271699353748,
'ํธ์์ ': 0.008116050882456706,
'๊ฐ๊ฒฉ': 0.004854271699353748,
'์ฃผ์ฐจ์ฅ': 0.004854271699353748,
'์งํ์ฒ ': 0.004854271699353748,
'๊ฐ์ค': 0.014875112171357048,
'๊ตํต': 0.004854271699353748,
'์ปคํผ': 0.004854271699353748,
'์ฌํ': 0.004854271699353748,
'๊ฑท๋ค': 0.004854271699353748,
'๋ง': 0.004854271699353748,
'์งํ์ฒ ์ญ': 0.004854271699353748,
'๊ฐ๊น': 0.004854271699353748,
'๋ช
๋': 0.004854271699353748,
'์ข
๋ก': 0.004854271699353748,
'๋ฐฉ': 0.018509628148341773,
'๊ฑฐ๋ฆฌ': 0.004854271699353748,
'์ ๊ทผ์ฑ': 0.004854271699353748,
'๋จ์ฐ': 0.004854271699353748,
'๋๋ณด': 0.004854271699353748,
'์ญ': 0.004854271699353748,
'๋ฐฉ๋ฌธ': 0.004854271699353748,
'์์ธ': 0.004854271699353748,
'์๋น': 0.004854271699353748,
'์ง': 0.004854271699353748,
'์ด๋': 0.004854271699353748,
'๊ฒฝ๋ณต๊ถ': 0.004854271699353748,
'์ธ์ฌ๋': 0.004854271699353748,
'๊ดํ๋ฌธ': 0.004854271699353748,
'์ฒญ๊ฒฐ': 0.0860439334923585,
'๋จผ์ง': 0.004753430020550088,
'์ํ': 0.004753430020550088,
'์ฒญ์': 0.004753430020550088,
'์นจ๋': 0.004753430020550088,
'๊นจ๋': 0.004753430020550088,
'๊น๋': 0.00815169095005149,
'์์ค': 0.0575592709692868,
'์นจ๊ตฌ': 0.004753430020550088,
'์พ์ ': 0.004753430020550088,
'์๊ฑด': 0.004753430020550088,
'์์กฐ': 0.00815169095005149,
'์ปจ๋์
': 0.00818763271747177,
'ํ์ฅ์ค': 0.004753430020550088,
'์นจ๊ตฌ๋ฅ': 0.004753430020550088,
'๋์': 0.004753430020550088,
'์ ๊ฒฝ': 0.004753430020550088,
'์์': 0.004753430020550088,
'๋จธ๋ฆฌ์นด๋ฝ': 0.004753430020550088,
'์ด๋ฉ๋ํฐ': 0.004753430020550088,
'๋ฌผ': 0.004753430020550088,
'์์์ฅ': 0.004690350611674388,
'ํฌ์ค': 0.004690350611674388,
'๊ณต๊ฐ': 0.004690350611674388,
'์ฃผ์ฐจ': 0.004690350611674388,
'๋๋ค': 0.00808861154117579,
'๋ก๋น': 0.004690350611674388,
'๊ฑด๋ฌผ': 0.004690350611674388,
'๋ฃจํ': 0.004690350611674388,
'๋ผ์ด์ง': 0.004690350611674388,
'์กฐ์': 0.00812455330859607,
'์๋ฆฌ๋ฒ ์ดํฐ': 0.004690350611674388,
'์น์ ': 0.08079230843403845,
'์ง์': 0.004862774125493112,
'์ฒดํฌ์์': 0.004862774125493112,
'๋ฃธ': 0.004862774125493112,
'์
๊ทธ๋ ์ด๋': 0.004862774125493112,
'์๋น์ค': 0.004862774125493112,
'์์ฒญ': 0.004862774125493112,
'์์ฝ': 0.004862774125493112,
'์๋ด': 0.004862774125493112,
'ํ๋ฐํธ': 0.004862774125493112,
'๋ถํธ': 0.004862774125493112,
'์๋': 0.004862774125493112,
'์ฒดํฌ์ธ': 0.004862774125493112,
'๋ง': 0.004862774125493112,
'์ฝ๋ก๋': 0.004862774125493112,
'์ ํ': 0.004862774125493112,
'๊ธฐ๋ถ': 0.004862774125493112,
'์ธํ
๋ฆฌ์ด': 0.05596294679804124,
'์์ค': 0.0048268323580728315,
'์ข๋ค': 0.0048268323580728315,
'ํฌ๊ธฐ': 0.0048268323580728315,
'๋๋': 0.0048268323580728315,
'์ฌ์ด์ฆ': 0.0048268323580728315,
'๋ชจ๋': 0.0048268323580728315,
'์๋ค': 0.0048268323580728315,
'ํ
์ด๋ธ': 0.0048268323580728315,
'๋ต๋ต': 0.0048268323580728315,
'๋ด๋ถ': 0.0048268323580728315,
'๋ฐฉ์': 0.057611900512551446,
'์๋๋ฝ': 0.004926605659157713,
'๋ค๋ฆฌ': 0.004926605659157713,
'์๋ฆฌ': 0.004926605659157713,
'์์นจ': 0.004926605659157713,
'์ ': 0.004926605659157713,
'๋ฐค': 0.004926605659157713,
'์กฐ์ฉ': 0.004926605659157713,
'์๋ฐฉ': 0.004926605659157713,
'์๋ฒฝ': 0.004926605659157713,
'์์': 0.004926605659157713,
'์กฐ๊ณ์ฌ': 0.004926605659157713}
plt.figure(figsize=(35,20))
plt.axis('off')
G1 = nx.Graph()
G1.add_edges_from(ํฌํจ๋ฆฌ์คํธ, color='blue')
pos=nx.random_layout(G1)
pr = nx.pagerank(G1)
#nx.draw_circular(G)
nx.draw_networkx(G1
,node_size=[v*100 for k,v in degree.items()]
,alpha=0.7
,font_family='AppleGothic'
,font_size=25
,edge_color='.5'
,font_color='black'
,node_color=list(pr.values())
,cmap=plt.cm.Oranges
)
#nx.draw_networkx_labels(G1, pos, font_family='AppleGothic',font_size=20,edge_color='.5')
plt.savefig("Graph1.png", format="PNG")
plt.show()
plt.savefig("Graph.png", format="PNG")
<Figure size 432x288 with 0 Axes>
nx.write_graphml(G1, 'data/๊ทธ๋ํ.graphml')