import numpy as np
import pandas as pd
import MeCab
import re
import networkx as nx
import matplotlib.pyplot as plt
plt.rc('font',family='AppleGothic')
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('retina')
df = pd.read_excel('data/๋น๊ต.xlsx')
df.shape
(2409, 16)
df.head(1)
site | hotel | score | review | date | star | length | review_spell_check | helpful | attitude | ์์น | ์์ค | ์ธํ ๋ฆฌ์ด | ์ฒญ๊ฒฐ | ์น์ | ๋ฐฉ์ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | ์๊ณ ๋ค | ๋์ธํธ๋ฆฌ ํ๋ฆฌ๋ฏธ์ด ๋ช ๋2 | 10.0 | ๋ทฐ ์ข๊ณ ์์น ์ข๊ณ ๊นจ๋ํ๊ณ ์ต๊ณ ์ ๋๋ค | NaN | NaN | 22 | ๋ทฐ ์ข๊ณ ์์น ์ข๊ณ ๊นจ๋ํ๊ณ ์ต๊ณ ์ ๋๋ค | 1 | 2 | 1 | 0 | 0 | 0 | 0 | 0 |
stop_words = ['๋','์ฌ๊ธฐ','๋ฌด์','๊ทธ๊ฒ','๊ฐ','๊ธ','๊ฐ๋ณธ','์ ','์ ','์ ํฌ','๊ทธ๊ฑฐ','๋ธ','์ฐ๋ฆฌ','๊ทธ','ํํฐ','์','์','์ด๋','๋ญ','์๊ธฐ','๋์','์ด๊ณณ','์','์๋ฐฉ','๋','๊ทธ๊ณณ','๊ฑฐ๊ธฐ','๋ํฐ','๋
ธ','์ด์ชฝ','์ ๊ธฐ','ํธํ
','๊ณณ','์ ','์','์','์๋ถ','์ค๋ก','๋','๋','ํ','๊ธฐ','๊ทธ์ ','๋ฅ','๋ฉ','๋','์ข','์','์ด','ํ','๋','๋ง','๊ฐ','๋ณด','์','์ค','์ธต','๋','๋ฌต','์ฌ','๋จน','ํฌ','๋ค','๊ทธ๋ ','์๋','1','2','ํธ','์ผ','๊ฐ์ฌ']
len(stop_words)
70
def getNVM_lemma(text):
tokenizer = MeCab.Tagger()
parsed = tokenizer.parse(text)
#print(parsed)
word_tag = [w for w in parsed.split("\n")]
pos = []
tags = ["NNG", "NNP","VV","VA","VCP",'VCN','XR']
for word_ in word_tag[:-2]:
word = word_.split('\t') #['์๋ฒ์ง', 'NNG,*,F,์๋ฒ์ง,*,*,*,*']
tag = word[1].split(",") #['EC', '*', 'F', '๋๋ค', '*', '*', '*', '*']
if('+' in tag[0]): #๋จ์ด๊ฐ ์ฌ๋ฌ ํํ์๋ก ๊ตฌ์ฑ๋ ๊ฒฝ์ฐ
if ('VV' in tag[0] or 'VA' in tag[0] or 'VX' in tag[0]):
t = tag[-1].split('/')[0]
if t not in stop_words:
pos.append(t)
elif ((tag[0] in tags) and (word[0] not in stop_words)):
pos.append(word[0])
return pos
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
tf = CountVectorizer(tokenizer=getNVM_lemma, preprocessor=None, lowercase=False)
tdm = tf.fit_transform(df['review_spell_check'])
words = tf.get_feature_names()
words
['๊ฐ๊ฒ', '๊ฐ๊ฒฉ', '๊ฐ๊ฒฉ๋', '๊ฐ๊ตฌ', '๊ฐ๊น์', '๊ฐ๊น์ด', '๊ฐ๊น', '๊ฐ๋ฅ', '๊ฐ๋', '๊ฐ๋', '๊ฐ๋', '๊ฐ๋', '๊ฐ๋', '๊ฐ๋ฆฌ', '๊ฐ๋ฐฉ', '๊ฐ๋ณ', '๊ฐ์ฑ', '๊ฐ์ต๊ธฐ', '๊ฐ์', '๊ฐ์', '๊ฐ์ด', '๊ฐ์ด๋ฐ', '๊ฐ์', '๊ฐ์ ธ๊ฐ', '๊ฐ์ ธ๋ค์ฃผ', '๊ฐ์ ธ์ค', '๊ฐ์กฑ', '๊ฐ์กฑํธํ ', '๊ฐ์กด', '๊ฐ์ฃฝ', '๊ฐ์ง', '๊ฐ์ง์', '๊ฐ์น', '๊ฐํ', '๊ฐ์', '๊ฐ์ข ', '๊ฐ', '๊ฐ๊ฒฉ', '๊ฐ๊ฒฐ', '๊ฐ๋จ', '๊ฐ์', '๊ฐ์ด์นจ๋', '๊ฐ์ ', '๊ฐํ', '๊ฐ', '๊ฐ๊ณ ', '๊ฐ๊ตฌ', '๊ฐ์์ฃผ', '๊ฐ', '๊ฐ๊ธฐ', '๊ฐ๋ด', '๊ฐ๋', '๊ฐ์', '๊ฐ์ง', '๊ฐํ', '๊ฐ', '๊ฐ๊ฐ', '๊ฐ์ธ', '๊ฐ', '๊ฐ', '๊ฐ๋จ', '๊ฐ๋ ฅ', '๊ฐ๋ณ์ญ', '๊ฐ๋ถ', '๊ฐ์ ', '๊ฐ์ถ', '๊ฐ', '๊ฐ์ถ', '๊ฐ', '๊ฐ๋ฐฉ', '๊ฐ๋ณ', '๊ฐ๋ณ๋๋ฐฉ', '๊ฐ์ ', '๊ฐ์ฑ', '๊ฐ์', '๊ฐ์ธ', '๊ฐ์ธ', '๊ฐ์ฅ', '๊ฐ', '๊ฐ์', '๊ฐ์ค', '๊ฑฐ', '๊ฑฐ๋ฆฌ', '๊ฑฐ๋ฏธ', '๊ฑฐ์ฌ๋ฆฌ', '๊ฑฐ์ธ', '๊ฑฐ์ฃผ', '๊ฑฐ์ง๋ง', '๊ฑฐ์น ', '๊ฑฑ์ ', '๊ฑด', '๊ฑด๋', '๊ฑด๋ํธ', '๊ฑด๋ฌผ', '๊ฑด์กฐ', '๊ฑท', '๊ฑธ', '๊ฑธ๋ฆฌ', '๊ฑธ๋ง', '๊ฑธ์ด๊ฐ', '๊ฒ', '๊ฒ์ฌ', '๊ฒ์', '๊ฒ๋', '๊ฒ๋ชจ์ต', '๊ฒ๋ณด๊ธฐ', '๊ฒ', '๊ฒ์คํธ', '๊ฒจ์ธ', '๊ฒจ์ธ๋ ', '๊ฒฉ', '๊ฒฉํ', '๊ฒช', '๊ฒฐ๊ตญ', '๊ฒฐ์ ', '๊ฒฐ์ ', '๊ฒฐํผ์', '๊ฒฝ', '๊ฒฝ๋ณต๊ถ', '๊ฒฝ์ฐ', '๊ฒฝ์น', '๊ฒฝํฅ', '๊ฒฝํ', '๊ฒฝํธ์', '๊ณ๋จ', '๊ณ์', '๊ณ์', '๊ณ์ด', '๊ณํ', '๊ณ ', '๊ณ ๊ฐ', '๊ณ ๊ธ', '๊ณ ๋', '๊ณ ๋ ค', '๊ณ ๋ฅด', '๊ณ ๋ฆฌ', '๊ณ ๋ง', '๊ณ ๋ฌด', '๊ณ ๋ฏผ', '๊ณ ์', '๊ณ ์', '๊ณ ์', '๊ณ ์ฅ', '๊ณ ์ ', '๊ณ ์ง', '๊ณ ์ถ๋์ด', '๊ณ ์ธต', '๊ณค๋', '๊ณจ๋ชฉ', '๊ณจ๋ชฉ๊ธธ', '๊ณจ๋ฑ ์ด', '๊ณฐ๋์ด', '๊ณฐ์ฅ์ด', '๊ณฐํก์ด', '๊ณฑ', '๊ณณ๊ณณ', '๊ณต', '๊ณต๊ฐ', '๊ณต๊ธฐ', '๊ณต๋์ญ', '๊ณต์ฌ', '๊ณต์ฌ์ฅ', '๊ณต์ฌํ', '๊ณต์ ', '๊ณต์กฐ', '๊ณต์ง', '๊ณต์ง', '๊ณตํ๋', '๊ณตํฌ์ฆ', '๊ณตํญ', '๊ณผ', '๊ณผ์ผ', '๊ณผ์', '๊ณผ์ ', '๊ณผ์ ', '๊ณฝ', '๊ด', '๊ด๊ณ์', '๊ด๊ด', '๊ด๊ด๊ฐ', '๊ด๊ด์ง', '๊ด๊ด์ฐจ', '๊ด๋ จ', '๊ด๋ฆฌ', '๊ด์', '๊ด๋๋ฃจ์ญ', '๊ด์ฅ', '๊ด์ฅ์์ฅ', '๊ดํ๋ฌธ', '๊ดํ๋ฌธ์ญ', '๊ดํฌ', '๊ด', '๊ด์ฐฎ', '๊ต์ฅ', '๊ต๋ณด๋ฌธ๊ณ ', '๊ต์ก', '๊ต์', '๊ต์ฒด', '๊ต์ด', '๊ตํต', '๊ตํตํธ', '๊ตํ', '๊ตฌ๊ฒฝ', '๊ตฌ๊ฒฝ๊ฑฐ๋ฆฌ', '๊ตฌ๋์ฌ', '๊ตฌ๋ฃจ', '๊ตฌ๋ฆฌ', '๊ตฌ๋ฆฐ๋ด', '๊ตฌ๋งค', '๊ตฌ๋ฉ', '๊ตฌ๋ถ', '๊ตฌ๋น', '๊ตฌ์', '๊ตฌ์๊ตฌ์', '๊ตฌ์ฑ', '๊ตฌ์', '๊ตฌ์ ', '๊ตฌ์ฉ', '๊ตฌ์ฐ', '๊ตฌ์กฐ', '๊ตฌ์ฐจ', '๊ตฌ์ฒญ', '๊ตฌํ', '๊ตฌํ', '๊ตญ๋ด', '๊ตญ๋ฐฅ', '๊ตฐ๋๋๊ธฐ', '๊ตณ', '๊ตด', '๊ตฟ', '๊ถํ', '๊ถ', '๊ท์ ', '๊ท์ฐฎ', '๊ท', '๊ท๋ชจ', '๊ทธ๋์', '๊ทธ๋', '๊ทธ๋๋', '๊ทธ๋ฌ', '๊ทธ๋ญ', '๊ทธ๋ง๋', '๊ทผ๋', '๊ทผ๋ฌด', '๊ทผ๋ฐฉ', '๊ทผ๋ณธ', '๊ทผ์ ', '๊ทผ์ฒ', '๊ธ', '๊ธํ', '๊ธ', '๊ธ์ ', '๊ธ์ก', '๊ธ', '๊ธํ', '๊ธฐ๊ฐ', '๊ธฐ๊ณ', '๊ธฐ๊ตฌ', '๊ธฐ๋ ', '๊ธฐ๋ ์ผ', '๊ธฐ๋ค๋ฆฌ', '๊ธฐ๋', '๊ธฐ๋์น', '๊ธฐ๋ฆ', '๊ธฐ๋ฆ๋', '๊ธฐ๋ง', '๊ธฐ๋ณธ', '๊ธฐ๋ณธ๊ธฐ', '๊ธฐ๋ถ', '๊ธฐ์ฌ', '๊ธฐ์', '๊ธฐ์ต', '๊ธฐ์ต๋', '๊ธฐ์ ', '๊ธฐ์ฌ', '๊ธฐ์กด', '๊ธฐ์ค', '๊ธฐ์นจ', '๊ธฐํ', '๊ธฐํ์', '๊ธฐํธ', '๊ธฐํ', '๊ธธ', '๊น๋ฐฅ', '๊น', '๊น', '๊น์', '๊น', '๊น๋งฃ', '๊น๋จน', '๊น๋', '๊น๋นกํ', '๊นจ', '๊นจ๋', '๊นจ์ฐ', '๊นจ์ง', '๊บผ๋ด', '๊บผ์ฃผ', '๊บผ์ง', '๊บพ์ด์ง', '๊ป', '๊ผญ', '๊ผญ๋๊ธฐ', '๊ผญ์ง', '๊ผผ๊ผผ', '๊ผฝ', '๊ฝ', '๊พธ', '๊พธ๋ฏธ', '๊ฟ', '๊ฟ๋ฆฌ', '๊ฟ์ ', '๊ฟ', '๋', '๋์ ', '๋', '๋๊ธฐ', '๋', '๋', '๋', '๋๋', '๋๋งบ', '๋ผ', '๋ผ์ด๋ค', '๋๊ฐ', '๋๋', '๋๋ค์ด', '๋๋ผ', '๋๋จธ์ง', '๋๋ฌด', '๋๋ฌด๋ผ', '๋๋ฐฉ', '๋์', '๋์์ง', '๋์ค', '๋์ฉ', '๋์ดํธ', '๋์ธ', '๋์ค', '๋์ด', '๋ํ', '๋๋ฆฌ', '๋๋ฐฉ', '๋๋ฐฉ๊ธฐ', '๋์ผ์ค', '๋', '๋ ', '๋ ๋ฆฌ', '๋ ์จ', '๋ก', '๋จ', '๋จ๊ธฐ', '๋จ๋ ', '๋จ๋ค๋ฅด', '๋จ๋๋ฌธ', '๋จ๋งค', '๋จ์ฐ', '๋จ์ฑ', '๋จ์', '๋จํธ', '๋ฉ๋', '๋ซ', '๋ญ๋ง', '๋ฎ', '๋ณ', '๋ด', '๋ด๊ณ ', '๋ด๊ตญ์ธ', '๋ด๋', '๋ด๋ค', '๋ด๋ ค๊ฐ', '๋ด๋ ค์', '๋ด๋ ค์', '๋ด๋ ค์ค', '๋ด๋ฆฌ', '๋ด๋ฐ', '๋ด๋ถ', '๋ด์ญ', '๋ด์ธ', '๋ด์ฉ', '๋ด์ฉ๋ฌผ', '๋', '๋์', '๋์๋', '๋๋๋ฐฉ', '๋๋', '๋๋์ํ', '๋๋ฉด', '๋๋ฐฉ', '๋์ฅ๊ณ ', '๋๋', '๋์ฐ', '๋', '๋', '๋๊ธฐ', '๋์ด์', '๋์ด์ค', '๋ฃ', '๋ค์', '๋ทํ๋ฆญ์ค', '๋ ', '๋ ธ๋', '๋ ธ๋ณด', '๋ ธํธ๋ถ', '๋ ธํฌ', '๋ ธํ', '๋ น์ฌ', '๋๋ผ', '๋๋', '๋๋', '๋', '๋์ด', '๋', '๋๋ค', '๋๋ฅด', '๋๋ฆฌ', '๋ ๋ ', '๋', '๋', '๋', '๋๋ผ', '๋๋', '๋๋ฆฌ', '๋', '๋๋ฆฌ', '๋ฅ', '๋ฅ๋', '๋ฆ', '๋ฆ์ ', '๋์ค', '๋', '๋ค๊ณผ', '๋ค๋ ๊ฐ', '๋ค๋ ์ค', '๋ค๋', '๋ค๋ฃจ', '๋ค๋ฅด', '๋ค๋ฆฌ๋ฏธ', '๋ค๋ฆผ์ง', '๋ค๋ฉด', '๋ค๋ฐฉ', '๋ค๋ถ', '๋ค์', '๋ค์', '๋ค์ด', '๋ค์', '๋ค์น', '๋คํธ', '๋ฅ', '๋ฅํฐ', '๋ฆ', '๋ฆ์ด', '๋จ๊ณ', '๋จ๊ณจ', '๋จ๋ด', '๋จ์', '๋จ์', '๋จ์ ', '๋จ์ฒด', '๋ซ', '๋ซํ', '๋ฌ', '๋ฌ๋ผ์ง', '๋ณ', '๋ด', '๋ด๋ ', '๋ด๋น', '๋ด๋ฐฐ', '๋ด๋ฐฑ', '๋ต๋ต', '๋ต๋ณ', '๋น', '๋น์ฐ', '๋น์ผ', '๋นํฉ', '๋๊ด', '๋๊ธฐ', '๋๊ธฐ์ธต', '๋๋จ', '๋๋ง', '๋๋ฐ', '๋๋ถ๋ถ', '๋๋น', '๋์ฌ๊ด', '๋์', '๋์ ', '๋์ฌ', '๋์', '๋์ ', '๋์ ', '๋์ค๊ตํต', '๋์ฐฝ', '๋์ฑ ', '๋์ฒ', '๋์ฒด', '๋์ถฉ', '๋ํต๋ น', '๋ํ', '๋ํ', '๋ํ', '๋ํจ', '๋ํ', '๋ํ', '๋๋ฝ', '๋๋ถ', '๋๋ธ', '๋๋ธ๋ฒ ๋', '๋์', '๋', '๋๋ชฉ', '๋๋ถ', '๋์๊ถ', '๋์ง', '๋ค', '๋ฅ', '๋ฉ์ด๋ฆฌ', '๋ฎ์น', '๋ฐ๊ธฐ', '๋ฐ๋ฆฌ', '๋ฐ์คํฌ', '๋ฐ์ฐ', '๋ฐ์ดํธ', '๋๋ก', '๋๋ณด', '๋์', '๋์๋ฝ', '๋์ฌ', '๋์ฌ์ง', '๋์ด', '๋์ฐฉ', '๋', '๋', '๋', '๋๋ฆฌ', '๋์๊ฐ', '๋์๋ค๋', '๋์ด', '๋์์น', '๋', '๋๋จ์', '๋๋ค', '๋๋๋ฌธ', '๋๋ฐ', '๋์', '๋์๋จ๋ถ', '๋์ ', '๋์', '๋์ผ', '๋ํธ', '๋ํ', '๋ํฅ', '๋', '๋๊ธฐ', '๋๊ป', '๋๋๋ฆฌ', '๋๋ง', '๋์ฐ', '๋๋ฌ๋ณด', '๋ค', '๋ค๋', '๋ค์ํค', '๋ค์ง', '๋ค์ง', '๋', '๋', '๋๋ผ์ด', '๋๋ฃจ', '๋๋ฆฌ', '๋ฃ', '๋ค๋ฅด', '๋ค๋ฆฌ', '๋ค์ด๊ฐ', '๋ค์ด์ค', '๋ค์ด', '๋ฑ', '๋ฑ๊ธ', '๋', '๋๋ญ์ค', '๋์์ธ', '๋์ ํธ', '๋ํ ์ผ', '๋ํ', '๋', '๋๋ฆฌ๋ฒ๋ฆฌ', '๋ฅ', '๋ฐ', '๋ฐ๋ฏ', '๋ฐ๋ป', '๋ฐ๋ผ์ค', '๋ฐ๋ฅด', '๋ฑ๋ฑ', '๋ฑ์ง', '๋ธ', '๋ธ๊ธฐ', '๋ธ์์ด', '๋', '๋๋ ค์ก', '๋๋ฆฌ', '๋์ฐ', '๋ ', '๋ ๋', '๋ ๋ค๋', '๋ ๋', '๋ ๋ค', '๋ ์ค๋ฅด', '๋ ์ฌ๋ฆฌ', '๋ก', '๋ก๋ณถ์ด', '๋จ', '๋จ์ด์ง', '๋๊ฐ', '๋๋', '๋๊ป', '๋์ฌ', '๋ซ๋ฆฌ', '๋ฐ์ด๋', '๋ฐ์ด๋ค๋', '๋จ', '๋จ๊ฒ', '๋จ์', '๋ฏ', '๋ป๊น', '๋ผ', '๋ผ๋์์ดํฐ', '๋ผ๋ง', '๋ผ๋ฏธ', '๋ผ์ธ', '๋ผ์ด์ง', '๋ผํ ', '๋๋', '๋ฌ๋', '๋ฌ๋ง', '๋ญ์ ๋ฆฌ', '๋ญ์ค', '๋ฐ', '๋ ', '๋ ์คํ ๋', '๋ ์ดํธ', '๋ ์ธ์ง', '๋ ', '๋ ด', '๋ก๋ฐ์ด', '๋ก๋ธ', '๋ก๋น', '๋ก์ ', '๋ก์ผ์ด์ ', '๋ก', '๋กฏ', '๋กฏ๋ฐ', '๋กฏ๋ฐํธํ ', '๋ฃจ๋ฃจ', '๋ฃจ๋ฅด', '๋ฃจํ', '๋ฃธ', '๋ฃธ์๋น์ค', '๋ฅด', '๋ฆฌ๋ด', '๋ฆฌ๋ง', '๋ฆฌ๋ชจ', '๋ฆฌ๋ชจ์ปจ', '๋ฆฌ๋ฌด์ง', '๋ฆฌ๋ฒ', '๋ฆฌ๋ทฐ', '๋ฆฌ์ ์ ', '๋ฆฌ์ด', '๋ฆฌ์กฐํธ', '๋ฆฌํ์คํธ', '๋ฆฌํด', '๋ฆฌํ', '๋ฆฐ์ค', '๋ฆฝ๋', '๋ง', '๋ง๊ฐ', '๋ง๋ ', '๋ง๋ฃจ', '๋ง๋ฃป๋ฐ๋ฅ', '๋ง๋ฅด', '๋ง๋ฒ', '๋ง์คํฌ', '๋ง์', '๋ง์ดํด๋ทฐ', '๋ง์', '๋ง์', '๋ง์ด๋์ค', '๋ง์ดํฌ', '๋ง์ธ๋', '๋ง์ง๋ง', '๋ง์ฐฌ๊ฐ์ง', '๋ง์น', '๋งํธ', '๋งํฌ', '๋ง', '๋งํ', '๋ง๋จ', '๋ง๋ค', '๋ง์', '๋ง์ฝ', '๋ง์ธ', '๋ง์ ', '๋ง์กฑ', '๋ง์กฑ๊ฐ', '๋ง์กฑ๋', '๋ง์ฐจ', '๋งํ', '๋ง', '๋ง๋ฆฌ', '๋ง๋ณธ์', '๋ง์', '๋งํฌ', '๋ง', '๋ง๋ชจ์ค', '๋ง', '๋ง๋ณด', '๋ง์', '๋ง์ง', '๋ง๊ฐ์ง', '๋ง๊ณ ', '๋ง์น', '๋งํ', '๋ง', '๋ง์ํธ', '๋ง์ถ', '๋งก๊ธฐ', '๋งค๋ด์ผ', '๋งค๋์ ', '๋งค๋ ฅ', '๋งค๋ฒ', '๋งค์ฐ', '๋งคํธ', '๋งฅ์ฃผ', '๋งจ์', '๋จธ๊ทธ', '๋จธ๋ฆฌ', '๋จธ๋ฆฌ๋น', '๋จธ๋ฆฌ์นด๋ฝ', '๋จธ๋ฌด', '๋จธ๋ฌด๋ฅด', '๋จธ๋ฌผ', '๋จธ์ ', '๋จน๊ฑฐ๋ฆฌ', '๋จน๋ฐฉ', '๋จน์๊ฑฐ๋ฆฌ', '๋จน์น ', '๋จนํต', '๋จนํ', '๋จผ์ง', '๋ฉ', '๋ฉ์ฉก', '๋ฉ์', '๋ฉ์ง', '๋ฉ๋ด', '๋ฉ๋ฆฌํธ', '๋ฉ๋ฐ', '๋ฉ์ด๋', '๋ฉ์ผ', '๋ฉ๋ถ', '๋ฉฐ์น ', '๋ฉด', '๋ฉด๋๊ธฐ', '๋ฉด๋ด', '๋ฉด์ ', '๋ช ๊ฐ', '๋ช ๋', '๋ช ๋์ฑ๋น', '๋ช ๋์ญ', '๋ช ๋ถ', '๋ช ์ฑ', '๋ช ์', '๋ช ์น', '๋ชจ๊ธฐ', '๋ชจ๋ํฐ', '๋ชจ๋', '๋ชจ๋', '๋ชจ๋ฅด', '๋ชจ์ต', '๋ชจ์', '๋ชจ์ด', '๋ชจ์', '๋ชจ์', '๋ชจ์๋ผ', '๋ชจํ ', '๋ชฉ', '๋ชฉ๊ณผ', '๋ชฉ๋ก', '๋ชฉ์ํ', '๋ชฉ์ ', '๋ชฐ๋ฆฌ', '๋ชธ', '๋ชธ์ด', '๋ชปํ', '๋ฌด๊ฒ', '๋ฌด๊ถํ', '๋ฌด๋', '๋ฌด๋ฅ', '๋ฌด๋', '๋ฌด๋ฃ', '๋ฌด์ ', '๋ฌด์ธ', '๋ฌด์ ', '๋ฌด์กฐ๊ฑด', '๋ฌดํ', '๋ฌดํ', '๋ฌต์ง', '๋ฌถ', '๋ฌธ', '๋ฌธ์', '๋ฌธ์ ', '๋ฌธ์ ์', '๋ฌธ์ ์ ', '๋ฌธ์ง', '๋ฌป', '๋ฌผ', '๋ฌผ๊ฐ', '๋ฌผ๊ฑด', '๋ฌผ๋์ด', '๋ฌผ๋', '๋ฌผ๋', '๋ฌผ๋ก ', '๋ฌผ์๋ฆฌ', '๋ฌผ์ด๋ณด', '๋ฌผํ', '๋ฏธ', '๋ฏธ๊ตญ', '๋ฏธ๋๋ฌ์ง', '๋ฏธ๋', '๋ฏธ๋๋ฐ', '๋ฏธ๋ซ์ด', '๋ฏธ๋ฌ', '๋ฏธ๋ง', '๋ฏธ์', '๋ฏธ์ค', '๋ฏธ์', '๋ฏธ์ง์', '๋ฏธ์น', '๋ฏธํ ', '๋ฏธํ', '๋ฏธํก', '๋ฏผ๊ฐ', '๋ฏผ๋ง', '๋ฏฟ', '๋ฏฟ์์ง', '๋ฐ๋ฆฌ', '๋ฐ์ ', '๋ฐ', '๋ฐ', '๋ฐ๋ฐ๋ฅ', '๋ฐ', '๋ฐ๊นฅ์๋ฆฌ', '๋ฐ๊นฅ์ชฝ', '๋ฐ๊พธ', '๋ฐ๋', '๋ฐ๋', '๋ฐ๋ฅ', '๋ฐ๋ฅ๋', '๋ฐ๋', '๋ฐ๋', '๋ฐ๋ผ', '๋ฐ๋', '๋ฐ๋', '๋ฐ๋ฅด', '๋ฐ์', '๋ฐ์ ', '๋ฐ์ด๋ฌ์ค', '๋ฐ', '๋ฐ๋ง', '๋ฐ๋ฌผ๊ด', '๋ฐ์ํ', '๋ฐ์ค', '๋ฐ์ด', '๋ฐ์', '๋ฐํ', '๋ฐ', '๋ฐ', '๋ฐ๊ฒฝ', '๋ฐ๋ํธ', '๋ฐ๋ณต', '๋ฐ์ ์', '๋ฐ์', '๋ฐ์', '๋ฐ', '๋ฐ๊ฒฌ', '๋ฐ๊ธ', '๋ฐ๋ ', '๋ฐ๋ ํํน', '๋ฐ์', '๋ฐ์ด', '๋ฐํ', '๋ฐ', '๋ฐ', '๋ฐค', '๋ฐค๋ฆ', '๋ฐค์', '๋ฐฅ', '๋ฐฅ์ง', '๋ฐฉ', '๋ฐฉ๊ฐ', '๋ฐฉ๋', '๋ฐฉ๋ฌธ', '๋ฐฉ๋ฒ', '๋ฐฉ๋ถ', '๋ฐฉ์ฌ', '๋ฐฉ์', '๋ฐฉ์ญ', '๋ฐฉ์', '๋ฐฉ์ด', '๋ฐฉ์ฃผ', '๋ฐฉ์ถฉ๋ง', '๋ฐฉํฅ', '๋ฐฐ', '๋ฐฐ๊ฒฝ', '๋ฐฐ๋ฌ', '๋ฐฐ๋', '๋ฐฐ๋ ค', '๋ฐฐ์', '๋ฐฐ์ค', '๋ฐฐ์ ', '๋ฐฐ์น', '๋ฐฑ', '๋ฐฑ์', '๋ฐฑํ์ ', '๋ฐธ๋ฅ', '๋ฒ๊ฑฐํน', '๋ฒ๋ฆฌ', '๋ฒ์ค', '๋ฒํผ', '๋ฒ ์ค', '๋ฒ๊ฑฐ', '๋ฒ๋ฐฉ', '๋ฒํธ', '๋ฒํ๊ฐ', '๋ฒ๋ ', '๋ฒ์', '๋ฒ๊ฒจ์ง', '๋ฒ๊ธฐ', '๋ฒ ', '๋ฒ ๊ฐ', '๋ฒ ๋ค', '๋ฒ ๋', '๋ฒ ์คํธ', '๋ฒ ์ด์ปค๋ฆฌ', '๋ฒฝ', '๋ฒฝ์ง', '๋ณ๊ฒฝ', '๋ณ๊ธฐ', '๋ณํ', '๋ณ', '๋ณ๋ค๋ฅด', '๋ณ๋', '๋ณ์ ', '๋ณ', '๋ณ์', '๋ณด๊ด', '๋ณด๋ด', '๋ณด๋', '๋ณด๋๋ก์ ', '๋ณด์', '๋ณด์', '๋ณด์ด', '๋ณด์ผ๋ฌ', '๋ณด์', '๋ณด์ฅ', '๋ณด์ฆ๊ธ', '๋ณดํ', '๋ณดํต', '๋ณต', '๋ณต๋', '๋ณต์ก', '๋ณต์ฅ', '๋ณตํ', '๋ณถ์๋ฐฅ', '๋ณธ๊ด', '๋ณธ์ฌ', '๋ณธ์ธ', '๋ณผ', '๋ณผ๊ฑฐ๋ฆฌ', '๋ณผ์ผ', '๋ถ', '๋ถ๊ณผ', '๋ถ๊ทผ', '๋ถ๋๋ฝ', '๋ถ๋', '๋ถ๋ด', '๋ถ๋', '๋ถ๋์์ค', '๋ถ๋', '๋ถ๋ฅด', '๋ถ๋ชจ', '๋ถ๋ถ', '๋ถ์ฐ', '๋ถ์ค', '๋ถ์ค๋ฌ๊ธฐ', '๋ถ์', '๋ถ์ค', '๋ถ์กฑ', '๋ถ์น', '๋ถํ', '๋ถํฐํฌ', '๋ถํฉ', '๋ถ', '๋ถ๊ถ', ...]
์์น_idx = words.index('์์น')
์ฒญ๊ฒฐ_idx = words.index('์ฒญ๊ฒฐ')
๊นจ๋_idx = words.index('๊นจ๋')
์น์ _idx = words.index('์น์ ')
์์ค_idx = words.index('์์ค')
tdm_arr = tdm.toarray()
tdm_len = []
for i in range(len(tdm_arr)):
a = tdm_arr[i]
a = np.append(a, df['์์น'][i]) #-6
a = np.append(a, df['์์ค'][i]) #-5
a = np.append(a, df['์ธํ
๋ฆฌ์ด'][i]) #-4
a = np.append(a, df['์ฒญ๊ฒฐ'][i]) #-3
a = np.append(a, df['์น์ '][i]) #-2
a = np.append(a, df['๋ฐฉ์'][i]) #-1
tdm_len.append(a)
len(tdm_len[0])
2537
tdm_len[0]
array([0, 0, 0, ..., 0, 0, 0])
tdm_len[0][-6]
1
def make_list(keyword,idx,list_name):
for r in range(len(tdm_len)):
#print(r)
if tdm_len[r][idx] > 0:
for x in range(len(tdm_arr[0])):
#print(words[x])
if (tdm_arr[r][x] > 0) and (words[x] != keyword):
list_name.append(words[x])
์์น_list = []
์ฒญ๊ฒฐ_list = []
์น์ _list = []
์์ค_list = []
์ธํ
๋ฆฌ์ด_list = []
๋ฐฉ์_list = []
make_list('์์น',-6,์์น_list)
make_list('์์ค',-5,์์ค_list)
make_list('์ธํ
๋ฆฌ์ด',-4,์ธํ
๋ฆฌ์ด_list)
make_list('์ฒญ๊ฒฐ',-3,์ฒญ๊ฒฐ_list)
make_list('์น์ ',-2,์น์ _list)
make_list('๋ฐฉ์',-1,๋ฐฉ์_list)
c = Counter(์น์ _list)
print(c.most_common(100))
[('์ง์', 229), ('๊นจ๋', 78), ('์์น', 77), ('์ด์ฉ', 61), ('๊น๋', 60), ('๊ฐ์ค', 55), ('๋ฃธ', 55), ('๋ฐฉ', 55), ('๋ง์กฑ', 50), ('์์ค', 49), ('๋ค์', 45), ('์๋น์ค', 44), ('์กฐ์', 44), ('์ฒญ๊ฒฐ', 41), ('ํธํ', 37), ('์์', 36), ('ํ๋ฐํธ', 36), ('๋ฐฉ๋ฌธ', 36), ('๋ทฐ', 34), ('์์ฝ', 34), ('๊ฐ๊ฒฉ', 30), ('์ฃผ๋ณ', 29), ('์ปจ๋์ ', 28), ('ํธ์์ ', 28), ('์๊ฐ', 27), ('๋จ์ฐ', 26), ('์ ๋', 24), ('๋ถํธ', 24), ('๋ง', 24), ('๋ณด์ด', 24), ('๊ฐ๊น', 23), ('๊ด์ฐฎ', 22), ('์์ฝ', 22), ('์ฒญ์', 22), ('์๋', 22), ('์ ๊ทผ์ฑ', 22), ('๋', 21), ('ํธ๋ฆฌ', 21), ('์ํ', 20), ('์ฃผ', 20), ('๋ผ์ด์ง', 19), ('์์ฒญ', 19), ('์ฒดํฌ์ธ', 19), ('๋ง์', 18), ('๋ช ๋', 17), ('๋ฐ', 17), ('๋๋ฆฌ', 17), ('์ต๊ณ ', 16), ('์ ๋ผ', 16), ('์๊ฐ', 15), ('์์กฐ', 15), ('๋ง', 15), ('๊ทผ์ฒ', 15), ('์์ธ', 15), ('์์ฌ', 15), ('์ฝ๋ก๋', 15), ('๋ถ๋ถ', 15), ('๋ก๋น', 15), ('๊ดํ๋ฌธ', 15), ('์ข', 14), ('ํธ์', 14), ('์ฒดํฌ', 14), ('์ฐ', 13), ('์ฒดํฌ์์', 13), ('๋๋น', 13), ('์กฐ์ฉ', 13), ('๋จผ์ง', 13), ('์ถ์ฒ', 13), ('์ฃผ์ฐจ์ฅ', 13), ('์ ํ', 13), ('์ด๋ฉ๋ํฐ', 13), ('๊ธฐ๋ถ', 13), ('์', 13), ('์ง', 12), ('์ ๊ทธ๋ ์ด๋', 12), ('ํ์ฅ์ค', 12), ('์นจ๋', 12), ('์ฌํญ', 12), ('๋ชจ๋ฅด', 12), ('๋ฐฉ์', 12), ('์๋ฐ', 12), ('๊ตํต', 12), ('์ฃผ์ฐจ', 12), ('๋นผ', 11), ('์ ์ฒด', 11), ('์๋ด', 11), ('์์ด์ปจ', 11), ('ํ์', 11), ('์ฆ๊ธฐ', 11), ('์คํ ์ด', 11), ('๊ฑด๋ฌผ', 11), ('์ฌ์ฉ', 11), ('๋์ค', 10), ('์ฌํ', 10), ('์ญ', 10), ('๋ฃจํ', 10), ('ํ', 10), ('๊ทธ๋ฌ', 10), ('์นจ๊ตฌ๋ฅ', 10), ('์ ๊ฒฝ', 10)]
๋ฐฉ์ํฌํจ๋ฆฌ์คํธ = ['์กฐ์ฉ','๋ฐฉ','์์น','๋ค๋ฆฌ','์๋ฆฌ','์๋ฐฉ','์์','์๋๋ฝ','์ ','๋ฐค','์๋ฒฝ','์ฃผ๋ณ','์์นจ','์กฐ๊ณ์ฌ']
๋ฐฉ์_list2 = []
for w in ๋ฐฉ์_list:
if w in ๋ฐฉ์ํฌํจ๋ฆฌ์คํธ:
๋ฐฉ์_list2.append(w)
์์นํฌํจ๋ฆฌ์คํธ = ['๊ฐ๊น','์ฃผ๋ณ','์ ๊ทผ์ฑ','๊ดํ๋ฌธ','๋ฐฉ','๋ช
๋','๊ฐ๊ฒฉ','๊ฐ์ค','ํธ์์ ','๋ทฐ','๊ทผ์ฒ','๋ฐฉ๋ฌธ','๊ตํต','๋ง','์ง','๊ฑท','์์ธ','์์ง๋ก','๊ฑฐ๋ฆฌ','์ฌํ','์ฃผ์ฐจ์ฅ','๋จ์ฐ','์งํ์ฒ ','์ข
๋ก','์ญ','์ธ์ฌ๋','์ด๋','๋๋ณด','์งํ์ฒ ์ญ','์๋น','๊ฒฝ๋ณต๊ถ','์ปคํผ']
์์น_list2 = []
for w in ์์น_list:
if w in ์์นํฌํจ๋ฆฌ์คํธ:
์์น_list2.append(w)
์ธํ
๋ฆฌ์ดํฌํจ๋ฆฌ์คํธ = ['๋ฐฉ','๋','์ข','๊น๋','์','ํฌ๊ธฐ','๋๋','์์กฐ','์์ค','๋ต๋ต','๋ด๋ถ','ํ
์ด๋ธ','๋ชจ๋','์ฌ์ด์ฆ']
์ธํ
๋ฆฌ์ด_list2 = []
for w in ์ธํ
๋ฆฌ์ด_list:
if w in ์ธํ
๋ฆฌ์ดํฌํจ๋ฆฌ์คํธ:
์ธํ
๋ฆฌ์ด_list2.append(w)
์น์ ํฌํจ๋ฆฌ์คํธ = ['์ง์','๋ฃธ','๊ฐ์ค','์๋','๋ง','์์ฒญ','์ฝ๋ก๋','์ฒดํฌ์์','์ ํ','๊ธฐ๋ถ','์๋ด','๋ฐฉ','์กฐ์','ํ๋ฐํธ','์๋น์ค','์ปจ๋์
','์์ฝ','์ฒดํฌ์ธ','์
๊ทธ๋ ์ด๋','๋ถํธ']
์น์ _list2 = []
for w in ์น์ _list:
if w in ์น์ ํฌํจ๋ฆฌ์คํธ:
์น์ _list2.append(w)
์ฒญ๊ฒฐํฌํจ๋ฆฌ์คํธ = ['๊ฐ์ค','์ํ','์์ค','์นจ๋','๋ฐฉ','๊นจ๋','๊น๋','๋จผ์ง','์นจ๊ตฌ','ํ์ฅ์ค','์ด๋ฉ๋ํฐ','์๊ฑด','์นจ๊ตฌ๋ฅ','์ ๊ฒฝ','์ฒญ์','์์กฐ','์ปจ๋์
','์พ์ ','๋จธ๋ฆฌ์นด๋ฝ','์์','๋์','๋ฌผ']
์ฒญ๊ฒฐ_list2 = []
for w in ์ฒญ๊ฒฐ_list:
if w in ์ฒญ๊ฒฐํฌํจ๋ฆฌ์คํธ:
์ฒญ๊ฒฐ_list2.append(w)
์์คํฌํจ๋ฆฌ์คํธ = ['์์น','๋ผ์ด์ง','์ฃผ์ฐจ','๋ก๋น','ํธ์์ ','ํฌ์ค','์กฐ์','๊ฐ์ค','๋','๊ฑด๋ฌผ','์๋ฆฌ๋ฒ ์ดํฐ','๋ฃจํ','๊ณต๊ฐ','์์์ฅ']
์์ค_list2 = []
for w in ์์ค_list:
if w in ์์คํฌํจ๋ฆฌ์คํธ:
์์ค_list2.append(w)
relations = []
#degrees = []
for x in ์์น_list2:
if x =='๊ฑท':
relations.append(("์์น",'๊ฑท๋ค'))
else:
relations.append(("์์น",x))
#degrees.append(v)
for x in ์ฒญ๊ฒฐ_list2:
relations.append(("์ฒญ๊ฒฐ",x))
for x in ์์ค_list2:
if x=='๋':
relations.append(("์์ค",'๋๋ค'))
else:
relations.append(("์์ค",x))
for x in ์น์ _list2:
relations.append(("์น์ ",x))
for x in ์ธํ
๋ฆฌ์ด_list2:
if x == '์ข':
relations.append(("์ธํ
๋ฆฌ์ด",'์ข๋ค'))
elif x =='์':
relations.append(("์ธํ
๋ฆฌ์ด",'์๋ค'))
elif x == '๋':
relations.append(("์ธํ
๋ฆฌ์ด",'๋๋ค'))
else:
relations.append(("์ธํ
๋ฆฌ์ด",x))
for x in ๋ฐฉ์_list2:
relations.append(("๋ฐฉ์",x))
from collections import Counter
c=Counter(relations)
ํฌํจ๋ฆฌ์คํธ = []
degree = {}
for k,v in c.items():
ํฌํจ๋ฆฌ์คํธ.append(k)
degree[k[1]] = v
degree
{'๋ทฐ': 49, '๊ทผ์ฒ': 44, '์ฃผ๋ณ': 9, '์์ง๋ก': 30, 'ํธ์์ ': 82, '๊ฐ๊ฒฉ': 52, '์ฃผ์ฐจ์ฅ': 25, '์งํ์ฒ ': 22, '๊ฐ์ค': 55, '๊ตํต': 32, '์ปคํผ': 14, '์ฌํ': 26, '๊ฑท๋ค': 31, '๋ง': 32, '์งํ์ฒ ์ญ': 15, '๊ฐ๊น': 81, '๋ช ๋': 55, '์ข ๋ก': 22, '๋ฐฉ': 25, '๊ฑฐ๋ฆฌ': 27, '์ ๊ทผ์ฑ': 77, '๋จ์ฐ': 25, '๋๋ณด': 16, '์ญ': 22, '๋ฐฉ๋ฌธ': 40, '์์ธ': 31, '์๋น': 15, '์ง': 32, '์ด๋': 17, '๊ฒฝ๋ณต๊ถ': 15, '์ธ์ฌ๋': 19, '๊ดํ๋ฌธ': 60, '๋จผ์ง': 39, '์ํ': 62, '์ฒญ์': 57, '์นจ๋': 40, '๊นจ๋': 290, '๊น๋': 34, '์์ค': 66, '์นจ๊ตฌ': 28, '์พ์ ': 19, '์๊ฑด': 18, '์์กฐ': 9, '์ปจ๋์ ': 28, 'ํ์ฅ์ค': 44, '์นจ๊ตฌ๋ฅ': 17, '๋์': 21, '์ ๊ฒฝ': 15, '์์': 22, '๋จธ๋ฆฌ์นด๋ฝ': 20, '์ด๋ฉ๋ํฐ': 17, '๋ฌผ': 16, '์์น': 22, '์์์ฅ': 13, 'ํฌ์ค': 14, '๊ณต๊ฐ': 18, '์ฃผ์ฐจ': 53, '๋๋ค': 63, '๋ก๋น': 24, '๊ฑด๋ฌผ': 23, '๋ฃจํ': 18, '๋ผ์ด์ง': 33, '์กฐ์': 44, '์๋ฆฌ๋ฒ ์ดํฐ': 20, '์ง์': 229, '์ฒดํฌ์์': 13, '๋ฃธ': 55, '์ ๊ทธ๋ ์ด๋': 12, '์๋น์ค': 44, '์์ฒญ': 19, '์์ฝ': 22, '์๋ด': 11, 'ํ๋ฐํธ': 36, '๋ถํธ': 24, '์๋': 22, '์ฒดํฌ์ธ': 19, '๋ง': 24, '์ฝ๋ก๋': 15, '์ ํ': 13, '๊ธฐ๋ถ': 13, '์์ค': 8, '์ข๋ค': 34, 'ํฌ๊ธฐ': 10, '๋๋': 10, '์ฌ์ด์ฆ': 5, '๋ชจ๋': 5, '์๋ค': 23, 'ํ ์ด๋ธ': 6, '๋ต๋ต': 6, '๋ด๋ถ': 8, '์๋๋ฝ': 16, '๋ค๋ฆฌ': 21, '์๋ฆฌ': 21, '์์นจ': 7, '์ ': 13, '๋ฐค': 10, '์กฐ์ฉ': 28, '์๋ฐฉ': 21, '์๋ฒฝ': 10, '์์': 21, '์กฐ๊ณ์ฌ': 5}
ํฌํจ๋ฆฌ์คํธ
[('์์น', '๋ทฐ'), ('์์น', '๊ทผ์ฒ'), ('์์น', '์ฃผ๋ณ'), ('์์น', '์์ง๋ก'), ('์์น', 'ํธ์์ '), ('์์น', '๊ฐ๊ฒฉ'), ('์์น', '์ฃผ์ฐจ์ฅ'), ('์์น', '์งํ์ฒ '), ('์์น', '๊ฐ์ค'), ('์์น', '๊ตํต'), ('์์น', '์ปคํผ'), ('์์น', '์ฌํ'), ('์์น', '๊ฑท๋ค'), ('์์น', '๋ง'), ('์์น', '์งํ์ฒ ์ญ'), ('์์น', '๊ฐ๊น'), ('์์น', '๋ช ๋'), ('์์น', '์ข ๋ก'), ('์์น', '๋ฐฉ'), ('์์น', '๊ฑฐ๋ฆฌ'), ('์์น', '์ ๊ทผ์ฑ'), ('์์น', '๋จ์ฐ'), ('์์น', '๋๋ณด'), ('์์น', '์ญ'), ('์์น', '๋ฐฉ๋ฌธ'), ('์์น', '์์ธ'), ('์์น', '์๋น'), ('์์น', '์ง'), ('์์น', '์ด๋'), ('์์น', '๊ฒฝ๋ณต๊ถ'), ('์์น', '์ธ์ฌ๋'), ('์์น', '๊ดํ๋ฌธ'), ('์ฒญ๊ฒฐ', '๋จผ์ง'), ('์ฒญ๊ฒฐ', '์ํ'), ('์ฒญ๊ฒฐ', '์ฒญ์'), ('์ฒญ๊ฒฐ', '์นจ๋'), ('์ฒญ๊ฒฐ', '๊นจ๋'), ('์ฒญ๊ฒฐ', '๊น๋'), ('์ฒญ๊ฒฐ', '์์ค'), ('์ฒญ๊ฒฐ', '์นจ๊ตฌ'), ('์ฒญ๊ฒฐ', '์พ์ '), ('์ฒญ๊ฒฐ', '์๊ฑด'), ('์ฒญ๊ฒฐ', '๋ฐฉ'), ('์ฒญ๊ฒฐ', '์์กฐ'), ('์ฒญ๊ฒฐ', '๊ฐ์ค'), ('์ฒญ๊ฒฐ', '์ปจ๋์ '), ('์ฒญ๊ฒฐ', 'ํ์ฅ์ค'), ('์ฒญ๊ฒฐ', '์นจ๊ตฌ๋ฅ'), ('์ฒญ๊ฒฐ', '๋์'), ('์ฒญ๊ฒฐ', '์ ๊ฒฝ'), ('์ฒญ๊ฒฐ', '์์'), ('์ฒญ๊ฒฐ', '๋จธ๋ฆฌ์นด๋ฝ'), ('์ฒญ๊ฒฐ', '์ด๋ฉ๋ํฐ'), ('์ฒญ๊ฒฐ', '๋ฌผ'), ('์์ค', '์์น'), ('์์ค', '์์์ฅ'), ('์์ค', 'ํฌ์ค'), ('์์ค', 'ํธ์์ '), ('์์ค', '๊ณต๊ฐ'), ('์์ค', '์ฃผ์ฐจ'), ('์์ค', '๋๋ค'), ('์์ค', '๋ก๋น'), ('์์ค', '๊ฑด๋ฌผ'), ('์์ค', '๋ฃจํ'), ('์์ค', '๋ผ์ด์ง'), ('์์ค', '์กฐ์'), ('์์ค', '๊ฐ์ค'), ('์์ค', '์๋ฆฌ๋ฒ ์ดํฐ'), ('์น์ ', '์ง์'), ('์น์ ', '์ฒดํฌ์์'), ('์น์ ', '๊ฐ์ค'), ('์น์ ', '๋ฃธ'), ('์น์ ', '์ปจ๋์ '), ('์น์ ', '์ ๊ทธ๋ ์ด๋'), ('์น์ ', '์๋น์ค'), ('์น์ ', '์์ฒญ'), ('์น์ ', '์์ฝ'), ('์น์ ', '๋ฐฉ'), ('์น์ ', '์๋ด'), ('์น์ ', 'ํ๋ฐํธ'), ('์น์ ', '๋ถํธ'), ('์น์ ', '์๋'), ('์น์ ', '์ฒดํฌ์ธ'), ('์น์ ', '์กฐ์'), ('์น์ ', '๋ง'), ('์น์ ', '์ฝ๋ก๋'), ('์น์ ', '์ ํ'), ('์น์ ', '๊ธฐ๋ถ'), ('์ธํ ๋ฆฌ์ด', '๋๋ค'), ('์ธํ ๋ฆฌ์ด', '๋ฐฉ'), ('์ธํ ๋ฆฌ์ด', '์์ค'), ('์ธํ ๋ฆฌ์ด', '์ข๋ค'), ('์ธํ ๋ฆฌ์ด', '๊น๋'), ('์ธํ ๋ฆฌ์ด', 'ํฌ๊ธฐ'), ('์ธํ ๋ฆฌ์ด', '๋๋'), ('์ธํ ๋ฆฌ์ด', '์ฌ์ด์ฆ'), ('์ธํ ๋ฆฌ์ด', '์์กฐ'), ('์ธํ ๋ฆฌ์ด', '๋ชจ๋'), ('์ธํ ๋ฆฌ์ด', '์๋ค'), ('์ธํ ๋ฆฌ์ด', 'ํ ์ด๋ธ'), ('์ธํ ๋ฆฌ์ด', '๋ต๋ต'), ('์ธํ ๋ฆฌ์ด', '๋ด๋ถ'), ('๋ฐฉ์', '์๋๋ฝ'), ('๋ฐฉ์', '์ฃผ๋ณ'), ('๋ฐฉ์', '๋ค๋ฆฌ'), ('๋ฐฉ์', '๋ฐฉ'), ('๋ฐฉ์', '์๋ฆฌ'), ('๋ฐฉ์', '์์นจ'), ('๋ฐฉ์', '์ '), ('๋ฐฉ์', '์์น'), ('๋ฐฉ์', '๋ฐค'), ('๋ฐฉ์', '์กฐ์ฉ'), ('๋ฐฉ์', '์๋ฐฉ'), ('๋ฐฉ์', '์๋ฒฝ'), ('๋ฐฉ์', '์์'), ('๋ฐฉ์', '์กฐ๊ณ์ฌ')]
G1.nodes()
NodeView(('์์น', '๋ทฐ', '๊ทผ์ฒ', '์ฃผ๋ณ', '์์ง๋ก', 'ํธ์์ ', '๊ฐ๊ฒฉ', '์ฃผ์ฐจ์ฅ', '์งํ์ฒ ', '๊ฐ์ค', '๊ตํต', '์ปคํผ', '์ฌํ', '๊ฑท๋ค', '๋ง', '์งํ์ฒ ์ญ', '๊ฐ๊น', '๋ช ๋', '์ข ๋ก', '๋ฐฉ', '๊ฑฐ๋ฆฌ', '์ ๊ทผ์ฑ', '๋จ์ฐ', '๋๋ณด', '์ญ', '๋ฐฉ๋ฌธ', '์์ธ', '์๋น', '์ง', '์ด๋', '๊ฒฝ๋ณต๊ถ', '์ธ์ฌ๋', '๊ดํ๋ฌธ', '์ฒญ๊ฒฐ', '๋จผ์ง', '์ํ', '์ฒญ์', '์นจ๋', '๊นจ๋', '๊น๋', '์์ค', '์นจ๊ตฌ', '์พ์ ', '์๊ฑด', '์์กฐ', '์ปจ๋์ ', 'ํ์ฅ์ค', '์นจ๊ตฌ๋ฅ', '๋์', '์ ๊ฒฝ', '์์', '๋จธ๋ฆฌ์นด๋ฝ', '์ด๋ฉ๋ํฐ', '๋ฌผ', '์์์ฅ', 'ํฌ์ค', '๊ณต๊ฐ', '์ฃผ์ฐจ', '๋๋ค', '๋ก๋น', '๊ฑด๋ฌผ', '๋ฃจํ', '๋ผ์ด์ง', '์กฐ์', '์๋ฆฌ๋ฒ ์ดํฐ', '์น์ ', '์ง์', '์ฒดํฌ์์', '๋ฃธ', '์ ๊ทธ๋ ์ด๋', '์๋น์ค', '์์ฒญ', '์์ฝ', '์๋ด', 'ํ๋ฐํธ', '๋ถํธ', '์๋', '์ฒดํฌ์ธ', '๋ง', '์ฝ๋ก๋', '์ ํ', '๊ธฐ๋ถ', '์ธํ ๋ฆฌ์ด', '์์ค', '์ข๋ค', 'ํฌ๊ธฐ', '๋๋', '์ฌ์ด์ฆ', '๋ชจ๋', '์๋ค', 'ํ ์ด๋ธ', '๋ต๋ต', '๋ด๋ถ', '๋ฐฉ์', '์๋๋ฝ', '๋ค๋ฆฌ', '์๋ฆฌ', '์์นจ', '์ ', '๋ฐค', '์กฐ์ฉ', '์๋ฐฉ', '์๋ฒฝ', '์์', '์กฐ๊ณ์ฌ'))
degree = {'์์น':50,'๋ทฐ': 49,'๊ทผ์ฒ': 44,'์ฃผ๋ณ': 9,'์์ง๋ก': 30,'ํธ์์ ': 82,'๊ฐ๊ฒฉ': 52,'์ฃผ์ฐจ์ฅ': 25,'์งํ์ฒ ': 22,'๊ฐ์ค': 55,'๊ตํต': 32,'์ปคํผ': 14,'์ฌํ': 26,'๊ฑท๋ค': 31,'๋ง': 32,'์งํ์ฒ ์ญ': 15,'๊ฐ๊น': 81,'๋ช
๋': 55,'์ข
๋ก': 22,'๋ฐฉ': 25,'๊ฑฐ๋ฆฌ': 27,'์ ๊ทผ์ฑ': 77,'๋จ์ฐ': 25,'๋๋ณด': 16,'์ญ': 22,'๋ฐฉ๋ฌธ': 40,'์์ธ': 31,'์๋น': 15,'์ง': 32,'์ด๋': 17,'๊ฒฝ๋ณต๊ถ': 15,'์ธ์ฌ๋': 19,'๊ดํ๋ฌธ': 60,
'์ฒญ๊ฒฐ':50,'๋จผ์ง': 39,'์ํ': 62,'์ฒญ์': 57,'์นจ๋': 40,'๊นจ๋': 290,'๊น๋': 34,'์์ค': 66,'์นจ๊ตฌ': 28,'์พ์ ': 19,'์๊ฑด': 18,'์์กฐ': 9,'์ปจ๋์
': 28,'ํ์ฅ์ค': 44,'์นจ๊ตฌ๋ฅ': 17,'๋์': 21,'์ ๊ฒฝ': 15,'์์': 22,'๋จธ๋ฆฌ์นด๋ฝ': 20,'์ด๋ฉ๋ํฐ': 17,'๋ฌผ': 16,'์์์ฅ': 13,'ํฌ์ค': 14,'๊ณต๊ฐ': 18,'์ฃผ์ฐจ': 53,'๋๋ค': 63,'๋ก๋น': 24,'๊ฑด๋ฌผ': 23,'๋ฃจํ': 18,'๋ผ์ด์ง': 33,'์กฐ์': 44,'์๋ฆฌ๋ฒ ์ดํฐ': 20,
'์น์ ':50,'์ง์': 229,'์ฒดํฌ์์': 13,'๋ฃธ': 55,'์
๊ทธ๋ ์ด๋': 12,'์๋น์ค': 44,'์์ฒญ': 19,'์์ฝ': 22 ,'์๋ด': 11,'ํ๋ฐํธ': 36,'๋ถํธ': 24,'์๋': 22,'์ฒดํฌ์ธ': 19,'๋ง': 24,'์ฝ๋ก๋': 15,'์ ํ': 13,'๊ธฐ๋ถ': 13,
'์ธํ
๋ฆฌ์ด':50,'์์ค': 8,'์ข๋ค': 34,'ํฌ๊ธฐ': 10,'๋๋': 10,'์ฌ์ด์ฆ': 5,'๋ชจ๋': 5,'์๋ค': 23,'ํ
์ด๋ธ': 6,'๋ต๋ต': 6,'๋ด๋ถ': 8,
'๋ฐฉ์':50,'์๋๋ฝ': 16,'๋ค๋ฆฌ': 21,'์๋ฆฌ': 21,'์์นจ': 7,'์ ': 13,'๋ฐค': 10,'์กฐ์ฉ': 28,'์๋ฐฉ': 21,'์๋ฒฝ': 10,'์์': 21,'์กฐ๊ณ์ฌ': 5}
df.head(1)
site | hotel | score | review | date | star | length | review_spell_check | helpful | attitude | ์์น | ์์ค | ์ธํ ๋ฆฌ์ด | ์ฒญ๊ฒฐ | ์น์ | ๋ฐฉ์ | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | ์๊ณ ๋ค | ๋์ธํธ๋ฆฌ ํ๋ฆฌ๋ฏธ์ด ๋ช ๋2 | 10.0 | ๋ทฐ ์ข๊ณ ์์น ์ข๊ณ ๊นจ๋ํ๊ณ ์ต๊ณ ์ ๋๋ค | NaN | NaN | 22 | ๋ทฐ ์ข๊ณ ์์น ์ข๊ณ ๊นจ๋ํ๊ณ ์ต๊ณ ์ ๋๋ค | 1 | 2 | 1 | 0 | 0 | 0 | 0 | 0 |
plt.figure(figsize=(30,15))
plt.axis('off')
G1 = nx.Graph()
G1.add_edges_from(ํฌํจ๋ฆฌ์คํธ, color='blue')
--------------------------------------------------------------------------- NameError Traceback (most recent call last) <ipython-input-20-e32cf466b10b> in <module> ----> 1 pr = nx.pagerank(G1) 2 plt.figure(figsize=(30,15)) 3 plt.axis('off') 4 G1 = nx.Graph() 5 G1.add_edges_from(ํฌํจ๋ฆฌ์คํธ, color='blue') NameError: name 'G1' is not defined
pr
{'์์น': 0.13701934793915285, '๋ทฐ': 0.004854271699353748, '๊ทผ์ฒ': 0.004854271699353748, '์ฃผ๋ณ': 0.008352305929940032, '์์ง๋ก': 0.004854271699353748, 'ํธ์์ ': 0.008116050882456706, '๊ฐ๊ฒฉ': 0.004854271699353748, '์ฃผ์ฐจ์ฅ': 0.004854271699353748, '์งํ์ฒ ': 0.004854271699353748, '๊ฐ์ค': 0.014875112171357048, '๊ตํต': 0.004854271699353748, '์ปคํผ': 0.004854271699353748, '์ฌํ': 0.004854271699353748, '๊ฑท๋ค': 0.004854271699353748, '๋ง': 0.004854271699353748, '์งํ์ฒ ์ญ': 0.004854271699353748, '๊ฐ๊น': 0.004854271699353748, '๋ช ๋': 0.004854271699353748, '์ข ๋ก': 0.004854271699353748, '๋ฐฉ': 0.018509628148341773, '๊ฑฐ๋ฆฌ': 0.004854271699353748, '์ ๊ทผ์ฑ': 0.004854271699353748, '๋จ์ฐ': 0.004854271699353748, '๋๋ณด': 0.004854271699353748, '์ญ': 0.004854271699353748, '๋ฐฉ๋ฌธ': 0.004854271699353748, '์์ธ': 0.004854271699353748, '์๋น': 0.004854271699353748, '์ง': 0.004854271699353748, '์ด๋': 0.004854271699353748, '๊ฒฝ๋ณต๊ถ': 0.004854271699353748, '์ธ์ฌ๋': 0.004854271699353748, '๊ดํ๋ฌธ': 0.004854271699353748, '์ฒญ๊ฒฐ': 0.0860439334923585, '๋จผ์ง': 0.004753430020550088, '์ํ': 0.004753430020550088, '์ฒญ์': 0.004753430020550088, '์นจ๋': 0.004753430020550088, '๊นจ๋': 0.004753430020550088, '๊น๋': 0.00815169095005149, '์์ค': 0.0575592709692868, '์นจ๊ตฌ': 0.004753430020550088, '์พ์ ': 0.004753430020550088, '์๊ฑด': 0.004753430020550088, '์์กฐ': 0.00815169095005149, '์ปจ๋์ ': 0.00818763271747177, 'ํ์ฅ์ค': 0.004753430020550088, '์นจ๊ตฌ๋ฅ': 0.004753430020550088, '๋์': 0.004753430020550088, '์ ๊ฒฝ': 0.004753430020550088, '์์': 0.004753430020550088, '๋จธ๋ฆฌ์นด๋ฝ': 0.004753430020550088, '์ด๋ฉ๋ํฐ': 0.004753430020550088, '๋ฌผ': 0.004753430020550088, '์์์ฅ': 0.004690350611674388, 'ํฌ์ค': 0.004690350611674388, '๊ณต๊ฐ': 0.004690350611674388, '์ฃผ์ฐจ': 0.004690350611674388, '๋๋ค': 0.00808861154117579, '๋ก๋น': 0.004690350611674388, '๊ฑด๋ฌผ': 0.004690350611674388, '๋ฃจํ': 0.004690350611674388, '๋ผ์ด์ง': 0.004690350611674388, '์กฐ์': 0.00812455330859607, '์๋ฆฌ๋ฒ ์ดํฐ': 0.004690350611674388, '์น์ ': 0.08079230843403845, '์ง์': 0.004862774125493112, '์ฒดํฌ์์': 0.004862774125493112, '๋ฃธ': 0.004862774125493112, '์ ๊ทธ๋ ์ด๋': 0.004862774125493112, '์๋น์ค': 0.004862774125493112, '์์ฒญ': 0.004862774125493112, '์์ฝ': 0.004862774125493112, '์๋ด': 0.004862774125493112, 'ํ๋ฐํธ': 0.004862774125493112, '๋ถํธ': 0.004862774125493112, '์๋': 0.004862774125493112, '์ฒดํฌ์ธ': 0.004862774125493112, '๋ง': 0.004862774125493112, '์ฝ๋ก๋': 0.004862774125493112, '์ ํ': 0.004862774125493112, '๊ธฐ๋ถ': 0.004862774125493112, '์ธํ ๋ฆฌ์ด': 0.05596294679804124, '์์ค': 0.0048268323580728315, '์ข๋ค': 0.0048268323580728315, 'ํฌ๊ธฐ': 0.0048268323580728315, '๋๋': 0.0048268323580728315, '์ฌ์ด์ฆ': 0.0048268323580728315, '๋ชจ๋': 0.0048268323580728315, '์๋ค': 0.0048268323580728315, 'ํ ์ด๋ธ': 0.0048268323580728315, '๋ต๋ต': 0.0048268323580728315, '๋ด๋ถ': 0.0048268323580728315, '๋ฐฉ์': 0.057611900512551446, '์๋๋ฝ': 0.004926605659157713, '๋ค๋ฆฌ': 0.004926605659157713, '์๋ฆฌ': 0.004926605659157713, '์์นจ': 0.004926605659157713, '์ ': 0.004926605659157713, '๋ฐค': 0.004926605659157713, '์กฐ์ฉ': 0.004926605659157713, '์๋ฐฉ': 0.004926605659157713, '์๋ฒฝ': 0.004926605659157713, '์์': 0.004926605659157713, '์กฐ๊ณ์ฌ': 0.004926605659157713}
plt.figure(figsize=(35,20))
plt.axis('off')
G1 = nx.Graph()
G1.add_edges_from(ํฌํจ๋ฆฌ์คํธ, color='blue')
pos=nx.random_layout(G1)
pr = nx.pagerank(G1)
#nx.draw_circular(G)
nx.draw_networkx(G1
,node_size=[v*100 for k,v in degree.items()]
,alpha=0.7
,font_family='AppleGothic'
,font_size=25
,edge_color='.5'
,font_color='black'
,node_color=list(pr.values())
,cmap=plt.cm.Oranges
)
#nx.draw_networkx_labels(G1, pos, font_family='AppleGothic',font_size=20,edge_color='.5')
plt.savefig("Graph1.png", format="PNG")
plt.show()
plt.savefig("Graph.png", format="PNG")
<Figure size 432x288 with 0 Axes>
nx.write_graphml(G1, 'data/๊ทธ๋ํ.graphml')