gensim library를 활용하여 embedding vetor를 train 해보자. Data load from gensim.models import Word2Vec, KeyedVectors from torchtext import data, datasets train_iter = datasets.IMDB(split='train') train_text = [] for label, text in train_iter: train_text.append(text.lower().replace(' ','')) torchtext dataset에 있는 IMDB 데이터를 활용해 model을 train했다. Train - sg가 1이면 skip-gram, 0이면 CBOW model = Word2Vec(sentences=t..
1. dictionary key 이름 변경 : pop을 이용해 기존의 value를 꺼내서 새로운 key name에 할당 def change_key(x, name): ''' x : 기존의 dictionary name : {before key : after key} ''' for bf, af in name.items(): if bf in x.keys(): x[af] = x.pop(bf) return x # 예제 x = {'한국어':'안녕하세요','영어':'hello', '중국어':'ni-hao'} name={'한국어':'Korean','영어':'English'} change_key(x) # {'중국어': 'ni-hao', 'Korean': '안녕하세요', 'English': 'hello'} 2. dictio..
In [1]: import numpy as np import pandas as pd 1. 데이터셋 확인, 전처리¶ Kaggle의 유방암 데이터셋을 활용해 해당 데이터가 양성인지 악성인지 구분하는 calssification 문제를 해결하고자 함 (https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data) In [2]: data = pd.read_csv('./data/data.csv') 1) 컬럼, 결측값 확인¶ diagnosis : 진단결과 (B 양성, M: 악성) In [3]: data.info() RangeIndex: 569 entries, 0 to 568 Data columns (total 33 columns): # Column Non-N..