티스토리 뷰
huggingface 에서 tokenizer 가져와서 나의 dataset으로 추가 학습하기
from transformers import AutoTokenizer
import pandas as pd
def batch_iterator(text, batch_size = 1000):
for i in range(0, len(text), batch_size):
yield text[i : i + batch_size]
def main():
# data
df = pd.read_pickle('train_data.pkl')
text = df.text.tolist()
# base tokenizer
# tokenizer.is_fast==True인 경우에만 가능
tokenizer = AutoTokenizer.from_pretrained("gogamza/kobart-summarization")
# train
tokenizer = tokenizer.train_new_from_iterator(batch_iterator(text), vocab_size=30000)
# save
tokenizer.save_pretrained("mytokenizer")
return tokenizer'NLP' 카테고리의 다른 글
| huggingface Transformer 학습 시 생성되는 checkpoint (1) | 2024.04.01 |
|---|---|
| huggingface repository create / delete / clone / push (0) | 2024.03.28 |
| [NLP] gensim Word2Vec을 이용한 embedding vector train (0) | 2023.03.26 |
| [NLP] word embedding - CBOW (0) | 2023.03.04 |
댓글
