# NLP_NER_Transformer/data_proc.ipynb
# 说明:B表示begin,I表示in。B_T表示时间实体的开头,I_T表示时间实体内部字符。LOC表示地点实体(location),ORG表示机构实体(organization),PER表示人物实体(PERSON)
# 数据在txt中以行为基本单位,一行对应一个完整的句子
train_DATA_path="data/train.txt"
char_counter = Counter()
with open(train_DATA_path, "r", encoding="utf-8") as f:
chars = line.strip().split()
char_counter.update(chars)
for ch, _ in char_counter.items():
char2id[ch] = len(char2id)
id2char = {idx: ch for ch, idx in char2id.items()}