머신러닝

0. 머신러닝

위키독스 “딥 러닝을 이용한 자연어 처리 입문” 챕터 01~06을 학습하는 중입니다.

(X_train, X_test, y_train, y_test) = train_test_split(data_X, data_y, train_size=0.8, random_state=1)

출력값>= 0.5->1(True) 출력값<= 0.5->0(False)

model.add(Dense(1, input_dim=1, activation='sigmoid'))

model.compile(optimizer=sgd, loss='binary_crossentropy', metrics=['binary_accuracy'])

model.add(Dense(1, input_dim=2, activation='sigmoid'))

model.add(Dense(1, input_dim=3, activation='linear'))

model.add(Dense(3, input_dim=4, activation='softmax'))

y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

model.add(Dense(1, input_dim=3, activation='linear'))

: 정답과 함께 학습

ex)자연어 처리

: 별도의 레이블이 없이 학습

ex)텍스트 처리 분야 토픽 모델링 알고리즘 LSA/LDA

: 레이블을 만들어서 학습

ex)워드 임베딩 알고리즘 Word2Vec, 언어 모델 BERT

: TP/(TP+FP)

: TP/(TP+FN)

: TP+TN/(TP+FN+FP+TN), F1-Score

: y=wx+b

: x는 여러 개

회귀: Mean Squared Error

cost = mse_loss(y_pred, y)
model.compile(optimizer=sgd, loss='mse', metrics=['mse'])

경사하강법(Gradient Descent)

0<학습률(learning rate) α<1

optimizer = tf.optimizers.SGD(0.01)
sgd = optimizers.SGD(lr=0.01)

자연어 처리 (batch_size, timesteps, word_dim)