지난 며칠간 논문 모델 수정에 전력을 다했다. 코드 리뷰를 하다가 train dataset의 score보다 test dataset의 score가 더 높은 것이 이상해 코드를 살펴보니, 내가 모델을 학습할 때 쓴 X_scaled 데이터를 그래도 test를 할 때 사용했던 것이다.
이미 학습한 내용을 가지고 test를 하니 정확도가 잘 나올 수 밖에.. (아마 이를 underfitting 이라 했던 것 같다)
없었던 data split을 추가하고, 로지스틱 선형 회귀 모델뿐 아니라 랜덤포레스트, 그레디언트 부스팅, 히스토그램 기반 그레디언트 부스팅 등 여러 모델에 학습을 시켜 score을 구했다.
그 결과 히스토그램 기반 그레디언트 부스팅 모델의 성적이 67% 정도로 가장 높았다. 이 모델에 대해 아직 잘 모르지만, 좋은 모델이라는 설명을 강의에서 들었기 때문에 신뢰가 갔다.
시험삼아 새롭게 녹음한 음향 데이터로 이 모델을 테스트 해보았는데, 핸드폰을 가로로 놓았을 때 오른쪽, 즉 세로로 보았을 때 아래쪽 마이크로 대부분의 소리가 녹음된 것 같았다. (추론일 뿐이다. 그러나 left label 소리 데이터에 대한 score이 10%대, right label 소리 데이터에 대한 score는 80%대였다. 어떠한 소리라도 right쪽에서 나는 것이라고 예측하는 것이다.)
이러한 상황에서 오늘 교수님과 세미나를 진행했다. 우선, 머신러닝 모델은 큰 문제가 없는 것 같았다. 그러나 내가 녹음한, 핸드폰을 가로로 놓는 방식은 잘못됐다고 교수님께서 조언해주셨다. 핸드폰을 세로로 놓고 왼쪽/오른쪽을 나눠서 녹음을 해야한다는, 새로운 소리 녹음 방식이 필요하다는 것이다. (사실 핸드폰을 가로로 놓아야 한다고 생각한 것은 전적으로 내 오판이다.)
또한, 다음주까지 해야 할 과제들이 많이 생겼다.
모델을 학습시킨 소리 데이터가 정확하지 않은 것이 사실이기에, 지금으로서는 온라인으로 well design되어 업로드 되어있는, localization이 구분된 소리 데이터를 구해 학습시켜보는 것이 필요하다. 그 후 추가적으로 우리 학교에 있는 무음실에서 소리 데이터 녹음을 해 학습을 해야한다. 좋은 데이터로 학습을 재개한다면, 현재 67%의 정확도는 사실 중요한 부분이 아닐 것이다.
또한 머신러닝, 비교 실험, 어플리케이션 개발 등 나의 논문의 중요 내용들과 중복되는 선행 연구, 논문들을 찾아 앞으로 어떤 형식으로 써야할지에 대한 reference를 찾아야 한다.
추가적으로, 머신러닝 데이터를 불러올 때 특정 주파수 영역대만 걸러서 불러올 수 있도록 filter을 하는 라이브러리/방법이 있는지도 찾아보아야한다. 앱/웹 만들기는 그 다음 문제이다.
할 일이 많지만, 아예 논문을 포기할까 생각했던 이틀 전에 비해 상황이 많이 나아졌다. 아무대로 모델을 다시 고치는 작업이 프로젝트를 처음 진행하는 나에겐 매우 어려웠기 때문이었다. 그러나 현재는 나름 성공적으로 모델을 구축했다. 또한 이제 나아가야 할 뚜렷한 방향과 과제들이 생겼다. 열심히 기도하며 노력해야겠다.
'논문' 카테고리의 다른 글
제1 저자 논문_한국HCI학회_머신러닝 기반 앱 개발 및 디자인 (0) | 2023.01.14 |
---|---|
anvil로 모바일 웹 만들기 - 2개의 fileloader로부터 각각 소리를 입력받아 그 크기를 비교하는 알고리즘 제작 중 어려움 해결 (0) | 2022.01.31 |
8월 30일 논문 진척 상황 (검증된 데이터셋 찾기, 찾은 데이터셋 내 모델에 적용하기) (0) | 2021.08.30 |
8월 17일 현재 논문 진척 상황 (0) | 2021.08.17 |
HCI Machine Learning Paper step 1. Making a Prototype (0) | 2021.08.06 |