DACON 소설 작가 분류 AI 경진대회

데이콘은 많이 알고 계실거라고 생각합니다.
한국의 Kaggle이라고 불러도 과언이 아닐만큼 국내에서 활발하게 경진대회를 참여할 수 있는 곳이라고 생각합니다.

소설 작가 분류 AI 경진대회

기간: 2020.10.29 ~ 2020.12.04 17:59
상금: 100만원+애플워치
참가팀: 271팀 (2020.11.02 17:00 기준) *자세한 정보가 궁금하시다면 위의 링크를 들어가시면 됩니다.

  1. 주제 문체 분석 알고리즘 개발

  2. 배경 a. 작가의 글을 분석하여 특징 도출 b. 취향 추천 시스템 활용 / 대필, 유사작 탐지

  3. 대회 설명 소설 속 문장뭉치 분석을 통한 저자 예측

  4. 주최/주관 주최: DACON 주관: DACON 후원: 이노베이션 아카데미

  5. 참가 대상 AI 혹은 빅데이터에 관심 있는 누구나

  6. 유저평가 DACON Scholarship을 받고자 하는 팀은 유저평가를 받아야 함

베이스라인 코드 공유

저는 베이스라인 코드를 공유된 것을 갖고 해보았습니다.

베이스 라인이 Colab을 이용하게 되어있어서 코랩을 사용하고자 했습니다.
그러던 도중…

nltk오류

아? nltk가 없다고여??????

그럼 다시 설치를 하면 됩니다.

pip_nltk

아..? 있네 없을리가 없죠.. 작년에 nlp를 했으니 흠.. 근데 저장소 위치가 문제이것 같습니다.
usr 또는 root에 nltk_data가 위치해야 하는것 같네요 하지만 리눅스를 잘모르는 저는..
Jupyter notebook으로 갈아탔습니다 하핳ㅎㅎ

기존에 있던 코드중 stop_word만 nltk로 구성했습니다.

model_summary

간단한 모델 요약입니다.

  • embedding_1 한번으로 500, 16
  • average_pooling 1D를 사용
  • Dense는 24에서 5로 줄어드네요 앞의 값이 None인 이유는 들어올 값이 몇개인지 확정짓지 않았기 때문입니다. 데이터 Input에 맞춰서 조정이 될 것이기 때문입니다.

epoch

20번의 epoch를 돌렸지만 그렇게 썩.. 결과가 좋지는 않네요.
모델좀 손봐야겠어요

결과

이제 제출을 해봤습니다!!

순위표

오… 기본 코드로 46위이네요 언제이런 순위에 있을 수 있을까요.
오늘 뿐이겠죠,,,