[Dacon] 소설 작가 분류 AI 경진대회_코드공유
소설 작가 분류 경진대회 소개 및 설명
DACON 소설 작가 분류 AI 경진대회
데이콘은 많이 알고 계실거라고 생각합니다.
한국의 Kaggle이라고 불러도 과언이 아닐만큼 국내에서 활발하게 경진대회를 참여할 수 있는 곳이라고 생각합니다.
기간: 2020.10.29 ~ 2020.12.04 17:59
상금: 100만원+애플워치
참가팀: 271팀 (2020.11.02 17:00 기준) *자세한 정보가 궁금하시다면 위의 링크를 들어가시면 됩니다.
-
주제 문체 분석 알고리즘 개발
-
배경 a. 작가의 글을 분석하여 특징 도출 b. 취향 추천 시스템 활용 / 대필, 유사작 탐지
-
대회 설명 소설 속 문장뭉치 분석을 통한 저자 예측
-
주최/주관 주최: DACON 주관: DACON 후원: 이노베이션 아카데미
-
참가 대상 AI 혹은 빅데이터에 관심 있는 누구나
-
유저평가 DACON Scholarship을 받고자 하는 팀은 유저평가를 받아야 함
베이스라인 코드 공유
저는 베이스라인 코드를 공유된 것을 갖고 해보았습니다.
베이스 라인이 Colab을 이용하게 되어있어서 코랩을 사용하고자 했습니다.
그러던 도중…
아? nltk가 없다고여??????
그럼 다시 설치를 하면 됩니다.
아..? 있네 없을리가 없죠.. 작년에 nlp를 했으니 흠.. 근데 저장소 위치가 문제이것 같습니다.
usr 또는 root에 nltk_data가 위치해야 하는것 같네요 하지만 리눅스를 잘모르는 저는..
Jupyter notebook으로 갈아탔습니다 하핳ㅎㅎ
기존에 있던 코드중 stop_word만 nltk로 구성했습니다.
간단한 모델 요약입니다.
- embedding_1 한번으로 500, 16
- average_pooling 1D를 사용
- Dense는 24에서 5로 줄어드네요 앞의 값이 None인 이유는 들어올 값이 몇개인지 확정짓지 않았기 때문입니다. 데이터 Input에 맞춰서 조정이 될 것이기 때문입니다.
20번의 epoch를 돌렸지만 그렇게 썩.. 결과가 좋지는 않네요.
모델좀 손봐야겠어요
결과
이제 제출을 해봤습니다!!
오… 기본 코드로 46위이네요 언제이런 순위에 있을 수 있을까요.
오늘 뿐이겠죠,,,