본문 바로가기
[Python] Programmers/Level2

[프로그래머스/Level2] 후보키(2019 카카오 블라인드)

by 파크영 2021. 9. 2.

문제 설명

프렌즈대학교 컴퓨터공학과 조교인 제이지는 네오 학과장님의 지시로, 학생들의 인적사항을 정리하는 업무를 담당하게 되었다.

그의 학부 시절 프로그래밍 경험을 되살려, 모든 인적사항을 데이터베이스에 넣기로 하였고, 이를 위해 정리를 하던 중에 후보 키(Candidate Key)에 대한 고민이 필요하게 되었다.

후보 키에 대한 내용이 잘 기억나지 않던 제이지는, 정확한 내용을 파악하기 위해 데이터베이스 관련 서적을 확인하여 아래와 같은 내용을 확인하였다.

 

  • 관계 데이터베이스에서 릴레이션(Relation)의 튜플(Tuple)을 유일하게 식별할 수 있는 속성(Attribute) 또는 속성의 집합 중, 다음 두 성질을 만족하는 것을 후보 키(Candidate Key)라고 한다.
    • 유일성(uniqueness) : 릴레이션에 있는 모든 튜플에 대해 유일하게 식별되어야 한다.
    • 최소성(minimality) : 유일성을 가진 키를 구성하는 속성(Attribute) 중 하나라도 제외하는 경우 유일성이 깨지는 것을 의미한다. 즉, 릴레이션의 모든 튜플을 유일하게 식별하는 데 꼭 필요한 속성들로만 구성되어야 한다.

 

제이지를 위해, 아래와 같은 학생들의 인적사항이 주어졌을 때, 후보 키의 최대 개수를 구하라.

 

위의 예를 설명하면, 학생의 인적사항 릴레이션에서 모든 학생은 각자 유일한 "학번"을 가지고 있다. 따라서 "학번"은 릴레이션의 후보 키가 될 수 있다.
그다음 "이름"에 대해서는 같은 이름("apeach")을 사용하는 학생이 있기 때문에, "이름"은 후보 키가 될 수 없다. 그러나, 만약 ["이름", "전공"]을 함께 사용한다면 릴레이션의 모든 튜플을 유일하게 식별 가능하므로 후보 키가 될 수 있게 된다.
물론 ["이름", "전공", "학년"]을 함께 사용해도 릴레이션의 모든 튜플을 유일하게 식별할 수 있지만, 최소성을 만족하지 못하기 때문에 후보 키가 될 수 없다.
따라서, 위의 학생 인적사항의 후보 키는 "학번", ["이름", "전공"] 두 개가 된다.

릴레이션을 나타내는 문자열 배열 relation이 매개변수로 주어질 때, 이 릴레이션에서 후보 키의 개수를 return 하도록 solution 함수를 완성하라.

 

제한사항

  • relation은 2차원 문자열 배열이다.
  • relation의 컬럼(column)의 길이는 1 이상 8 이하이며, 각각의 컬럼은 릴레이션의 속성을 나타낸다.
  • relation의 로우(row)의 길이는 1 이상 20 이하이며, 각각의 로우는 릴레이션의 튜플을 나타낸다.
  • relation의 모든 문자열의 길이는 1 이상 8 이하이며, 알파벳 소문자와 숫자로만 이루어져 있다.
  • relation의 모든 튜플은 유일하게 식별 가능하다.(즉, 중복되는 튜플은 없다.)

 

입출력 예

relation result
[["100","ryan","music","2"],["200","apeach","math","2"],["300","tube","computer","3"],["400","con","computer","4"],["500","muzi","music","3"],["600","apeach","music","2"]] 2

 

입출력 예 설명

입출력 예 #1
문제에 주어진 릴레이션과 같으며, 후보 키는 2개이다.

 


나의 풀이

[Python(파이썬)]

from itertools import combinations
def duplicate_check(check_list):    # 중복 체크 함수
    return len(check_list) == len(set(check_list))

def check_uniqueness(relation,cb_check):    # 유일성 체크 함수
    if len(cb_check) == 1:	# 조합이 1개 일때
        return duplicate_check(relation[cb_check[0]])	# 중복 체크 함수 호출
    else:	# 조합이 2개 이상일 때 그 조합 속성으로 리스트 구현 <4번에 3)설명>
        check_temp = []	
        for i in range(len(relation[0])):
            temp = []
            for j in cb_check:
                temp.append(relation[j][i])
            check_temp.append(tuple(temp))
        return duplicate_check(check_temp)	# 중복 체크 함수 호출

def check_minimal(candidates, now_check):   # 최소성 체크 함수
    for i in candidates:
        if set(i).issubset(set(now_check)):	# 부분 함수 인지 확인
            return False
    return True


def solution(relation):
    relation = list(map(list, zip(*relation)))  # 행렬 변환
    cb_len = [i for i in range(len(relation))]  # 속성의 개수만큼 초기화
    candidates = []   # 후보키 후보 리스트

    for i in range(1, len(cb_len)+1):   # 1 ~ len(cb_len)+1까지 for문 (조합 구하기 위함)
        for cb_check in combinations(cb_len, i):	# 속성의 조합을 인덱스 번호로 구하기
            if check_minimal(candidates, cb_check) == True:	# 최소성 확인 함수 호출
                check = check_uniqueness(relation, cb_check)	# True면 유일성 확인 함수 호출
                if check == True:	
                    candidates.append(list(cb_check))	# 유일성이 True이면 후보키 리스트에 append

    return len(candidates)

 

 

 

 


학습한 내용

 

※ 문제의 핵심 키워드

후보키 : 릴레이션(Relation)의 튜플(Tuple)을 유일하게 식별할 수 있는 속성(Attribute) 또는 속성의 집합 중, 다음 두 성질을 만족하는 것

1. 유일성(uniqueness) : 릴레이션에 있는 모든 튜플에 대해 유일하게 식별되어야 한다.
2. 최소성(minimality) : 유일성을 가진 키를 구성하는 속성(Attribute) 중 하나라도 제외하는 경우 유일성이 깨지는 것을 의미한다. 즉, 릴레이션의 모든 튜플을 유일하게 식별하는 데 꼭 필요한 속성들로만 구성되어야 한다.

 

풀이 과정
1. 행렬 변환
2. 속성 조합 만들기(후보 키의 후보)

3. 최소성 확인
4. 유일성 확인
5. 호출 순서

 

 

1. 행렬 변환  

 

>>> relation = [["100","ryan","music","2"],["200","apeach","math","2"],["300","tube","computer","3"],["400","con","computer","4"],["500","muzi","music","3"],["600","apeach","music","2"]]

# 행렬 변환
>>> new_relation = list(map(list, zip(*relation)))
>>> new_relation
# 출력
[['100', '200', '300', '400', '500', '600'], ['ryan', 'apeach', 'tube', 'con', 'muzi', 'apeach'], ['music', 'math', 'computer', 'computer', 'music', 'music'], ['2', '2', '3', '4', '3', '2']]

 

이 문제에서는 

  • relation의 컬럼(column)의 길이는 1 이상 8 이하이며, 각각의 컬럼은 릴레이션의 속성을 나타낸다.
  • relation의 로우(row)의 길이는 1 이상 20 이하이며, 각각의 로우는 릴레이션의 튜플을 나타낸다.

으로 나타내고 있는데 문제를 풀 때 relation[x][y]라 하면 행과 열을 변환해줬을 때 relation [x]를 보면 한 속성의 모든 값들이 들어있어 중복되는 값이 있는지 더 확인하기 쉬울 것 같아 변환해주었다. 

 

ex)

행렬 변환 전  relation[0] = ["100","ryan","music","2"]

-> 한 학생의 인적사항이 다 들어있다. 

행렬 변환 후 relation[0] = ['100', '200', '300', '400', '500', '600']

-> 학번 속성의 모든 학생의 정보가 들어있다. 

 

 

 

[Python] 리스트 가로, 세로 변환 (행, 열 변환)

그림과 같이 가로와 세로를 변환 하는 방법 test = [[1,2,3,4],[4,5,6,7],[8,9,10,11],[12,13,14,15]] 방법 1 - map 사용 X # map x >>> test2 = [list(i) for i in zip(*test)] # 출력 >>> test2 [[1, 4, 8, 12]..

young-library.tistory.com

 

 

2. 속성 조합 만들기(후보 키의 후보)

 

cb_len = [i for i in range(len(relation))]  # 속성의 개수만큼 초기화
    candidates = []   # 후보키 후보 리스트

    for i in range(1, len(cb_len)+1):   # 속성의 조합을 인덱스 번호로 구하기
        for cb_check in combinations(cb_len, i):
            if check_minimal(candidates, cb_check) == True:
                check = check_uniqueness(relation, cb_check)
                if check == True:
                    candidates.append(list(cb_check))

 

속성들을 바로 사용해서 구현할 수도 있지만 속성의 인덱스 번호를 사용하면 이해하기 더 쉬울 것 같아 인덱스 번호로 구현했다. 

 

ex) 속성 -> 학번, 이름, 전공, 학년 -> 4가지

1) cb_len = [i for i in range(len(relation))] 해서 cb_len = [0(학번), 1(이름), 2(전공), 3(학년)]을 구한다.

2) for i in range(1, len(cb_len)+1)을 하여 1~4까지 for문을 돌린다. 

3) for cb_check in combinations(cb_len, i)-> 2번의 for문으로 구한 i로 조합의 개수를 정한다. 

 

i = 1 -> 0, 1, 2, 3

i = 2 -> (0,1) (0,2), (0,3), .... , (2, 3)

i = 3 -> (0,1,2), (0,1,3), ... (1,2,3)

i = 4 -> (0,1,2,3)

 

2)번의 변수 i 색상

3)번의 변수 cb_check 색상

 

조합을 한 결과의 변수 cb_check로 아래 3, 4번을 실행해서 최소성 검사를 한 후 유일성 검사를 한다. 

 

 

 

3. 최소성 확인

 

처음 구현했던 최소성 확인 코드 - 실패

def check_minimal(candidates, now_check):   # 최소성 체크
    cnt = 0
    if not candidates:
        return True
    else:
        for i in range(len(candidates)):
            for j in range(len(candidates[i])):
                if candidates[i][j] in now_check:
                    cnt += 1
            if cnt == len(candidates[i]):
                return False
    return True

candidates = [[0], [1,2]]이고, now_check = [1,2,4]인 상황에서 

1. candidates[0][0] (->0) in [1,2,4] 인가를 확인했을 때 아니다.

2. candidates[1][0](->1) in [1,2,4] 인가를 확인했을 때 맞다 => cnt+=1

3. candidates[1][1](->2) in [1,2,4] 인가를 확인했을 때 맞다 => cnt+=1

4. cnt = 2, len(candidates[1]) = 2 이기 때문에 최소성 만족하지 않음

5. return False

 

위의 코드로 실행했을 때 안 되는 테스트 경우들이 생겼다.  

 

왜 틀렸는지는 잘 모르겠지만 다른 사람들도 비슷한 코드로 어려워하는 걸 보니 최소성에서 문제가 있는 듯했다. 

그래서 최소성을 해결하기 위해 다른 방법을 생각해봤다. 

차집합을 이용해서 구현하려고 했는데 찾아보니 issubset함수가 파이썬에 있었다. 

 

  • issubset() - 부분 집합인지 아닌지 return 해주는 함수  
>>> test = {1,3}
>>> test1 = {1,5}
>>> check = {1,2,3,4}

# 부분 함수 O
>>> test.issubset(check)
True

# 부분 함수 X
>>> test1.issubset(check)
False

 

issubset을 이용해 구현한 최소성 체크 함수 - 성공한 코드

def check_minimal(candidates, now_check):   # 최소성 체크
    for i in candidates:
        if set(i).issubset(set(now_check)):
            return False
    return True

 

최소성을 만족하면(True 반환) 유일성 확인을 한다. 

 

 

4. 유일성 확인 

 

중복 체크 함수 

def duplicate_check(check_list):    # 중복 체크
    return len(check_list) == len(set(check_list))

리스트에 같은 값이 있으면 set을 통해 제거되기 때문에(중복 제거)

len(check_list) == len(set(check_list))을 비교해서 같으면 중복 값없음으로 True

len이 다르면 중복 값있음으로 False return 된다.  

 

 

유일성 체크 함수

def check_uniqueness(relation,cb_check):    # 유일성 체크
    if len(cb_check) == 1:
        return duplicate_check(relation[cb_check[0]])
    else:
        check_temp = []
        for i in range(len(relation[0])):
            temp = []
            for j in cb_check:
                temp.append(relation[j][i])
            check_temp.append(tuple(temp))
        return duplicate_check(check_temp)

 

1) 2번(후보 키의 후보)에서 구한 cb_check를 매개변수로 입력받는다.

 

2) len(ch_check) == 1인 경우는 굳이 최소성을 확인할 필요가 없다. 그리고 1번에서 행렬을 변환했기 때문에 인덱스 만으로 한 속성들의 값을 비교할 수 있다.

cb_check가 0일 때 중복 검사를 하면중복되는 값이 없기 때문에 True 반환된다. 

cb_check가 1일 때 중복 검사를 하면 apeach가 중복되어 len(check_list) == len(set(check_list))가 다르기 때문에 False 반환된다. 

 

cb_check가 2, 3도 똑같이 검사한다. 

 

3) len(ch_check) != 1인 경우 속성들의 값들을 중복 검사하기 위해 리스트를 만들어준다.

 

ex) cb_check = (1,2) 일 때

relation[1] = ['ryan', 'apeach', 'tube', 'con', 'muzi', 'apeach']

relations[2] = ['music', 'math', 'computer', 'computer', 'music', 'music'] 를

 

check_temp [('ryan', 'music'), ('apeach', 'math'), ('tube', 'computer'), ('con', 'computer'), ('muzi', 'music'), ('apeach', 'music')] 로 만들어 준 다음 중복 검사를 한다. 

 

중복 검사를 한 후 True가 반환되면 후보 키 리스트에 append, False가 반환되면 다음 값으로 넘어간다. 

 

 


이 문제를 어떻게 풀어갈지는 생각보다 빠르게 떠올랐다. 하지만 그 생각을 실제로 구현하는데 많은 시간이 소요되었다.

아직 파이썬에 대해 모르는 게 많다는 뜻이겠지,,, 이번 문제만 하더라도 처음 보는 내장 함수들이 있는 걸 보니 아직 파이썬 공부는 한참 더 해야 할 것 같았다. 

 


문제 출처

 

코딩테스트 연습 - 후보키

[["100","ryan","music","2"],["200","apeach","math","2"],["300","tube","computer","3"],["400","con","computer","4"],["500","muzi","music","3"],["600","apeach","music","2"]] 2

programmers.co.kr

 

 

 

 

 

 

 

 

 

댓글