13강. 문자열 연산

문자열 연산

+ || CONCAT SUBSTRING TRIM CHARACTER_LENGTH

1. 문자열 결합

문자열 결합 사례

'ABC' || '1234' -> 'ABC1234'

SELECT CONCAT(quantity, unit) FROM sample35;

앞 4자리(년) 추출
SUBSTRING('20140125001', 1, 4) -> '2014'

5째 자리부터 2자리(월) 추출
SUBSTRING('20140125001', 5, 2) -> '01'

TRIM으로 스페이스 제거하기

TRIM('ABC   ) -> 'ABC

CHARACTER_LENGTH 함수는 문자열의 길이를 계산해 돌려주는 함수이다.
VARCHAR 형의 문자열은 가변 길이이므로 길이가 서로 다르다.
CHARACTER_LENGTH 함수를 사용하면 문자열의 길이를 계산할 수 있다.
문자열의 길이는 문자 단위로 계산되어 수치로 반환된다.
또한 함수형은 CHARACTER_LENGTH로 줄여서 사용할 수 있다.
한편 OCTET_LENGTH 함수는 문자열의 길이를 바이트 단위로 계산해 돌려주는 함수이다.
데이터 단위로 바이트라는 것이 있다. SQL의 OCTET_LENGTH 함수를 잘 사용하는 동시에 중요한 것은 문자 하나의 데이터가 몇 바이트의 저장공간을 필요로 하는지 인코드 방식에 따라 결정된다는 점이다.
문자를 수치화(인코드) 하는 방식에 따라 필요한 저장공간의 크기가 달라진다.
VARCHAR 형의 최대 길이 역시 바이트 단위로 지정한다. 하지만 문자세트에 따라 길이가 문자 수로 간주되기도 하니 주의해야 한다.

알파벳의 경우는 반각문자, 한글은 전각문자라고 할 수 있다.
반각문자는 전각문자 폭의 절반밖에 안 되며 저장용량 또한 전각문자 쪽이 더 크다.
반각의 알파벳이나 숫자, 기호는 ASCII 문자라고 불린다.
한글의 경우 EUC-KR, UTF-8 등의 인코드 방식을 주로 사용한다. 인코드 방식은 데이터베이스나 테이블을 정의할 때 변경할 수 있다.
이를 RDBMS에서는 문자세트라고 부른다.
한 문자가 몇 바이트인지는 쓰이는 문자세트에 따라 다르다
CHAR_LENGTH 함수를 사용하는 경우에는 아무런 문제가 되지 않는다. 한글이든 ASCII 문자든 문자 수로 계산되기 때문이다.
하지만 OCTET_LENGTH 함수의 경우는 문자 수가 아닌 바이트 단위로 길이를 계산하므로 주의해야 한다.

표 3-4. 문자세트 별 문자 수와 바이트 수

문자세트	문자 수	바이트 수
EUC-KR	12	19
UTF-8	12	26