Выбор Подходящего Набора символов

Рубрика: DBCA - Создание Базы Данных

  • База данных Oracle поддерживает различные классы схем кодировки символов:

    • Однобайтовые наборы символов

      • 7-разрядный

      • 8-разрядный

    • Многобайтовые наборы символов, включая Unicode

  • Набор символов выбирается во время создания базы данных. Выберите набор символов, который лучше всего удовлетворяет Вашим бизнес-требованиям на данный момент и в будущем, поскольку потом будет трудно изменить наборы символов.

  • В общем Unicode рекомендуется, поскольку это - самый гибкий набор символов.

Когда компьютерные системы обрабатывают символы, они используют числовые коды вместо графического изображения символа. Закодированный набор символов отображает числовые коды на символы, которые компьютер или терминал могут отображать и принимать при вводе. Различные наборы символов поддерживают различные символьные множества. Поскольку наборы символов обычно основаны на определенном алфавите, они могут поддерживать больше чем один язык. Однако, основанные на алфавите наборы символов ограничиваются в том смысле, что они ограничиваются группами языков, основанных на подобных алфавитах. Универсальные наборы символов охватывают большинство главных алфавитов современного мира и обеспечивают более полезное решение многоязычной поддержки. Для получения информации о стандартах Unicode см. Веб-сайт в http:www.unicode.org.

База данных Oracle поддерживает три класса схем кодирования: однобайтовый, многобайтовый переменной длины и универсальный. Выберите корректный набор символов, который лучше всего удовлетворяет Вашим бизнес-требованиям на текущий момент и в будущем, потому что позже может оказаться весьма трудным изменить наборы символов. Для лучшей производительности выберите набор символов, который избегает преобразования набора символов и использует самое эффективное кодирование для требуемых языков. Однобайтовые наборы символов приводят к лучшей производительности, чем многобайтовые наборы символов и они также являются самыми эффективными с точки зрения требований свободного места. Однако, однобайтовые наборы символов ограничены в количестве поддерживаемых языков. Чтобы выбрать Ваш корректный набор символов базы данных, оцените свои текущие и будущие бизнес-требования, так же как технические требования (например, XML и стандарты Java требуют Unicode). Вообще, Oracle рекомендует использование Unicode для всех новых баз данных, потому что это - самый гибкий набор символов, что избавит Вас от будущих преобразований.

Однобайтовые наборы символов

В однобайтовом наборе символов каждый символ занимает один байт. Однобайтовые 7-разрядные схемы кодирования могут определить до 128 (2^7) символов; однобайтовые 8-разрядные схемы кодирования могут определить до 256 (2^8) символов.

Примеры Однобайтовых Схем

7-разрядный набор символов:

  • Стандартный американский код обмена информацией (ASCII) 7-bit American (US7ASCII)

8-разрядный набор символов:

  • Международная организация по Стандартам (ISO) 8859-1 West European (WE8ISO8859P1)

  • DEC 8-bit West European (WE8DEC)

  • Расширенный двоично-десятичный код обмена информацией (EBCDIC) Code Page 1144 8-bit Italian (I8EBCDIC1144)

Многобайтовые наборы символов

Многобайтовый набор символов переменной длины представляется одним или более байтами на символ. Многобайтовые наборы символов обычно используются для поддержки азиатских языков. Некоторые многобайтовые схемы кодирования используют значение старшего значащего бита, чтобы указать, представляет ли байт единственный байт или является частью серии байтов, представляющих символ. Однако, другие схемы кодировки символов различают однобайтовый от многобайтовых символов. Управляющий код переключения на верхний регистр, отправленный устройством, указывает, что любые последовательные байты являются символами двойного байта, пока не встретится код переключения на нижний регистр. Схемы кодирования Shift-sensitive используются прежде всего на платформах IBM.

Unicode является универсальным закодированным набором символов, который позволяет информации на любом языке быть сохраненной, используя единственный набор символов. Unicode обеспечивает уникальное кодовое обозначение для каждого символа, независимо от платформы, программы или языка.

Стандарт Unicode был принят многими поставщиками программного и аппаратного обеспечения. Множество операционных систем и браузеров теперь поддерживают Unicode. Unicode требуется стандартами, такими как XML, Java, JavaScript, LDAP и WML. Также он синхронизирован со стандартом ISO/IEC 10646.

Примеры Многобайтовых Схем Переменной длины

  • Shift-JIS 16-bit Japanese (JA16SJIS)

  • Кодовая страница 950 MS Windows с Дополнительным Набором символов Гонконга HKSCS-2001 (ZHT16HKSCS)

  • Unicode 4.0 Универсальный набор символов UTF-8 (AL32UTF8) - тип кодирования переменной длины, а также строгого надмножества ASCII.

  • Unicode (ALl16UTF16 – 16-разрядное кодирование Unicode, которое используется и в Microsoft Windows 2000 и в Windows XP.

Далее: Консоль Управления (Oracle Enterprise Manager)

Смотрите также
Комментарии
Написать

(обязательно)

(обязательно)

Это не спам (обязательно)