Java: русские буквы и не только...

Очень часто встает вопрос о руссификации программ или написании программ на русском языке. В этой статье рассказываеться как написать программу на русском языке и какие при этом могут возникнуть сложности.

Java: Русские буквы и не только...Здесь я попытался собрать информацию по поводу написания русскоязычных программ на языке Java. Если Вам известно что-либо помимо того, что я тут понаписал, напишите мне, ваши добавления будут кстати. Содержание: Файлы данных, потоки, БД. Русские буквы в исходниках Java-программ. Русские буквы в файлах properties. Русские буквы в Servlet-ах. CORBA JNI GUI (AWT, Swing) I18n (вывод чисел, дат и т.п.) Об утилите native2ascii О методе перекодировки символов Файлы данных, потоки, БД.

Итак, как все, надеюсь, знают, в языке Java для представления символов используется Unicode, т.е. по два байта на один символ (тип char размером в 16 бит). В набор символов входят всевозможные буквы со всякими чёрточками и припендюльками, греческие, математические и символы псевдографики. В том числе и так любимые нами символы кириллицы (диапазон значений 0x0400-0x04ff). Так что с этой стороны никакой дискриминации нет.

Если Вам интересны конкретные кода символов, для их просмотра удобно использовать программу "Таблица символов" из WinNT. Вот, например, диапазон кириллицы:

С другой стороны большинство файлов данных основано на 8-битовом представлении символов. Сюда входят также текстовые файлы и большинство баз данных (окромя наиболее продвинутых). Кроме того, что самое паршивое, одни и те же байты могут представлять разные символы (в зависимости от кодовой страницы). Налицо конфликт - как преобразовать одно в другое и наоборот, причём с наименьшими потерями для данных. Для этого был придуман довольно удобный механизм использования кодовых страниц. Для каждой кодовой страницы было создано по 2 класса перекодировки (ByteToChar и CharToByte). Классы эти лежат в пакете sun.io. Если, при перекодировке из char в byte не было найдено соответствующего символа, он заменяется на символ ?.

Кстати, эти файлы кодовых страниц в некоторых ранних версиях JDK 1.1 содержат ошибки, вызывающие ошибки перекодировок, а то и вообще исключения при выполнении. Например, это касается кодировки KOI8_R. Лучшее, что можно при этом сделать - сменить версию на более позднюю. Судя по Sun-овскому описанию, большинство этих проблем было решено в версии JDK 1.1.6.

Продолжение статьи: ч.1 Продолжение статьи: ч.2 Продолжение статьи: ч.3 Продолжение статьи: ч.4 Продолжение статьи: ч.5 Продолжение статьи: ч.6 Продолжение статьи: ч.7 Продолжение статьи: ч.8 Продолжение статьи: ч.9 Продолжение статьи: ч.10

Другие статьи по теме:

- Java: русские буквы и не только...
- практическое введение в программирование на javascript
- революция java
- Java: управление ресурсами
- возможности языка java

Другие голосования

Приглашаем Вас обменяться кнопочками! Обращайтесь к администратору.

• Как выбрать браузер
• Средства структурного анализа и проектирования систем
• Классификация case-средств
• Case-технология проектирования программного обеспечения информационных систем
• Технология intranet
• Технологии Internet
• Средства доступа к базам данных
• Средства быстрой разработки прикладных программ
• Объектно-ориентированный подход к созданию программных средств
• Этапы проектирования при разработке программного продукта