از ASCII تا UTF-8 رمزگذاری یا انکود کاراکترها در HTML
ASCII اولین استاندارد کدگذاری کاراکترها بود. ASCII تعداد 128 کاراکتر مختلف را که می توان در اینترنت استفاده کرد، تعریف کرد.
- اعداد (0 - 9)
- کاراکترهای انگلیسی (A - Z)
- و چند کاراکتر خاص مانند : ! , $ , + , _ , ( , ) , @ , < , >
ISO 8859-1 مجموعه کاراکتر پیش فرض برای HTML 4 بود. این مجموعه کاراکتر از 256 کد کاراکتر مختلف پشتیبانی می کند. HTML 4 همچنین از مجموعه کاراکتر UTF-8 نیز پشتیبانی می کند.
ANSI (Windows-1252) مجموعه کاراکتر اصلی برای ویندوز بود. مجموعه کاراکتر ANSI مشابه مجموعه کاراکتر ISO 8859-1 است، با این تفاوت که ANSI تعداد 32 کاراکتر اضافی دارد.
HTML 5 به توسعه دهندگان توصیه می کند که از مجموعه کاراکترهای UTF-8 استفاده کنند، که تقریبا تمام نماد ها و کاراکترهای جهان پشتیبانی می کند.
ویژگی charset برای انکود در HTML
برای نمایش صحیح یک صفحه HTML، مرورگر باید مجموعه کاراکتر های استفاده شده را بشناسد. (آموزش html)
می توان این مجموعه کاراکتر ها را با تگ meta مشخص کرد مانند زیر:
<meta charset="UTF-8">
جدول زیر تفاوت بین مجموعه کاراکترهای بالا را شرح می دهد.
عدد | ASCII | ANSI | 8859 | UTF-8 | توضیحات کاراکتر |
---|---|---|---|---|---|
32 | خط فاصله | ||||
33 | ! | ! | ! | ! | علامت تعجب |
34 | “ | “ | “ | “ | جفت کوتیشن |
35 | # | # | # | # | علامت sharp |
36 | $ | $ | $ | $ | علامت دلار |
37 | % | % | % | % | علامت درصد |
38 | & | & | & | & | علامت ampersand |
39 | ' | ' | ' | ' | علامت apostrophe |
40 | ) | ) | ) | ) | علامت \رانتز باز |
41 | ( | ( | ( | ( | علامت \رانتز بسته |
42 | * | * | * | * | علامت ستاره |
43 | + | + | + | + | علامت جمع |
44 | , | , | , | , | علامت کاما |
45 | - | - | - | - | علامت خط فاصله - منها |
46 | . | . | . | . | علامت نقطه |
47 | / | / | / | / | علامت slash |
48 | 0 | 0 | 0 | 0 | عدد ۰ |
49 | 1 | 1 | 1 | 1 | عدد ۱ |
50 | 2 | 2 | 2 | 2 | عدد ۲ |
51 | 3 | 3 | 3 | 3 | عدد ۳ |
52 | 4 | 4 | 4 | 4 | عدد ۴ |
53 | 5 | 5 | 5 | 5 | عدد ۵ |
54 | 6 | 6 | 6 | 6 | عدد ۶ |
55 | 7 | 7 | 7 | 7 | عدد ۷ |
56 | 8 | 8 | 8 | 8 | عدد ۸ |
57 | 9 | 9 | 9 | 9 | عدد ۹ |
58 | : | : | : | : | علامت دو نقطه |
59 | ; | ; | ; | ; | علامت نقطه ویرگول |
60 | > | > | > | > | علامت کمتر از |
61 | = | = | = | = | علامت مساوی |
62 | < | < | < | < | علامت بیشتر از |
63 | ؟ | ؟ | ؟ | ؟ | علامت سوال |
64 | @ | @ | @ | @ | علامت تجاری |
65 | A | A | A | A | حرف A |
66 | B | B | B | B | حرف B |
67 | C | C | C | C | حرف C |
68 | D | D | D | D | حرف D |
69 | E | E | E | E | حرف E |
70 | F | F | F | F | حرف F |
71 | G | G | G | G | حرف G |
72 | H | H | H | H | حرف H |
73 | I | I | I | I | حرف I |
74 | J | J | J | J | حرف J |
75 | K | K | K | K | حرف K |
76 | L | L | L | L | حرف L |
77 | M | M | M | M | حرف M |
78 | N | N | N | N | حرف N |
79 | O | O | O | O | حرف O |
80 | P | P | P | P | حرف P |
81 | Q | Q | Q | Q | حرف Q |
82 | R | R | R | R | حرف R |
83 | S | S | S | S | حرف S |
84 | T | T | T | T | حرف T |
85 | U | U | U | U | حرف U |
86 | V | V | V | V | حرف V |
87 | W | W | W | W | حرف W |
88 | X | X | X | X | حرف X |
89 | Y | Y | Y | Y | حرف Y |
90 | Z | Z | Z | Z | حرف Z |
91 | ] | ] | ] | ] | علامت کورشه باز |
92 | \ | \ | \ | \ | علامت back slash |
93 | [ | [ | [ | [ | علامت کورشه بسته |
94 | ^ | ^ | ^ | ^ | علامت توان |
95 | _ | _ | _ | _ | علامت زیر خط |
96 | ` | ` | ` | ` | علامت لهجه |
97 | a | a | a | a | حرف a |
98 | b | b | b | b | حرف b |
99 | c | c | c | c | حرف c |
100 | d | d | d | d | حرف d |
101 | e | e | e | e | حرف e |
102 | f | f | f | f | حرف f |
103 | g | g | g | g | حرف g |
104 | h | h | h | h | حرف h |
105 | i | i | i | i | حرف i |
106 | j | j | j | j | حرف j |
107 | k | k | k | k | حرف k |
108 | l | l | l | l | حرف l |
109 | m | m | m | m | حرف m |
110 | n | n | n | n | حرف n |
111 | o | o | o | o | حرف o |
112 | p | p | p | p | حرف p |
113 | q | q | q | q | حرف q |
114 | r | r | r | r | حرف r |
115 | s | s | s | s | حرف s |
116 | t | t | t | t | حرف t |
117 | u | u | u | u | حرف u |
118 | v | v | v | v | حرف v |
119 | w | w | w | w | حرف w |
120 | x | x | x | x | حرف x |
121 | y | y | y | y | حرف y |
122 | z | z | z | z | حرف z |
123 | { | { | { | { | علامت آکولاد باز |
124 | | | | | | | | | علامت بایب |
125 | } | } | } | } | علامت آکولاد بسته |
126 | ~ | ~ | ~ | ~ | علامت tilde |
127 | DEL | دکمه حذف | |||
128 | € | علامت یورو | |||
129 | | | | علامت غیر قابل استفاده | |
130 | ‚ | علامت زیر تک کوتیشن | |||
131 | ƒ | حرف لاتین f کوچک با قلاب |
|||
132 | „ | علامت زیر جفت کوتیشن | |||
133 | … | سه نقطه افقی | |||
134 | † | علامت خنجر | |||
135 | ‡ | علامت جفت خنجر | |||
136 | ˆ | اصلاح کننده لهجه circumflex حروف | |||
137 | ‰ | علامت هزار | |||
138 | Š | حرف لاتین S بزرگ با caron | |||
139 | ‹ | علامت نقل قول اشاره به چب | |||
140 | Œ | حرف لاتین مجوز OE | |||
141 | | | | علامت غیر قابل استفاده | |
142 | Ž | حرف لاتین Z بزرگ با caron | |||
143 | | | | علامت غیر قابل استفاده | |
144 | | | | علامت غیر قابل استفاده | |
145 | ‘ | علامت نقل قول تک به سمت چب | |||
146 | ’ | علامت نقل قول تک به سمت راست | |||
147 | “ | علامت نقل قول جفت به سمت چپ | |||
148 | ” | علامت نقل قول جفت به سمت راست | |||
149 | • | علامت دایره تو بر | |||
150 | – | علامت en dash | |||
151 | — | علامت em dash | |||
152 | ˜ | علامت tilde کوچک | |||
153 | ™ | علامت تجاری | |||
154 | š | حرف لاتین S بزرگ با caron | |||
155 | › | علامت نقل قول اشاره به راست | |||
156 | œ | حرف لاتین کوچک مجوز OE | |||
157 | | | | علامت غیر قابل استفاده | |
158 | ž | حرف لاتین z کوچک با caron | |||
159 | Ÿ | حرف لاتین Y بزرگ با diaeresis | |||
160 | No-Break space | ||||
161 | ¡ | ¡ | ¡ | علامت تعجب معکوس | |
162 | ¢ | ¢ | ¢ | علامت سنت | |
163 | £ | £ | £ | علامت بوند | |
164 | ¤ | ¤ | ¤ | علامت واحد بول | |
165 | ¥ | ¥ | ¥ | علامت ین | |
166 | ¦ | ¦ | ¦ | Broken bar | |
167 | § | § | § | علامت section | |
168 | ¨ | ¨ | ¨ | علامت diaeresis | |
169 | © | © | © | علامت کبی رایت | |
170 | ª | ª | ª | شاخص ترتیبی feminine | |
171 | « | « | « | علامت نقل قول جفت اشاره به چب | |
172 | ¬ | ¬ | ¬ | بدون علامت | |
173 | خط فاصله | ||||
174 | ® | ® | ® | علامت رجیستر | |
175 | ¯ | ¯ | ¯ | علامت ماکرون | |
176 | ° | ° | ° | علامت درجه | |
177 | ± | ± | ± | علامت مثبت منفی | |
178 | ² | ² | ² | علامت زیرنویس 2 | |
179 | ³ | ³ | ³ | علامت زیرنویس 3 | |
180 | ´ | ´ | ´ | علامت لهجه حاد | |
181 | µ | µ | µ | علامت میکرو | |
182 | ¶ | ¶ | ¶ | علامت pilcrow | |
183 | · | · | · | نقطه وسط | |
184 | ¸ | ¸ | ¸ | علامت cedilla | |
185 | ¹ | ¹ | ¹ | علامت زیرنویس ۱ | |
186 |
º |
º | º | شاخص ترتیبی masculine | |
187 | » | » | » | علامت نقل قول جفت اشاره به راست | |
188 | ¼ | ¼ | ¼ | کسر یک چهارم | |
189 | ½ | ½ | ½ | کسر یک دوم | |
190 | ¾ | ¾ | ¾ | کسر سه چهارم | |
191 | ¿ | ¿ | ¿ | علامت سوال معکوس | |
192 | À | À | À | حرف بزرگ لاتین A با علامت grave | |
193 | Á | Á | Á | حرف بزرگ لاتین A با علامت acute | |
194 | Â | Â | Â | حرف بزرگ لاتین A با علامت circumflex | |
195 | Ã | Ã | Ã | حرف بزرگ لاتین A با علامت tilde | |
196 | Ä | Ä | Ä | حرف بزرگ لاتین A با علامت diaeresis | |
197 | Å | Å | Å | حرف بزرگ لاتین A با علامت ring above | |
198 | Æ | Æ | Æ | حرف لاتین بزرگ AE | |
199 | Ç | Ç | Ç | حرف لاتین بزرگ C با علامت cedilla | |
200 | È | È | È | حرف بزرگ لاتین E با علامت grave | |
201 | É | É | É | حرف بزرگ لاتین E با علامت acute | |
202 | Ê | Ê | Ê | حرف بزرگ لاتین E با علامت circumflex | |
203 | Ë | Ë | Ë | حرف بزرگ لاتین E با علامت diaeresis | |
204 | Ì | Ì | Ì | حرف بزرگ لاتین I با علامت grave | |
205 | Í | Í | Í | حرف بزرگ لاتین I با علامت acute | |
206 | Î | Î | Î | حرف بزرگ لاتین I با علامت circumflex | |
207 | Ï | Ï | Ï | حرف بزرگ لاتین I با علامت diaeresis | |
208 | Ð | Ð | Ð | حرف لاتین بزرگ Eth | |
209 | Ñ | Ñ | Ñ | حرف بزرگ لاتین N با علامت tilde | |
210 | Ò | Ò | Ò | حرف بزرگ لاتین O با علامت grave | |
211 | Ó | Ó | Ó | حرف بزرگ لاتین O با علامت acute | |
212 | Ô | Ô | Ô | حرف بزرگ لاتین O با علامت circumflex | |
213 | Õ | Õ | Õ | حرف بزرگ لاتین O با علامت tilde | |
214 | Ö | Ö | Ö | حرف بزرگ لاتین O با علامت diaeresis | |
215 | × | × | × | علامت ضرب در | |
216 | Ø | Ø | Ø | حرف بزرگ لاتین O با علامت stroke | |
217 | Ù | Ù | Ù | حرف بزرگ لاتین U با علامت grave | |
218 | Ú | Ú | Ú | حرف بزرگ لاتین U با علامت acute | |
219 | Û | Û | Û | حرف بزرگ لاتین U با علامت circumflex | |
220 | Ü | Ü | Ü | حرف بزرگ لاتین U با علامت diaeresis | |
221 | Ý | Ý | Ý | حرف بزرگ لاتین Y با علامت acute | |
222 | Þ | Þ | Þ | حرف لاتین بزرگ Thorn | |
223 | ß | ß | ß | حرف لاتین کوچک Sharp s | |
224 | à | à | à | حرف کوچک لاتین a با علامت grave | |
225 | á | á | á | حرف کوچک لاتین a با علامت acute | |
226 | â | â | â | حرف کوچک لاتین a با علامت circumflex | |
227 | ã | ã | ã | حرف کوچک لاتین a با علامت tilde | |
228 | ä | ä | ä | حرف کوچک لاتین a با علامت diaeresis | |
229 | å | å | å | حرف کوچک لاتین a با علامت ring above | |
230 | æ | æ | æ | حرف لاتین کوچک ae | |
231 | ç | ç | ç | حرف لاتین کوچک c با علامت cedilla | |
232 | è | è | è | حرف لاتین کوچک e با علامت grave | |
233 | é | é | é | حرف لاتین کوچک e با علامت acute | |
234 | ê | ê | ê | حرف لاتین کوچک e با علامت circumflex | |
235 | ë | ë | ë | حرف لاتین کوچک e با علامت diaeresis | |
236 | ì | ì | ì | حرف لاتین کوچک i با علامت grave | |
237 | í | í | í | حرف لاتین کوچک i با علامت acute | |
238 | î | î | î | حرف لاتین کوچک i با علامت circumflex | |
239 | ï | ï | ï | حرف لاتین کوچک i با علامت diaeresis | |
240 | ð | ð | ð | حرف لاتین بزرگ eth | |
241 | ñ | ñ | ñ | حرف لاتین کوچک n با علامت tilde | |
242 | ò | ò | ò | حرف لاتین کوچک o با علامت grave | |
243 | ó | ó | ó | حرف لاتین کوچک o با علامت acute | |
244 | ô | ô | ô | حرف لاتین کوچک o با علامت circumflex | |
245 | õ | õ | õ | حرف لاتین کوچک o با علامت tilde | |
246 | ö | ö | ö | حرف لاتین کوچک o با علامت diaeresis | |
247 | ÷ | ÷ | ÷ | علامت تقسیم | |
248 | ø | ø | ø | حرف لاتین کوچک o با علامت stroke | |
249 | ù | ù | ù | حرف لاتین کوچک u با علامت grave | |
250 | ú | ú | ú | حرف لاتین کوچک u با علامت acute | |
251 | û | û | û | حرف لاتین کوچک u با علامت circumflex | |
252 | ü | ü | ü | حرف لاتین کوچک u با علامت diaeresis | |
253 | ý | ý | ý | حرف لاتین کوچک y با علامت acute | |
254 | þ | þ | þ | حرف لاتین کوچک thorn | |
255 | ÿ | ÿ | ÿ | حرف لاتین کوچک y با علامت diaeresis |
مجموعه کاراکتر ASCII
- از مقادیر ۰ تا ۳۱ (و ۱۲۷) برای کاراکترهای کنترل استفاده می کند.
- از مقادیر ۳۲ تا ۱۲۶ برای حروف و ارقام و نمادها استفاده می کند.
- و از مقادیر ۱۲۸ تا ۲۵۵ هم استفاده نمی کند.
مجموعه کاراکتر ANSI (Windows-1252)
- از مقادیر ۰ تا ۱۲۷ شبیه به مقادیر مجموعه کاراکتر ASCII است.
- دارای مجموعه ای اختصاصی از کاراکترها از مقادیر ۱۲۸ تا ۱۵۹ است.
- و برای مقادیر ۱۶۰ تا ۲۵۵ مشابه مجموعه کاراکتر UTF-8 است.
مجموعه کاراکتر ISO 8859-1
- از مقادیر ۰ تا ۱۲۷ شبیه به مقادیر مجموعه کاراکتر ASCII است.
- و از مقادیر ۱۲۸ تا ۱۵۹ هم استفاده نمی کند.
- و برای مقادیر ۱۶۰ تا ۲۵۵ مشابه مجموعه کاراکتر UTF-8 است.
مجموعه کاراکترهای UTF-8
- از مقادیر ۰ تا ۱۲۷ شبیه به مقادیر مجموعه کاراکتر ASCII است.
- و از مقادیر ۱۲۸ تا ۱۵۹ هم استفاده نمی کند.
- و برای مقادیر ۱۶۰ تا ۲۵۵ مشابه مجموعه کاراکترهای ANSI و 8859-1 است.
- از مقدار ۲۵۶ تا ۱۰۰۰۰ کاراکتر متفاوت دیگر هم ادامه دارد.
بیشتر بدانیم : URL آدرس (Uniform Resource Locator) در HTML
مشکل چیست زمانی که متن فارسی تبدیل به چنین کاراکترهایی می شود: ÑÇ و چگونه دوباره به حروف فارسی می توان تبدیل کرد؟
کد گزاری utf-8 به صفحه اضافه کنید مشکلتون حل بشه