b*********n 发帖数: 1258 | 1 【 以下文字转载自 Programming 讨论区 】
发信人: babyfacenan (黑土), 信区: Programming
标 题: 请教:如何用Java get URL content是.swe并且是utf-16 encoding的文件
发信站: BBS 未名空间站 (Tue Mar 4 01:46:50 2008)
url指向一个 .swe 文件,这个.swe文件是utf-16的
用less看不了,要用iconv 从 utf-18 转换成 utf-8才能用less看
我用了java URL class, url.openStream()等等来get content
complain 是什么http error 400 之类的
试了一下别的url,没问题,就是这个url报error
不过这个url本生肯定也没问题,url指向的.swe文件用firefox打得开
我用了perl的http request, userAgent, 加上
`iconv -f utf-16 -t utf-8` 就可以把content弄下来
并且存成一个less可以看得了的文件
也不知道我有没有把 |
|
b*********n 发帖数: 1258 | 2 url指向一个 .swe 文件,这个.swe文件是utf-16的
用less看不了,要用iconv 从 utf-18 转换成 utf-8才能用less看
我用了java URL class, url.openStream()等等来get content
complain 是什么http error 400 之类的
试了一下别的url,没问题,就是这个url报error
不过这个url本生肯定也没问题,url指向的.swe文件用firefox打得开
我用了perl的http request, userAgent, 加上
`iconv -f utf-16 -t utf-8` 就可以把content弄下来
并且存成一个less可以看得了的文件
也不知道我有没有把问题描述清楚
哪位高手给帮帮忙吧,谢谢 |
|
c**********e 发帖数: 236 | 3 zz:
我倾向于 gb2312
我现在用的是英文 2000,可除了界面的“开始”变成“Start”这样的微小变化外其他东
西用起来没有感到任何差别,刚装完 2000 的时候随便去一个国内网站他就会问你是否要
装简体中文,点了是,安一下,连 IE 都不用重新打开就可以直接看中文了,英文系统看
中文是如此简单,换成繁体系统看简体应该没有任何差别的,不可能会出现看不了或者乱
码的情况。
UTF-8 的同屏显示多语种确实是个很有意思的新玩意,不过毕竟是后来的,只要用就得成
天考虑兼容问题,况且很少需要 UTF-8 的特性:我用简体中文写东西,看的人一般系统
里只有简体中文或者安个简体中文就可以看了,永远不会出现一个倭文或者韩文,那么
UTF-8 还有用的必要了吗?
XML 和 DVD
这些非常好的东西,推行了很多年也无法成为“缺省配置”,恩,对,GB2312 之于
UTF-8,正如同 VCD 之于 DVD:DVD 好是好,可目前几乎所有的软件还都是用 650MB 的
光盘发行,一台家用电脑可以读不了 DVD,但绝对不可以读不了普通的光盘,否则连装个
系统启动起来都很困难。
http://www |
|
t***y 发帖数: 741 | 4 Hi everybody,
Does the Teddy build 54 support UTF in SSH session? I know it is an old
build, however it is working fine for me and I am too lazy to update. (The
only known bug to me is that it does not support Hostname alias in static
DHCP table.)
I have configured puTTY to use UTF encoding, however my UTF files/folders on
the attached USB external hard drive are still not showing when SSH into
the router. In fact, I even did not see garbled text (in the case if the
encoding was not set properly... 阅读全帖 |
|
o***g 发帖数: 2784 | 5 啥叫合法的UTF-8编码?举个不是的例子?
java里的string就是char array,char就是utf-16的字符,能存成string了,就说明应
该都是utf16的字符了吧
检查是不是utf8应该输入是byte[]吧,因为utf8有的是1个byte表示的,有的是2个byte
的,有的是3个byte的。
String有个constructor
public String(byte[], String charsetName)
这个可以将byte[]变成String,后面的charsetName="UTF-8"就可以变了。但是如果变
不成不知道会怎样,也许就截断了。还是utf8编码体系就不可能有变不成的。但是有可
能是变成了,然后这个字符没有定义。 |
|
f***o 发帖数: 14 | 6 UTF-8的字体在IE和Firefox下面都有问题.不好看.但是目前大多RSS阅读器好象都不支持G
B2312.没办法,我只好把所有的页面转成了UTF-8了.也是适应潮流.大多数的Blog都用的是
UTF-8吧.
其实,这个问题可以用程序解决. |
|
k***r 发帖数: 4260 | 7 I saved a JSP file with an external text editor (Notepad++)
as UTF-8 with BOM. Eclipse reads it fine after I set in
project properties, resource, source file encoding as UTF-8.
However, when I try to save, I get an error:
"Save could not be completed.
Reason:
Some characters cannot be mapped using "ISO-8859-1" charater
encoding ..."
Any idea how I can save JSP in UTF-8? |
|
a*******e 发帖数: 3021 | 8 用f11+gnome
目前locale是en_us.utf-8,以前的中文文件名都能显示(utf-8编码的)
但是怎么不让我创建中文文件名阿?就是在修改文件名里面切换不出中文输入来
难道locale必须得是zh_Cn.utf-8?
忘了说了,gnome-terminal里可以。我说的是用nautilus. |
|
E******A 发帖数: 53 | 9 简体中文用GB,繁体和英文用UTF,如果网站放在美国,都使用UTF吧,否则会有乱码问题! |
|
w*********r 发帖数: 2095 | 10 我的网站的所有网页都用统一的header template, 包含了。
一些网页的内容适用PHP动态生成的。为什么PHP中的中文到了网页就变成问号了,"???
???"
我该如何强制PHP生成的网页使用utf-8 encoding?
谢先了! |
|
T*****m 发帖数: 3480 | 11 【 以下文字转载自 shopping 讨论区 】
发信人: TrueSam (小胖子Authur), 信区: shopping
标 题: IE + hotmail 居然不能够有效显示UTF-8 字体,太土鳖了
发信站: BBS 未名空间站 (Fri Mar 16 10:41:55 2007)
微软最差的就是hotmail
为什么一旦被微软收购,就好几年半点改进没有?
IE + hotmail, 居然不能够有效显示UTF-8 字体, 太土鳖了 |
|
t*n 发帖数: 14458 | 12 别的还好说
他的spam filter等于没有一样
【 以下文字转载自 shopping 讨论区 】
发信人: TrueSam (小胖子Authur), 信区: shopping
标 题: IE + hotmail 居然不能够有效显示UTF-8 字体,太土鳖了
发信站: BBS 未名空间站 (Fri Mar 16 10:41:55 2007)
微软最差的就是hotmail
为什么一旦被微软收购,就好几年半点改进没有?
IE + hotmail, 居然不能够有效显示UTF-8 字体, 太土鳖了 |
|
j*****I 发帖数: 2626 | 13 【 以下文字转载自 Programming 讨论区 】
发信人: johnIII (我思故我灌), 信区: Programming
标 题: 请教汉字的utf-8 mapping
发信站: BBS 未名空间站 (Thu May 1 19:26:34 2008), 站内
发信人: johnIII (我思故我灌), 信区: XML
标 题: 请教汉字的utf-8 mapping
发信站: BBS 未名空间站 (Thu May 1 17:16:11 2008), 转信
找到一个,但是不怎么象
http://www.khngai.com/chinese/charmap/tbluni.php?page=0
觉得应该是3个byte 晕 |
|
k***r 发帖数: 4260 | 14 Project properties? 这个试过了,设成UTF-8之后可以读UTF-8文件,
不能保存。。。 |
|
k***r 发帖数: 4260 | 15 Properties里面没有encoding。。。
菜单Set Encoding里面default是determined from content,
已经是UTF-8了,但是不管用。手工选择 UTF-8就可以了。
谢谢! |
|
b******y 发帖数: 9224 | 16 I use notepad++, great product.
Except the guy hates China I guess, but what da heck, I just use it as it is
free anyway.
UTF-8 is easy, I either use UTF-8 with BOM or not. |
|
k***r 发帖数: 4260 | 17 I find that if jsp is UTF-8 w/o BOM, the page is not
rendered property. Not sure if tomcat determines page
encoding from BOM and sends a wrong header. So I have
to always use UTF-8 with BOM.
it is |
|
c*******9 发帖数: 6411 | 18 I use the following code to write the xml string in UTF-8, the code does not
work in
Japanese SIJIS environment. The code that processed xml in UTF-8 format can
not
process the xml string written out this way.
DOMImplementation* impl =
DOMImplementationRegistry::getDOMImplementation(X(""));
m_theSerializer = ((DOMImplementationLS*)impl)->createDOMWriter();
string namespaceURI = "http://www.w3.org/2001/XMLSchema-instance";
string rootElement = "DMPrintRoot";
m_doc = impl->createDocume |
|
x*****u 发帖数: 3419 | 19 【 以下文字转载自 PDA 讨论区 】
发信人: bos (Bart), 信区: PDA
标 题: Re: Kindle多看对UTF-8的支持有问题?
发信站: BBS 未名空间站 (Mon Jan 10 01:18:50 2011, 美东)
在Mobipocket Creator里面,在Metadata一栏里面,把语言设置成为Chinese (PRC)(
如果是简体中文),然后,编码设置成为正确的编码,一般是UTF-8。然后,Build即可
。生成的mobi文件即带有正确的locale栏。
这个locale栏,在Mobi文件的说明里面有:
http://wiki.mobileread.com/wiki/MOBI
位于在Mobi文件头位移92出一个四字节的域。
如果mobi文件有正确的locale和编码,即使阅读器本身的缺省编码是英语,中文字符也
能正确显示,不会有方格出现。
当然,直接更改阅读器本身的缺省设置更容易。但是听说有时候会造成Time Zone出问
题。我没有试过,不知道。 |
|
x*****u 发帖数: 3419 | 20 【 以下文字转载自 PDA 讨论区 】
发信人: bos (Bart), 信区: PDA
标 题: Re: Kindle多看对UTF-8的支持有问题?
发信站: BBS 未名空间站 (Mon Jan 10 01:18:50 2011, 美东)
在Mobipocket Creator里面,在Metadata一栏里面,把语言设置成为Chinese (PRC)(
如果是简体中文),然后,编码设置成为正确的编码,一般是UTF-8。然后,Build即可
。生成的mobi文件即带有正确的locale栏。
这个locale栏,在Mobi文件的说明里面有:
http://wiki.mobileread.com/wiki/MOBI
位于在Mobi文件头位移92出一个四字节的域。
如果mobi文件有正确的locale和编码,即使阅读器本身的缺省编码是英语,中文字符也
能正确显示,不会有方格出现。
当然,直接更改阅读器本身的缺省设置更容易。但是听说有时候会造成Time Zone出问
题。我没有试过,不知道。 |
|
w******g 发帖数: 559 | 21 所有utf-8编码的网页,统统都间隔地出现?这两个符号。而且显示也有异常。
而且看了源代码发现,这个?出现的都是文字段前或段尾。
GBK,GB2312编码的网页(如mitbbs)就一切完好。IE、火狐、Chrome都是这个现象,
不知道是不是我机子上缺了什么。 |
|
z****c 发帖数: 602 | 22
用look up table吧。utf-8字符的第一个byte决定了这个字符由几个byte构成。后继
byte都以10开头。 |
|
h*********o 发帖数: 230 | 23 UTF-8 string encoding???
有知道的,麻烦告诉一下~~~
谢了 |
|
s********y 发帖数: 28 | 24 来自主题: JobHunting版 - utf-8 utf-8怎么count频率最高的字符的啊?
while (*p != 0)
{
if (*p & 0x80 == 0 || *p & 0xc0 == 0xc0)
++count;
++p;
}
这个可以count总数。 |
|
g*****g 发帖数: 34805 | 25 If it throws an exception, it's not valid. charsetName should be "UTF-8"
public String(byte[] bytes,
String charsetName)
throws UnsupportedEncodingException |
|
x******0 发帖数: 178 | 26 在byte[] bytes = str.getBytes("UTF-8");的时候应该就有exception了吧 |
|
|
l*********8 发帖数: 4642 | 28 考utf基本知识, bit操作和基本编程能力。 |
|
f**u 发帖数: 559 | 29 最近在看看RSS和BLOG,发现许多中文的BLOG已经开始用UTF-8码了.
这样和GB2312相比,有什么好处吗? 我现在用的RSS view
好象对这些编码不能自动判断. //ft. |
|
f**u 发帖数: 559 | 30 咳,苦恼,中国人不容易,光码就弄出好多种,UTF-8是不是简体繁体都编码在一起了,
我得找找看有没有自动换码的网上工具了. |
|
k***g 发帖数: 7244 | 31 还是推荐UTF-8,至少在输入法语Taiwan或是德语Volkswandrung的时候不会出现乱码
,GB码对这些的兼容性太差。 |
|
f**u 发帖数: 559 | 32 oh, just check yours, UTF-8.
the MS has that input? |
|
k***g 发帖数: 7244 | 33 呵呵,这是我的blog程序默认的编码,直接输入就是UTF-8了 |
|
f**u 发帖数: 559 | 34 google seems had sth. it could automately convert
gb fonts to UTF-8, whatever google search results or
gmail. interesting. |
|
c***c 发帖数: 21374 | 35 还是gb2312好一些
win98+IE5.0在阅读utf-8的页面的时候会有一些问题 |
|
y*****u 发帖数: 159 | 36 如果是纯中国市场,可以用gb, 不然建议用 utf-8 |
|
|
R****9 发帖数: 815 | 38 是不是所有语言都可用UTF-8啊?
like: German, French, Korean, Spanish, Swedish, Chinese, Japanese? |
|
s****y 发帖数: 983 | 39 这个情况是编码不一致,10有八九是数据库编码的问题.检查一下数据库里的表,确定
也是用的utf-8 |
|
w*********r 发帖数: 2095 | 40 I fixed it by changing the encoding to "utf-8 without BOM".
Now it is working.
Thank you Sunrey for helping me pointing out the direction. |
|
g******u 发帖数: 153 | 41 This one returns unicode not UTF-8. |
|
g******u 发帖数: 153 | 42 See below from 2 of my presentation page
UTF (Unicode Transformation Format) |
|
h*********o 发帖数: 62 | 43 if you want your app (web or desktop) to support i18n, native2ascii is a
good way to convert your characters into unicode, and then you can display
them correctly in the screen (for example in a jsp, after setting charset to
utf-8). |
|
g*****g 发帖数: 34805 | 44 right click file, choose encoding as UTF-8 |
|
m******t 发帖数: 2416 | 45 If you are on windows, I would recommend always set the encoding to utf-8 at
the workspace level. |
|
g*****g 发帖数: 34805 | 46 I don't get why you need UTF-8 with JSP though, those
resource entries are better saved in resource files. |
|
b***i 发帖数: 3043 | 47 BufferedReader reader = new BufferedReader( new InputStreamReader( System.in
, "UTF-8" ) );
String line = reader.readLine();
System.out.println(line);
运行输入
我
结果是乱码,怎么办? |
|
s***g 发帖数: 495 | 48 在vim中:
ctrl+v
u
b4fa
...
seems your code is gbk instead of utf-8 |
|
l*****n 发帖数: 633 | 49 you want to find the utf-8 value of any character? |
|
S***d 发帖数: 1802 | 50 With firefox.
If you set Chinese font under Simplified Chinese, it is only gonna work for
the Chinese under GB encoding, but if it is UTF-8, it is not gonna work. |
|