2017年1月25日水曜日

[品詞解析サーバーへの道] #04 ロシア語サイトのソース取出しと加工

1.ロシアサイトのhtmlソース（単語）抜出し

Eclipse neonから、JavaのgetInputStream()機能でロシア語検索サイトの情報をまるまる取ろうとしたら、コンソールで文字化けしてしまいます。

なんでだろうと思い、以下のようにUTF-8に変えるもだめした。

　eclipse.ini に -Dfile.encoding=utf-8 を追加
　Run Configuration > Common > Encoding で UTF-8 を選択

っていうか、そもそも日本語googleもwebコンテンツ取り込みで文字化けしてた。

ためしにソースに日本語、キリル語をprintしてみると、

これ、コンソールの問題でなく、相手ＷＥＢ側のヘッダに問題があるようです。

以下をソースに追加すると、

        URLConnection con = url.openConnection();
        con.connect();
        System.out.println(con.getContentType());

こんな結果が。

○ yahoo.co.jp --> text/html; charset=Shift_JIS
○ baidu.com --> text/html;charset=UTF-8 ○
○ pogoda.mail.ru/prognoz/tokyo/ --> 結果なし
○ yandex.ru --> UTF-8
× google.ru --> text/html; charset=windows-1251

上記は、別の方法でUTF-8としてリクエストする方法がわかったのでＯＫとします。

2.単語の取出しとＨＴＭＬ追加

続いて、regular expression で　htmlタグを取り除く。ワンライナーな技術はないので、原始作法ですみません（泣

                String str1 = oneLine.replaceAll("<script.+?/script>",""); //script delete
                String str2 = str1.replaceAll("<style>.+?</style>", "");
                String str3 = str2.replaceAll("<div class=>.+?</div>", "");
                String str4 = str3.replaceAll("<.+?>", " "); //tag delete
                String str5 = str4.replaceAll("&.+?;", " "); //%--; delete
                String str6 = str5.replaceAll("—&.+?;", " "); // -&--; delete
                String str7 = str6.replaceAll(" *", " "); // continual space delete

これで、お尻の部分をのぞいて、きれいさっぱり消えました
とりのぞいた結果が以下。

3.DB問い合わせとhtmlを再加工

2.で、replaceAllで、カンマ区分でデータを加工できたので、続いて一つずつ配列に単語を投入して、DB問い合わせをして、単語の前後に学習用htmlタグを付加します。
　最初はWebSphere経由ではなく、直接JDBCでつなげてトライしてみます。

　　            String[] words = str8.split(",", -1);
                for (int ii = 0 ; ii < words.length ; ii++){
                    ここでDB問い合わせとHTML加工
                }

2017年1月9日月曜日

[品詞解析サーバーへの道] #03 DataStudioでデータ編集

名詞、動詞、形容詞は多すぎて大変・・・。
あとでデータのインポートを考えます。

なので変化がないと思う前置詞のデータを手入力します。

データ入力方法はDataStudioから、該当のテーブルを右クリックして、データの編集でＯＫです。

　こんな感じで入力していきます。ExcelというかAccessの操作に近いですね。
F2で
　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　↓↓↓

　とりあえず、ＤＢはこれでＯＫです。
　右上にデータベースにコミットなるアイコンがあるのでそれを押せばデータ入力完了です。

挿入済み 12 行
更新済み 0 行
削除済み 0 行

insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('во ', 'into, to, in, at')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('в', 'into, to, in, at')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('за', 'behind, beyond')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('из', 'from')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('к', 'towards')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('на', 'onto, to')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('о', 'about')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('об', 'about')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('от', 'from')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('по', 'along, according to')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('с', 'with, from, since')
insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('у', 'by')

登録作業中にエラーが出た・・・

insert into "DB2ADMIN"."PREPOSITION" ("word", "meanings") values('вместо', 'instead of')
com.ibm.db2.jcc.am.SqlDataException: EXECUTE または OPEN ステートメント内のホスト変数の値が、対応する使用の範囲外にあります。. SQLCODE=-302, SQLSTATE=22001, DRIVER=4.13.111

IBMではこういう情報があった。
http://www.ibm.com/support/knowledgecenter/ja/SSEPEK_10.0.0/codes/src/tpc/n302.html
DB2® が、無効なデータか、または表の対応する列または対応するターゲット値に入れるには大きすぎるデータを受け取りました。

もしやと思い、VARCHARが短すぎる？と思い、word列を10から30に変更すると登録できるようになりました。他のテーブルも同じ事が発生しそうです。

[品詞解析サーバーへの道] #02 DataStudioで品詞別テーブル作成

前回でなんとかＤＢサーバが作成できて、リモートからＧＵＩを使って操作できました。

コマンドと比べて圧倒的に楽ちんなので、IBMのDataStudioでテーブルと追加をしようと思います。
CSEも検討しましたが、大手ベンダーを優先しちゃいました。

今回は以下の手順を試してみます。

1.品詞テーブルの作成方法
2.品詞テーブルの列の追加、削除

1.品詞テーブルの作成方法

1.DB2サーバを起動する(管理者CLPで　"db2start" )

2.IBM DataStudioを起動する

3.左のツリーで、「すべてのデータベース」→「DB2サーバの ip アドレス」→「MYINST」→「russian」
　を順にクリック。

4.ずららっと一覧が出るので「表」をクリックすると、以下の画面がでます。

　前回作ったテーブル「NOUN」がありますね

5.ではテーブル「VERB」を作成してみましょう。

6.左側の「表」を右クリック　→　「作成表」

7.スキーマの選択が出てくるので、「DB2ADMIN」を選ぶ。

8.最初は"表1"と表示するけど、名前を「VERB」に変更。

9.続いて、左の"列"をクリック　→　＋マークを押して列を追加。

　　　　追加項目は ①名前（STEM)、②主キー、③文字の長さとしました。

10. 特に保存はしないで、上のテーブル欄の最終行をスクロールしてみてみると

　　アイコンは違うけど、VERBテーブルが現れてますね。

11.続いて、右上のアイコン"変更の確認とデプロイ"を押す。

12.すると、SQLを含んだ確認画面がでるので実行を押す。

13."成功"と表示されて、VERBテーブルのアイコンもNOUNテーブルと同じになりました。

2.テーブルの削除

　以外にテーブルの削除は簡単で、アイコンから、削除したいテーブルを選らんで

　ドロップを選べばＯＫです。

3.テーブルの列の追加/削除

　1.列を追加/削除したいテーブルを右クリックして、「変更」をクリック。

2.列をクリックして、上にある＋と× で追加/削除ができます。

現状の名詞(Noun)テーブルの列

今のところ文法知識が初歩なので以下の通りとしました。

格によるすべての登録は現実的ではないです。登録が何百、何千倍となり時間が追いつきません。

＜基礎情報＞

　・Stem 主キー語尾(the ending)を取った文字とする。
　・Meaning

　・Gender （性） masculine, feminine, neuter

　・Case regular,irregular

　以下は、CASEがirregularの場合のみ格納。regularは別の語尾規則テーブルを持たせます。

　　↓

＜格単数＞

　・S_Nominative

　・S_Genitive

　・S_Dative

　・S_Accusative

　・S_Instrumental

　・S_Prepositional

＜格複数＞

　・P_Nominative

　・P_Genitive

　・P_Dative

　・P_Accusative

　・P_Instrumental

　・P_Prepositional

なぜわざわざ英語？となりますが、
Lang8など日本語ができないネイティブとやりとりする場合に英語が一番だからです。

日本語だけでなく、英語でもロシア語を勉強すると英語力もキープできますし。
何事も有機的に繋げるのがモットーです。

次回はデータを打ち込んでみます。

2017年1月5日木曜日

[品詞解析サーバーへの道] #01 RUSSIANデータベースDB2の構築（Windows編）

環境

Windows Server DataCenter （VMWare上の仮想）
DB2 10 Enterprise　(trial version)
参考文献：即戦力のDB2管理術　～仕組みからわかる効率的管理のノウハウ

手順１．インストールからインスタンスの起動まで

1.windowsでdb2adminの作成（管理者）
2.db2adminでログイン、DB2をインストール
　～再起動不要～
3.c:\windows\system32\drivers\etc\servicesに以下を追加
(メモ帳は管理者権限で）

   db2_myinst    50010/tcp

4.すべてのプログラム→IBM DB2 → DB2COPY1(デフォルト) →　コマンドウインドウ（管理者）

   db2icrt myinst

　※コマンドウインドウ（管理者））　は今後　管理者CLPと書きますね。

5. 同じく、管理者ＣＬＰで、以下のコマンドを実行

   set DB2INSTANCE=myinst

6. 同じく、管理者ＣＬＰで、以下のコマンドを実行

   db2set -i myinst DB2COMM=TCPIP
   db2 "UPDATE DBM CFG USING SVCNAME 50010" → 3～5分？

7. db2start

とりあえず、大枠のインスタンスの作成が完了し、データベースが起動しました。

手順2.データベースと表の作成

1.管理者ＣＬＰでデータベースを作成

db2 "CREATE DATABASE RUSSIAN" 　→　 3～5分ほど待つ

　→ DB20000I CREATE DATABASE コマンドが正常に完了しました　と出ればＯＫ

2.確認

db2 "CONNECT TO RUSSIAN"

　データベース情報

　データベース・サーバー = DB2/NT 10.1.0
　SQL　許可 ID    =DB2ADMIN
　ローカル・データベース別名 = RUSSIAN

　　　うれしいですね。なんか。

ではnoun(名詞)テーブルを作成しよう。
語幹、語尾変化も考慮してちょっとつっこんだ正規化も考えていますが
いかんせんＤＢ音痴なところもあるので、テーブルとリレーションを試行錯誤で考えて
また作成しなおそうと思います。

3. noun テーブルを作成します　（語幹、性）
db2 "CREATE TABLE NOUN (STEM VARCHAR(20),GENDER VArCHAR(10))

コマンドが正常に完了しました。

4. データをインサートする（パパ、男性名詞）

C:\Program Files\IBM\SQLLIB\BIN>db2 "insert into noun values ('папа','masucu
line')
DB20000I SQL コマンドが正常に完了しました。

5.selectで確認する

C:\Program Files\IBM\SQLLIB\BIN>db2 "select * from noun"

STEM                 GENDER
-------------------- ----------
папа             masuculine

1 レコードが選択されました。

とりあえずできた！

手順3.リモートＰＣからデータベースサーバへの操作準備

コマンドではちょっと見にくいので、Excelみたいな表で視覚的に表を作成したり
列を追加したり遊んでみます。
とりあえずIBMのDataStudioで接続してみます。ググればすぐダウンロードできます。

現在作りたい表は、
noun , verb , adverb , adjective , conjuction , preposition

1 まず、インストール後の初期設定ということで、左の管理メニューの「管理エクスプローラ」より
新規の右横の三角をクリック。プルダウンメニューがでるので「データベースへの新規接続」をクリックする。

　↓　こんな画面がでてきます。青の部分を入力する。

　　　　・データベースマネージャは、今回WindowsServerでDBをインストールしたので
「DB2 for Linux,Unix,およびWindows」

　　　　・データベースは「russian」

　　　　・ホストはサーバのIPアドレス。自分のＰＣなら自分のＰＣのアドレスを入力。

　　　　・ポート番号は手順１の3で設定した TCP 50010

　　　　・ユーザ名、パスワードはWinとDB2で設定したパスワード（WinもDB2も同じはずです）

下部にある、「接続のテスト」を押してみてオッケーだったら、接続完了です。
　

データベースの作成は、また次回。

==== 補足 ====

サーバを再起動したら環境変数がメモリから消えてしまいます。

管理者CLPから、db2startするまえに、
OSのコマンドプロンプトから　

　set DB2INSTANCE=myinst　

が必要です！！

[word order] 語順の比較1

今まで学んだ外国語の語順の厳しさ

語順に厳格さを求めるならば、

　中国語　>>>　英語　> 日本語

と思ってます。散々中国人、台湾人にいわれました。
見方を変えると語順の違いで意味が分からなくなったり、
何か意図した意味深いものが含まれる可能性もありそうです。

日本語については柔軟さがあるとも思えます。
英語も少なからず言われてますが。

ではロシア語の語順は？

ところで、語順を比較してみたいのですが、

　日本語　「それ食べたい。」「食べたい、それ。」 Obj Verb , Verb　Obj
　英語　　　「I want to eat that 」 Subj Verb Obj
　中国語　「我要吃这个」 Subj Predi Obj
　ロシア語　「Я хочу съесть это」 Subj Verb Obj

この文章を見る限り日本語以外共通していますねー。
主語の省略についてですがgoogleで調べる限り、上記の文ではロシア語のSubjは省略が
あまりないようです。
（複文や修飾で複雑な文章はこれからですけど）
https://www.google.co.jp/webhp#q=%22%D1%85%D0%BE%D1%87%D1%83+%D1%81%D1%8A%D0%B5%D1%81%D1%82%D1%8C+%D1%8D%D1%82%D0%BE%22

英語圏や中国語圏の人たちは？

やはり語順については学習者の共通の悩みでもありますね。

A guide to the Russian word order
https://www.duolingo.com/comment/13955228

話は逸れて、世界のあらゆる言語ではいったいどんな語順？

とても興味深い文献がありました。

像尤达大师一样说话，你能！

http://www.guokr.com/article/441084/

我们不妨先来简单地了解一下语序的基本类型。

通常来说，一种语言的句子中包含三个主要成分，主语（Subject）、动词（Verb）和宾语（Object），一种语言的基本语序也是由这三者所决定的。通过排列，这三个主要成分理论上可以呈现出六种不同的基本语序，分别是：主语-宾语-动词（SOV）、主语-动词-宾语（SVO）、动词-主语-宾语（VSO）、动词-宾语-主语（VOS）、宾语-动词-主语（OVS）和宾语-主语-动词（OSV）。

而令人惊讶的是，按照目前我们对于人类数千种语言的有限了解，这六种基本语序在自然语言中全部都真实地存在！

(注) 主语-宾语-动词の宾语(bin yu)は目的語のことです

日本語にすると、

SOV 私はご飯を食べたよ。

SVO　私は食べたよ、パンを。

VSO　食べた私はパンを。

VOS　食べたよ、ご飯を、私は。

OVS　ご飯を食べたよ。私は。

OSV　ご飯を私食べた。

以外にも柔軟にいけててます。これ、助動詞の助けがあるからでしょうか。

ロシア語も格変化のおかげで柔軟にいけそうですが、もっとロシア語を勉強してから

追及するネタかもしれません。

2017年1月2日月曜日

[pronunciation] 中-露発音対照表

中国語のピンインをマスターした人なら興味深いかとおもいます。
見てわかるとおり、日本語にない母音・子音が中国語の発音から応用できるところが
多々あることがわかりました。英語、中国語でも対応しない発音もありますけど。

汉俄拼音对照表
http://ru.360wyw.com/studyguidance/v47758

これが上記サイトの元ネタでです。

	ding—дин	jie—цзе	miu—мю	ri—жи	weng—вэн
a—а	diu—дю	jin—цзинь	mo—мо	rong—жун	wo—во
ai—ай	dong—дун	jing—цзин	mou—моу	rou—жоу	wu—ву
an—ань	dou—доу	jiong—цзюн	mu—му	ru—жу	X
ang—ан	du—ду	jiu—цзю	N	rua—жуа	xi—си
ao—ао	duan—дуань	ju—цзюй	na—на	ruan—жуань	xia—ся
B	dui—дуй	juan—цзюань	nai—най	rui—жуй	xian—сянь
ba—ба	dun—дунь	jue—цзюе	nan—нань	run—жунь	xiang—сян
bai—бай	duo—до	jun—цзюнь	nang—нан	ruo—жо	xiao—сяо
ban—бань	E	K	nao—нао	S	xie—се
bang—бан	e—э	ka—ка	ne—нэ	sa—са	xin—синь
bao—бао	ei—эй	kai—кай	nei—нэй	sai—сай	xing—син
bei—бэй	en—энь	kan—кань	nen—нэнь	san—сань	xiong—сюн
ben—бэнь	eng—эн	kang—кан	neng—нэн	sang—сан	xiu—сю
beng—бэн	er—эр	kao—као	ni—ни	sao—сао	xu—сюй
bi—би	F	ke—кэ	nian—нянь	se—сэ	xuan—сюань
bie—бе	fa—фа	kei—кэй	niang—нян	sen—сэнь	xue—сюе
bin—бинь	fan—фань	ken—кэнь	niao—няо	seng—сэн	xun—сюнь
bing—бин	fang—фан	keng—кэн	nie—не	sha—ша	Y
bo—бо	fei—фэй	kong—кун	nin—нинь	shai—шай	ya—я
bu—бу	fen—фэнь	kou—коу	ning—нин	shan—шань	yan—янь
C	feng—фэн	ku—ку	niu—ню	shang—шан	yang—ян
ca—ца	fiao—фяо	kua—куа	nong—нун	shao—шао	yao—яо
cai—цай	fo—фо	kuai—куай	nou—ноу	she—шэ	ye—е
can—цань	fou—фоу	kuan—куань	nu—ну	shei—шэй	yi—и
cang—цан	fu—фу	kuang—куан	nü—нюй	shen—шэнь	yin—инь
cao—цао	G	kui—куй	nuan—нуань	sheng—шэн	ying—ин
ce—цэ	ga—га	kun—кунь	nüe—нюе	shi—ши	yo—ио
cen—цэнь	gai—гай	kuo—ко	nuo—но	shou—шоу	yong—юн
ceng—цэн	gan—гань	L	O	shu—шу	you—ю
cha—ча	gang—ган	la—ла	o—о	shua—шуа	yu—юй
chai—чай	gao—гао	lai—лай	ou—оу	shuai—шуай	yuan—юань
chan—чань	ge—гэ	lan—лань	P	shuan—шуань	yue—юе
den—дэнь	huo—хо	meng—мэн	R	W	zong—цзун
deng—дэн	J	mi—ми	ran—жань	wa—ва	zou—цзоу
di—ди	ji—цзи	mian—мянь	rang—жан	wai—вай	zu—цзу
dia—дя	jia—цзя	miao—мяо	rao—жао	wan—вань	zuan—цзуань
dian—дянь	jian—цзянь	mie—ме	re—жэ	wang—ван	zui—цзуй
diao—дяо	jiang—цзян	min—минь	ren—жэнь	wei—вэй	zun—цзунь
die—де	jiao—цзяо	ming—мин	reng—жэн	wen—вэнь	zuo—цзо

chang—чан	gei—гэй	lang—лан	pa—па	shuang—шуан	yun—юнь
chao—чао	gen—гэнь	lao—лао	pai—пай	shui—шуй	Z
che—чэ	geng—гэн	le—лэ	pan—пань	shun—шунь	za—цза
chen—чэнь	gong—гун	lei—лэй	pang—пан	shuo—шо	zai—цзай
cheng—чэн	gou—гоу	leng—лэн	pao—пао	si—сы	zan—цзань
chi—чи	gu—гу	li—ли	pei—пэй	song—сун	zang—цзан
chong—чун	gua—гуа	lia—ля	pen—пэнь	sou—соу	zao—цзао
chou—чоу	guai—гуай	lian—лянь	peng—пэн	su—су	ze—цзэ
chu—чу	guan—гуань	liang—лян	pi—пи	suan—суань	zei—цзэй
chua—чуа	guang—гуан	liao—ляо	pian—пянь	sui—суй	zen—цзэнь
chuai—чуай	gui—гуй	lie—ле	piao—пяо	sun—сунь	zeng—цзэн
chuan—чуань	gun—гунь	lin—линь	pie—пе	suo—со	zha—чжа
chuang—чуан	guo—го	ling—лин	pin—пинь	T	zhai—чжай
chui—чуй	H	liu—лю	ping—пин	ta—та	zhan—чжань
chun—чунь	ha—ха	lo—ло	po—по	tai—тай	zhang—чжан
chuo—чо	hai—хай	long—лун	pou—поу	tan—тань	zhao—чжао
ci—цы	han—хань	lou—лоу	pu—пу	tang—тан	zhe—чжэ
cong—цуу	hang—хан	lu—лу	Q	tao—тао	zhei—чжэй

中国語学習者のためにピンイン→漢字に変換してみます。

※ x　は、辞書からみつけられませんでした。

A	顶—дин	界—цзе	缪—мю	日—жи	翁—вэн
啊—а	丢—дю	进—цзинь	末—мо	荣—жун	我—во
爱—ай	东—дун	京—цзин	某—моу	肉—жоу	无—ву
安—ань	都—доу	迥—цзюн	木—му	如—жу	X
昂—ан	度—ду	就—цзю	N	挼—жуа	西—си
澳—ао	短—дуань	句—цзюй	那—на	软—жуань	下—ся
B	对—дуй	卷—цзюань	耐—най	瑞—жуй	县—сянь
吧—ба	吨—дунь	决—цзюе	南—нань	润—жунь	向—сян
百i—бай	多—до	军—цзюнь	囊—нан	若—жо	小—сяо
半—бань	E	K	脑—нао	S	些—се
帮—бан	饿—э	卡—ка	呢—нэ	撒—са	新—синь
报—бао	x—эй	开—кай	内—нэй	塞—сай	星—син
北i—бэй	恩—энь	看—кань	嫩—нэнь	三—сань	熊—сюн
本—бэнь	鞥—эн	康—кан	能—нэн	桑—сан	秀—сю
崩—бэн	而—эр	考—као	你—ни	扫—сао	序—сюй
比—би	F	可—кэ	年—нянь	色—сэ	选—сюань
别—бе	法—фа	x—кэй	娘—нян	森—сэнь	学—сюе
宾—бинь	反—фань	x—кэнь	鸟—няо	僧—сэн	旬—сюнь
病—бин	方—фан	坑—кэн	捏—не	杀—ша	Y
波—бо	非—фэй	空—кун	您—нинь	晒—шай	压—я
部—бу	分—фэнь	口—коу	宁—нин	山—шань	言—янь
C	风—фэн	苦—ку	牛—ню	上—шан	阳—ян
擦—ца	覅—фяо	跨—куа	农—нун	少—шао	要—яо
菜—цай	仏—фо	块—куай	耨—ноу	设—шэ	也—е
参—цань	否—фоу	款—куань	努—ну	谁—шэй	以—и
藏—цан	副—фу	况—куан	女—нюй	深—шэнь	因—инь
草—цао	G	亏—куй	暖—нуань	生—шэн	应—ин
测—цэ	伽—га	困—кунь	虐—нюе	是—ши	哟—ио
笒—цэнь	该—гай	括—ко	诺—но	手—шоу	用—юн
曾—цэн	干—гань	L	O	书—шу	有—ю
茶—ча	岗—ган	拉—ла	噢—о	刷—шуа	语—юй
柴—чай	高—гао	来—лай	欧—оу	帅—шуай	元—юань
产—чань	个—гэ	兰—лань	P	拴—шуань	月—юе
扽—дэнь	或—хо	梦—мэн	R	W	总—цзун
等—дэн	J	米—ми	然—жань	哇—ва	走—цзоу
第—ди	机—цзи	面—мянь	让—жан	外—вай	足—цзу
嗲—дя	家—цзя	苗—мяо	绕—жао	万—вань	钻—цзуань
点-дянь	间—цзянь	蔑—ме	热—жэ	网—ван	最—цзуй
掉—дяо	讲—цзян	民—минь	人—жэнь	为—вэй	尊—цзунь
叠—де	叫—цзяо	名—мин	仍—жэн	问—вэнь	作—цзо

场—чан	给—гэй浪	—лан	怕—па	双—шуан	云—юнь
朝—чао	跟—гэнь	l老—лао	牌—пай	水—шуй	Z
车—чэ	更—гэн	了—лэ	盘—пань	顺—шунь	杂—цза
沉—чэнь	工—гун	累—лэй	胖—пан	说—шо	在—цзай
成—чэн	购—гоу	冷—лэн	跑—пао	四—сы	暂—цзань
吃—чи	古—гу	里—ли	配—пэй	送—сун	脏—цзан
重—чун	瓜—гуа	俩—ля	盆—пэнь	搜—соу	早—цзао
臭—чоу	怪—гуай	连—лянь	朋—пэн	速—су	泽—цзэ
出—чу	关—гуань	两—лян	皮—пи	算—суань	贼—цзэй
欻—чуа	广—гуан	料—ляо	片—пянь	岁—суй	怎—цзэнь
踹—чуай	贵—гуй	列—ле	票—пяо	孙—сунь	增—цзэн
船—чуань	滚—гунь	林—линь	氕—пе	所—со	炸—чжа
创—чуан	过—го	令—лин	品—пинь	T	窄—чжай
吹—чуй	H	六—лю	瓶—пин	他—та	站—чжань
春—чунь	哈—ха	咯—ло	破—по	台—тай	张—чжан
戳—чо	海—хай	龙—лун	剖—поу	谈—тань	找—чжао
词—цы	汉—хань	楼—лоу	普—пу	唐—тан	着—чжэ
从—цуу	航—хан	路—лу	Q	套—тао	这—чжэй

[linguistics] 男性、女性、中性？

なんで、名詞を学ぶときに男性、中性、女性っていう？

仕事と趣味が理由で、ずーっと２つの言語を学んでましたが、実は大学時代フランス語を履修してました。
「じゅまペール名前」、「じゅとゅぶ」「じゅてーむ」、「トワエモア」しか覚えてません！

ところで、フランス語、ロシア語も男性、女性、中性なる文法用語がありますね。
これ覚えるのめっちゃつらいんですが、世界中の言語のおおよそ四分の一で使われてるんですね。

https://en.wikipedia.org/wiki/Grammatical_gender

"In linguistics, grammatical gender is a specific form of noun-class system in which the division of noun classes forms an agreement system with another aspect of the language, such as adjectives, articles, pronouns, or verbs. This system is used in approximately one quarter of the world's languages. In these languages, most or all nouns inherently carry one value of the grammatical category called gender;"

ちなみに以前の英語もあったらしい。
Why Do Languages Have Gender?
http://www.k-international.com/blog/why-do-languages-have-gender/

Actually, English used to be a gendered language, too. English speakers stopped classifying most nouns by gender during the Middle English period.

話がそれましたが、英語、中国語のロシア語の勉強方法をみてみましょう。

英語の場合

英語ではgenderを"Masculine,Feminine,Neuter"で区分けする。
http://www.russianlessons.net/grammar/nouns_gender.php

	1. Look at the last letter of the word: 2. If it is a consonant, or “й”, the word is masculine. 3. If it is “а” or “я” it is feminine. 4. If it is “о” or “е” it is neuter. 5. If it is a soft sign “ь” then it could be either masculine or feminine.

中国語の場合

興味深いのが、中国のロシア語文法用語では「陽性、陰性、中性」としています。
https://zh.wikipedia.org/wiki/%E4%BF%84%E8%AF%AD%E5%90%8D%E8%AF%8D

俄语名词有性的区别。根据词尾不同分为阳性、阴性、中性。

性	词尾	例子
阳性	硬辅音 -й -ь	парк(公园) герой（英雄） словарь（词典）
阴性	-а -я -ь	комната（房间） Корея（朝鲜）, Океания（大洋洲） тетрадь（练习本）
中性	-о -е	окно（窗户） поле（田野）, здание（建筑物）

https://zh.wikipedia.org/wiki/%E6%80%A7_(%E8%AF%AD%E6%B3%95)

俄語中動詞的過去分詞隨名詞性的變化


a.	Журнал	лежал	на	столе.
	雜誌	曾在(陽)	⋯上	桌子
「	雜誌曾放在桌子上。」
b.	Книга	лежала	на	столе.
	書	曾在(陰)	⋯上	桌子
「	書曾放在桌子上。」
c.	Письмо	лежало	на	столе.
	信	曾在(中)	⋯上	桌子
「	信曾放在桌子上。」

男性名詞、女性名詞の文法用語は日本だけかとおもいましたが
共通しているんですね。

登録: 投稿 (Atom)

プロフィール

ニックネーム：Leeさん

○ロシア語学習歴：2016/12から開始。昨今のスマホアプリやクラウドサービスやネイティブ交流ＳＮＳを使ったハイテク学習もおりまぜて、効率よく勉強したいと思ってます。

○仕事での語学歴：英語は数年、中国語は1年くらい。勉強という意味では実際にはそれぞれ10年以上です。TOEIC700くらい。HSK6級取得。ともあれ試験が目的でなく、読み書きも必要ですが、ネイティブと話せることが一番の目的！