[SML 7296] Natural Smalltalk, a natural language processing library on/against Squeak

Tomohiro Oda tomohiro @ sra.co.jp
2007年 4月 7日 (土) 10:09:57 JST


おだです。

Smalltalkや英語のテキストを自然言語処理の技術で分析する
Squeak上のツールライブラリ Natural Smalltalkを開発しま
したので公開します。

http://map.squeak.org/package/624ed871-4e89-4343-8652-af38a873d0b4/autoversion/1

Smalltalk(に限らずプログラミング言語)の自然言語的な側面
に興味があり、Smalltalkプログラムに自然言語処理技術を適用
して何ができるか試行錯誤をしているのですが、その試行錯誤で
生まれたコードをまとめてライブラリとして公開することにしま
した。

NaturalSmalltalkではSmalltalkのプログラムを英単語に
分解してクラスタリングやキーワード抽出、自動分類に用います。
こうしてプログラムを単語に分解することで、
* クラスタリング(K-means法)
* 自動分類(tfidf, Naive Bayes)
* キーワード抽出(tfidf, posterier probability)
* 可視化(FastMap)
をおこないます。

また、実行された各メソッドの時間計測とキーワード抽出をおこなう
MessageSpyや、Squeak環境内で実行中のプロセス群の実行コンテキスト
のソースコードからキーワードを抽出するWhatyaDoingが応用例題として
付属しています。

実行の様子のスナップショットをいくつか添付します。
ぜひ使ってみて感想をお聞かせください。
---
おだ
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: Collection.png
型:         image/png
サイズ:     5710 バイト
説明:       無し
URL:        http://www.akademia.co.jp/pipermail/sml/attachments/20070407/3fc211e1/Collection.png


SML メーリングリストの案内