ボット “インターネットフレンズ” が人間の言葉を解析して生成したHTMLページボット “インターネットフレンズ” が人間の言葉を解析して生成したHTMLページ

1952年、ナイジェリアのココア農園出身の小説家エイモス・チュツオーラが間違いだらけの英語で書いた「やし酒飲み」という作品がぶっ飛んだ内容と文法で話題を集めた。日本語訳された同書のテキストからは、その彼の独特の英語文体を表現するために、「ですます調」と「だである調」を折り混ぜるなど、訳者の苦心が見え隠れする。

“ わたしは十になった子供の頃から、やし酒飲みだった。わたしの生活は、やし酒を飲むこと以外には何もすることのない毎日でした。 ”

これは人間が書いた文章だが、まるで機械が翻訳したかのような文体で、微妙な言葉使いの誤差が想像を超える結果を生む。チュツオーラの「やし酒飲み」から約60年、今回は機械が行う自動翻訳や自動生成のおもしろさについて触れていきたい。

Google翻訳

一昔前の話だがGoogle 翻訳で『GReeeeN』の日本語訳が『レミオロメン』、『くるり』の英語訳が『Beatles』という衝撃的な結果が話題になった。これはユーザーが人為的に「翻訳を改善」した結果かもしれないし、「統計的機械翻訳」の結果かもしれない。統計的機械翻訳とは、サンプルとなる翻訳のテキストデータを大量に集め、そこから統計的・自動的に、機械翻訳のバリエーションを作りだす手法のことでGoogle翻訳ではこの方法で翻訳をおこなっている。
※現在は改善されている翻訳も多く、くるりに関してはQURULIと正しいローマ字表記になっている。

その一方でGoogle翻訳にはかなり優秀な一面もあり
例えばmikuで訳すにもちょっとした言い回しの違いで結果がかわる。
miku初音ミク
I love miku私はミクを愛して
I love ↵ ( 改行 )
miku
私の大好きな
初音ミク

単語レベルではかなり優秀で
haruhi涼宮ハルヒの憂鬱
zzz寝る
ノンケStraight
ボーイズラブYaoi
といった結果となる。
※いずれも2010年11月現在の状態である

英語に関していえば、近年は翻訳スキームが大きく改善されているが、一昔前は精度も低く「Google翻訳が面白すぎる件」などを見ればチュツオーラばりのおかしな文章を見ることができる。

Yahoo! チャイナモール

話題はGoogleからYahooへ、言語は英語から中国語へと移って別の例をみてみよう。中国のオークションサイト「淘宝網(タオバオ)」と提携して膨大な商品を抱える、Yahoo! チャイナモールでは、商品の紹介文を機械翻訳によって日本語化しているせいか文章が支離滅裂というか大分おかしなことになっている。

yahoo チャイナモールの中国語を機械語した商品名Yahoo! チャイナモールで販売される 中国語を機械翻訳した不思議な商品

この加湿器の商品説明文:
小鴨の加湿器 超音波/マイナスイオン/チリソース煮/静音を防ぎます 10ml名に芳香剤を送ります 江蘇・浙江上海の送料込み

ブタさんのように見える「小鴨の加湿器」、「チリソース煮」は商品と関係のない文言、「静音を防ぎます」という矛盾した言葉、そして「10ml名」って単位は初めて聞いた。
在庫の数も70000を超えててやばかったりするw。

これもまた、人間の予想を大きく裏切る翻訳エラーだから面白いといえる。

機械翻訳とラップ

機械が翻訳したテキストを見るだけでも十分おもしろいのだが、EminemのLose YourselfをGoogle翻訳して日本語でラップした強者がいて、神懸かっているいるので是非見てもらいたい。


オリジナルの【日本語字幕】エミネム / ルーズ ユアセルフと比べてみるとさらに面白い。

他にもDaft PunkのOne More Timeを日本語の歌詞でやってる人がいて、おそらく全文機械翻訳ではないが、エフェクトもかかっているせいかそこまで痛い感じはしない。



ボットたち

ここまでは機械が言葉を翻訳したものを紹介したが、ここからは機械が自動的に何かを生成するコンテンツについて触れていく。

機械によって自動的に生成されるコンテンツ。一番わかりやすい例は、近年Twitterなどでその存在と活躍が目立つようになった、ボット(BOT)だろう。このボットという言葉は元々ロボットの短縮形としての呼称だが、現在では主にインターネット上で活躍する自動化プログラムのことを差す場合が多い。

Poi bot

空気が読めるコンピュータをつくろうプロジェクト」から誕生したPoi botはTwitterでフォローすると過去の自分の発言を解析して、「本人っぽいツイート」をしてくれるボットだ。たしかに自分のつぶやいた言葉だが...何かが違う。

@poibot_jpPoibot

圧縮新聞

圧縮新聞は一日に起きたニュースを140文字以内にまとめてくれるものだが、沢山の出来事を一文に圧縮してしまうため、意味不明な文章になりがちであまりニュースになっていない。ニュースを読む暇がないほど忙しく、とても想像力が豊かな人にはオススメだ。

※ 2010年11月02日の圧縮新聞より

その他にも古くからチャットの世界で活躍してきた「人工無能」や、素敵な短歌を読みあげてくれる短歌自動生成スクリプトの「星野しずる」などもある。

ボットの思考

こういったボット的なテキストを生成する方法はいくつもあるが、代表的なものは日本語の文法にあう品詞のなかから、単語をランダムに選択する「マルコフ連鎖」という手法だ。語彙(ごい)となる辞書を人間が作り、その単語の組み合わせをマルコフ連鎖などによって自動化する、そうすることで生々しい文章を自動的に無限のバリエーションを作り出すことができるのだ。

ボットではないが「Twitter診断メーカー」を使えば自分で診断結果を登録することで簡単にジェネレーターを作れる。

基本的には
Idea Generator IDEA GENERATOR

IDEA GENERATOR(のように複数の項目、それぞれに単語(文章)を登録してそれをランダムに出力することで成立するシンプルなもの。これは英語のみだが、結果を日本語に翻訳すると面白かったりもする。上記画像(comedic illuminating sex toy)のGoogle翻訳の結果は「喜劇照明大人のおもちゃ」

ボットっぽい人間

Twitterでは◯◯ボットというアカウントがよくあるが、その中には機械ではなく人為的にそれっぽい投稿しているものも多い。見分けるのはなかなか難しいが、柔軟すぎるつぶやきをするボットにはメルツェルの将棋指しよろしく、“なかの人” の存在を疑ったほうがいい。
@shuzo_matsuoka修造bot
@miles_davis_botMiles Davis bot
@sazae_fサザエbot
@agehaBot小悪魔ageha_bot


星野しずる

前述の星野しずるの正体は、佐々木あらら氏が作成した短歌を自動生成プログラム<犬猿>だ。しかし、彼女の詠んだ作品は歌人として「第七回枡野浩一短歌賞」を受賞している。こういったものをうまいこと使えば、詩のコンテストで盗作して失格となった女子中学生も何とかなったのではないだろうか。
星野しずるに関しては文芸誌「界遊」でもネオ短歌宣言〜自動生成の表現を巡って〜と題する特集してるので興味のある方は読んでみるとよいだろう。

星野しずる ( 短歌自動生成プログラムが擬人化され、歌人のキャラクターとなった )

詩歌や自由詩の自動化の歴史は古く、星野しずるとよく似たもので、1995年に作られた井庭崇による「自動ポエム作成システム」というものもある。

「無題」 自動ポエム作成システム (著), 1995年

青空は風
男の子は波

男の子のTシャツはきらきら

どうして風って名前なんだろう。

青空は風
男の子は波

これは15年前に自動生成で作られた詩だが、井庭氏の解説が詩的で素晴らしい。他にも「自動ラブレター作成システム」「自動対談作成システム 」などを過去に製作しているようだ。


スパムブログ

更新してないのに 毎日更新される 自動更新ブログ生成ツール更新してないのに 毎日更新される 自動更新ブログ生成ソフト 販売サイト

人間から与えられた語彙のなかから、自動的に魅力的な短歌や詩を生み出すボット。しかし、一方でこの技術は実のところスパムブログの技術として利用されることも多い。

インターネット上には、スプログ(スパムブログ) と呼ばれる膨大な数のサイトが存在している。スプログはネット上で話題のトレンドワードなどを使って大量の「支離滅裂な文章(ワードサラダ)」をブログエントリーとして投稿しつづけるようにできている。何も知らないユーザは検索ページから話題の情報が手に入ると思いそこへアクセスするが、あるのは特に意味をもたないキーワードだらけの大量の日本語である。こうしてアクセスが増えることで、サイト管理者にアフィリエイト収入が入るような構造になっている。

SEO対策について少し検索してみると、こういった手法でアクセス向上を実現させる(らしい)ソフトウエアの販売ページをちらほら見かける。このワードサラダの仕組みにも、やはりマルコフ連鎖などボットの同様の手法が利用されることがあるようだ。

※スブログが実際にどんなものか、興味のある方はこちらのはてな匿名ダイアリーの記事も参考にどうぞ

まとめ

今回の投稿は10月30日に行われたTokyo Internet Clubというイベントでの原稿をまとめ直したものだ。会場ではリアルタイムで音声解析しながら、文章と画像検索を行いhtmlページに変換していく、議事録作成ボット「インターネットフレンズ」と共にトークイベントを行った。本稿の一番最初に登場したウェブページのスクリーンショットは、その際に作成されたものである。
途中回線のトラブルなどあったが改めて記しておくが...当事者が見ても何をしゃべってたのかわからないw。