- Mavericks AI ニュース
- Posts
- Xのリアルタイム情報にアクセスできるチャットボットGrokが使用可能に!照明を考慮して画像の背景を違和感なく合成できる革新的技術が発表など
Xのリアルタイム情報にアクセスできるチャットボットGrokが使用可能に!照明を考慮して画像の背景を違和感なく合成できる革新的技術が発表など
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、プロンプトエンジニアリングの熟練度をLevel 1~10で定めたフレームワークについて紹介します!
📚 目次
1. 直近のビッグニュースTop 3
① 照明を考慮して画像の背景を違和感なく合成できる革新的技術が発表
② プログラマ向けQ&Aサイト運営のStack OverflowがOpenAIとの提携を発表
③ Xのリアルタイム情報にアクセスできるチャットボット「Grok」が使用可能に
2. SNSで話題のAIツールをピックアップ!
① Supertone Shift
② Anthropic Prompt Generator
1. 直近のビッグニュースTop 3
① 照明を考慮して画像の背景を違和感なく合成できる技術が発表
画像生成AI技術の発展により、高品質な画像を手軽に生成できるようになりました。一方で、思い通りの画像を生成したいとなると、まだまだ痒い所に手が届かないことも多いです。
今回発表された「IC-Light」は、人物や商品などの画像を背景と違和感なく合成できる技術です。下の投稿において、一番左の画像が元画像、一番右の画像が生成画像となっていますが、窓から差し込む光によって生じる陰影が見事に描かれていることが分かります(こちらのデモで試すことができます)。
生成画像で浮きがちな人物を背景とセットでライティング処理をおこなって、すごく自然なライトで見えるようにする仕組みか。スクショがめちゃくちゃナチュラルですね。
github.com/lllyasviel/IC-…— 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)
10:17 AM • May 8, 2024
応用可能な領域は多岐に渡っており、商品のプロモーション画像への適用がなされているほか、実写だけでなく、アニメ画像においてもかなり高い精度で背景を合成できるという評判があります。また、背景だけでなく人物の顔も変えるというトリッキーな使い方もなされています。
やや趣向は変わりますが、照明の制御に役立つ技術として、以前X上で「Line2Normalmap」(デモ動画)も話題になりました。線画から3D化に必要な法線画像を生成するもので、アニメ画像に適用することによって、非常に自然な陰影を付与することができます(作品例)。
今回IC-Lightを公開したのは「ControlNet」を開発したことで知られるイリヤスフィール氏です。ControlNetは、人物の顔を固定できる「LoRA」と並ぶ、画像生成AI分野における革新的な技術で、人物の姿勢や物体の輪郭などを別の画像で指定することができます。
同氏は今年3月に「LayerDiffusion」と呼ばれる、背景が透明な画像を生成できる技術も公開していました(以前のニュースレター)。生成画像の重ね合わせを可能にするという点で、こちらも非常に画期的な技術として注目を集めています。
これらの技術のインパクトは、画像生成AIが出た当初と比べると小さいかも知れません。それでも、画像生成AIの制御性は一歩一歩着実に向上していると感じます。
② Stack OverflowがOpenAIとの提携を発表
Stack Overflowは、プログラミングに関するQ&Aサイトを運営している企業です。特にバグ遭遇時の解決法について議論されていることが多く、プログラマなら誰もが知るWebサイトといっても過言ではないでしょう。そんな有名企業が先日、OpenAIとのパートナーシップ締結を発表しました。
今回の提携によりOpenAIは、5800万を超える、フィードバック付きのQ&Aデータに対して、APIでアクセスすることが可能になります。
実はStack Overflow社は、ChatGPTの登場によって大打撃を受けた企業です。1日あたり2000万近くあったアクセス数は、ChatGPTリリースから僅か1年半で半減しました。プログラミング中に分からない事象に遭遇した際に、プログラマがGoogle検索ではなくChatGPTに聞くようになった影響が大きいと推察されます。
Stack OverflowのWebサイトへのアクセス数(1日あたり)の推移
また、生成AIは違った側面からもStack Overflow社に悪影響を与えました。Stack Overflow内で、ChatGPTなどのAIで生成された不確かな回答が蔓延してしまったのです。これを受けてStack Overflowは、ChatGPTをはじめとする生成AIの利用を禁じることが発表されています。
OpenAIはGPT-4の学習にあたり、規約を破ってYouTube動画を使用していたことがほぼ確実視されています。それゆえ、Stack OverflowのWebサイト内容が学習されていても何ら不思議ではありません。Stack Overflow社にとって、OpenAIとの提携は苦渋の決断だったと言えるでしょう。
OpenAIはデータ収集を主目的とした他企業とのパートナーシップ締結を次々発表しています。最近では、日経新聞の子会社Financial Timesとの提携(前回のニュースレター)が記憶に新しいです。無断学習を防ぐことが難しい現状を踏まえると、メディア企業とモデル開発企業が提携を進める動きは、今後も続いていくでしょう。
③ Xの情報にアクセスできるチャットボット「Grok」が使用可能に
X(旧Twitter)のリアルタイム情報にアクセスできるチャットボット「Grok」がXのPremiumプランに加入している全ユーザーに向けて公開されました。
Xでは生成AIの最新情報や、AIニュース・ツールへのユーザーの生の反応など、他のプラットフォームでは取得できない重要な情報が多く得られます。それらを要約して回答する機能は、まさに多くのAI情報収集者が求めていたものではないでしょうか。
Stack OverflowとOpenAIの連携について質問した時のGrokの回答
しかし残念ながら、まだまだ荒削りな印象があります。Grokの使い心地を確かめるべく、100回超やり取りを行いましたが、現在はポストの取得精度が悪く、「Xでしか得られない情報」を教えてもらうことは難しいと感じました。
LLMが最新情報をもとにより正確かつ有意義な回答を行えるようにするためには、インターネットという情報の海から、ごく一握りの質の高い情報をピンポイントで取得できるようになる必要があります。それゆえ、LLM技術の進歩とは別に、検索技術の進歩が不可欠です。
これに立ちはだかる問題として、生成AIの性能向上が、従来の検索技術で得られる結果の品質を下げている点があります。Google検索で、LLMによって生成された質の低い解説記事に遭遇する機会が増えているのは間違いないでしょう。また、画像分野では、テントウムシ画像の検索時に「HD」と付け加えると、検索上位がAI生成の生物学的に正しくない画像で埋め尽くされてしまうといった指摘もなされています。
これに対処できる最も有力な手段は、生成AIを組み合わせた検索技術を確立することでしょう。複数の大手メディアが、OpenAI社は近々新たな検索エンジンを発表すると報じており、大きな期待が集まります。
2. SNSで話題のAIツールをピックアップ!
Supertone Shift (https://product.supertone.ai/shift)
自分の声を悪魔や美少女キャラなどの声に変換できるリアルタイムボイスチェンジャー
遅延時間が47ms以下と極めて短いのにも関わらず、非常に高品質な音声に変換される
声の混合比率や、高さなど5つのパラメータを調整できるため、自由度も高い
PCの音声入力だとうまくいかないことがあることに注意(MacユーザーであればiPhoneのマイクを使用するのがおすすめ)
デスクトップアプリをダウンロードする必要があるが、6/26まで無料で使用可能
Anthropic Prompt Generator (https://console.anthropic.com/dashboard)
Claudeの開発元であるAnthropicが公式に提供しているプロンプト生成器
「NoLangというAIツールについてブログの投稿を書く」などとやりたいことを入力すると、Claudeに最適化された形で、良質なプロンプトが生成
Dashboard画面から「Generate a prompt」を押下して始められる(ボタンが表示されない場合は、ログアウト→再ログインで解決)
Claude のアカウントさえ持っていれば、無料で使用可能
3. プロンプトエンジニアリングの熟練度を10段階で測る
LLMに自分が望む出力をさせるためには「プロンプトエンジニアリング」が非常に重要です。LLMの進化に伴っていずれなくなっていく、小手先のテクニックもあれば、コンテキストを齟齬なく伝達するために必要な普遍的なテクニックもあります。
その熟練度をLevel 1~10で定める試みが大変面白く、以下で紹介していきます。自分の立ち位置を確認できるだけでなく、人に教える際にも役立つ基準かと思います。
1️⃣ Level 1 - 入門
まずは、LLMに何がしたいかを伝えられればOKです。
例:Wikipediaの記事を要約して
2️⃣ Level 2 - 書式の工夫
書式を少し工夫するだけで、回答精度が大きく向上するケースがあります。例えば、
「」によって強調したり変数としての意味を持たせる
否定文を避ける
重要な指示は繰り返し強調する
3️⃣ Level 3 - 精密な指示
人への指示も然りですが、解釈のブレが少ない明確な指示を与えられれば、期待通りの出力を得られる確率が高まります。
ダメな例:この回答をもっと綺麗にして
良い例:Xという列名を持つテーブル形式で出力して
4️⃣ Level 4 - 例示の使用
いわゆる「few shot learning」と呼ばれるものです。望ましい回答例をいくつか示してあげることで、長さ・フォーマット・文体などを指定することができます。ただし、付与した例に回答が引っ張られることもあるため、試行錯誤が必要な場合があります。
5️⃣ Level 5 - 内省
「抜けてる論点はある?」「本当に今の回答は正しい?」などとLLMに自身の回答を振り返らせることで、回答が多角的に評価され、品質が向上することが多いです。質問と内省を一度に行うのではなく、二回に分けて行うことで、より効果が出る印象です。
なお、この内省はLLMのハルシネーションの多さのチェックにも役立ちます。「本当に合ってる?」という質問を複数回続けたときに、回答が二転三転するようであれば、口から出まかせの、ハルシネーション確率が高いモデルであると推論できます。
6️⃣ Level 6 - システムプロンプト・カスタム指示
会話を通して常にLLMに把握して欲しいことは、システムプロンプト・カスタム指示に含めておくと効きが良いです。これらはユーザーの質問とは別に、第三者の視点から与えられます。
例:質問には必ず日本語で回答して
7️⃣ Level 7 - 専門家の模倣
LLMの性能があまり高くなく(例えばGPT-3.5レベル)、かつ用途が限られる場合に効果的なテクニックです。「あなたはpythonの天才プログラマーです」といったように役割を与えると、生成される可能性のある語彙が特定の専門領域にぐっと絞られ、性能が向上します。
逆に用途が多岐にわたる場合は、無理に指定する必要はないでしょう。
8️⃣ Level 8 - Chain of Thought
「step by stepで考えて」といったようにいきなり結論を導くのではなく、順を追って思考するよう指示することで、精度が向上するとよく言われます。
ただ、それに疑問を投げかけるような研究結果もあり、個人的にも有用性を感じたことはほとんどありません。
9️⃣ Level 9 - LLM自身にプロンプトを生成させる
上で紹介したAnthropic Prompt Generatorを使えば、プロンプトの雛形を高速に作成でき、時短に役立ちます。また、ペルソナの設定など具体的な表現が必要な時に、アイデア出しをしてもらうのも非常に効果的です。
🔟 Level 10 - CO-STAR
CO-STARは、シンガポール政府技術庁主催のプロンプトエンジニアリングコンペの優勝者が考案した、プロンプト設計のフレームワークです。Context, Object, Style, Tone, Audience, Responseの6つを指定するもので、非常に覚えやすい上、汎用性もかなり高いと感じています。
以下の投稿で解説していますので、詳しく知りたい方は是非ご覧ください!
シンガポール政府技術庁主催のプロンプトエンジニアリングコンペの優勝者が、プロンプトで指定すべき6つの要素「CO-STAR」を提案
とても覚えやすい上、few-shot learning, meta promptと組み合わせると非常に汎用的になると思い詳しく解説します!
CO-STARは、
- Context (背景)
- Objective (目的)
-… x.com/i/web/status/1…— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
7:53 AM • May 7, 2024
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、Xにて日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024