OpenAssistantのようなものです。
楽しみながら、幅広い人に使って欲しい。
質問と回答を別々に投稿できるほか、回答を比べて優秀な方を選んだり(DPO用)、タグ付け(主にネガティブ要素)したりできるようにする。これによって、得意な質問だけに答えたり自分の好きなタスクだけを行うことができるようになり、楽しくできると思う。
報酬として、視覚的なポイントやランキングを用意する。
(できれば、報酬のポイントを使って無料でLLMを使わせられるようにしたい。これが実際に利用できる報酬になる上に、ライセンス的に問題ないLLMであればその出力を直接学習に回せるかもしれない?)
参考:
幅広い人に使ってほしいのだが、正直期待するのは「めちゃくちゃやる気のある少数の人たち」である。というのも、OpenAssistant のレポートによると、投稿の多くは少数の熱心なユーザーだったらしいので、過度な期待ができない (質も考えるとそう)。
多少頑張ってくれそうなつては少しあるが、100人くらいが頑張ってくれたらかなり嬉しいレベルかもしれない。
ただ、OpenAssistant では英語の次にスペイン語の投稿が非常に多かったそうなのだが、これは「インフルエンサーが紹介したから」とレポートで言われている。そのため、このプロジェクトではシェアされやすいような構造にすることで流入を増やせないかなと考えている。
そのためにも、LLMを作る側じゃない人間でも触るきっかけになるようなメリットを作るべきだと考えたので、「もらえるポイントを使って無料でLLMで遊べる」という機能をつけたい。これがあるだけで、実体のある報酬になるのと、単純に楽しいと思う。コストは不明。